- PAM團隊 投稿
量子位 | 公眾號 QbitAI
可以輸出語義的「分割一切模型2.0」來了!
一次交互,「分割+識別+解釋+描述」全搞定,同時支持圖像、視頻和長視頻,文本&Mask同時輸出!
由港中文MMLab、港理工、北京大學等機構開源的PAM(Perceive Anything Model)模型,能夠在保留SAM2分割一切、追蹤一切能力的基礎上,同時輸出豐富的語義信息。
為了訓練這樣一個強大的模型,PAM團隊還構建了一個超大規模高質量訓練數據集:擁有150萬個圖像區域+60萬個視頻區域標注
實驗結果表明,PAM僅使用3B參數,就在多個圖像和視頻理解基準上全面刷新或逼近SOTA,且具備更優的推理效率和顯存占用,真正實現性能與輕量的統一。
所有數據均已完全開源
PAM:準確定位一鍵輸出
SAM2擁有強大的分割能力,可以“分割一切物體”,在視頻中能夠高效追蹤任意目標,表現驚艷!
但它也有一個明顯的局限:無法提供定位目標的任何語義信息(比如物體是什么、有何功能、處于什么狀態等)。
一些最新的Video LLM模型嘗試結合VLM和SAM2的強大視覺提示能力,進行視頻理解。然而:
- 這些模型往往無法直接輸出分割結果,或需要額外接入segment模型,流程復雜;
- 模型體量通常非常龐大,對計算資源要求高,不適用于輕量化、快速響應的實際場景(如AR/VR、移動端推理等)。
而PAM(Perceive Anything Model)既保留了SAM2在圖像和視頻中分割、追蹤一切物體的能力,同時可以輸出豐富的語義信息:
在圖像任務中,PAM支持一次點擊即可輸出選中區域的:
- 類別(Label)
- 解釋(Explain)
- 精細描述(Caption)
在視頻任務中,PAM同樣支持區域理解:
- 整段描述(Caption)
- 流式描述(Streaming Caption):連續事件追蹤+動態敘述
只需要用戶的一次點擊,PAM就可以并行輸出mask和文本,在許多應用場景下都具有潛力!
效果展示:圖片/短視頻/長視頻
對于圖片,用戶通過或者拖拽矩形框選中一個物體,PAM可以完成分割的同時,輸出該物體的類別+解釋+描述的詳細語義信息!
對于較短視頻,用戶選中特定物體后,PAM可以追蹤并分割該物體,同時輸出該物體的事件描述
而對于長視頻,PAM在追蹤分割用戶選中物體的同時,會根據事件的變化,動態地輸出流式描述,類似實時字幕
工作原理:模型框架+數據集
PAM引入了Semantic Perceiver來連接SAM2分割骨架和LLM,高效地將視覺特征“翻譯”成多模態token
通過SAM2分割骨架+Semantic Perceiver+LLM并行解碼,在保證輕量高效的前提下,實現了分割mask和語義信息并行輸出的圖像/視頻區域級理解。
基于此方法,PAM只使用了1.5B/3B參數的LLM head,就可以輸出非常豐富和魯棒的語義信息。
為支撐PAM的訓練,構建了一個大規模、多層次、高密度的圖像與視頻語義標注數據集,覆蓋分類、解釋、描述、時序事件等多個維度:
圖像數據:精細三連注釋
使用SoM(Set of Masks)方法精準定位目標區域**,結合強大的閉源VLM(如GPT-4o)生成三類語義信息:
- 類別(Label)
- 解釋(Explain)
- 描述(Caption)
每個物體不僅知道“是什么”,還能解釋“為什么”和“什么作用”。
視頻數據:Storyboard驅動式理解
- 對每段視頻抽取6關鍵幀,合成為Storyboard格式的高分辨率圖像;
- 使用SoM高亮目標區域,作為提示引導;
- 利用閉源VLM進行多幀聯合推理,生成細節豐富、時間感知強的事件描述。
流式視頻數據:連貫事件字幕的首創實踐
- 將長視頻切分為多個連續不重疊的事件片段
- 每段片段重復Storyboard流程;
- 并在生成描述時遞歸引入前一段文字內容,讓字幕連貫銜接,保證上下文一致性。
實驗分析:規模更小、性能更好
可以看到,PAM-3B在PACO基準測試中達到最佳性能,超過先前最佳模型3.2%以上,并在LVIS基準測試中,就語義IoU而言,超越了當前SOTA模型DAM-8B。
此外,PAM-3B在Total-Text上超過VP-SPHINX-13B超過3.5%,并在COCO-Text上達到相當的性能。
在ImageCaption、VideoCaption、視頻時序事件理解等多個benchmark上,PAM都以更小的參數規模(3Bvs8B、13B)刷新或并列SOTA
如圖所示,和相同參數量的DAM-3B模型相比,PAM-3B推理更快,顯存更省
此外,PAM首創了區域級的流式視頻字幕能力,不僅能持續描述一個物體的行為,還能在連續事件中保持高度語義一致性,展現了強大的實際應用潛力。
論文地址:https://arxiv.org/abs/2506.05302
項目主頁:https://perceive-anything.github.io/
GitHub Repo:https://github.com/Perceive-Anything/PAM
Model CKPT:https://huggingface.co/Perceive-Anything/PAM-3B
Dataset:https://huggingface.co/datasets/Perceive-Anything/PAM-data
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.