CVPR 2025|多模態(tài)統(tǒng)一學(xué)習(xí)新范式來了，數(shù)據(jù)、模型、代碼全部開源

2025-06-12 14:50:57　來源: 機器之心Pro

天津舉報

分享至

本文第一作者杜恒輝為中國人民大學(xué)二年級碩士生，主要研究方向為多模態(tài)大模型視聽場景理解與推理，長視頻理解等，師從胡迪副教授。作者來自于中國人民大學(xué)，清華大學(xué)和北京騰訊 PCG AI 技術(shù)中心。

我們?nèi)祟惿钤谝粋€充滿視覺和音頻信息的世界中，近年來已經(jīng)有很多工作利用這兩個模態(tài)的信息來增強模型對視聽場景的理解能力，衍生出了多種不同類型的任務(wù)，它們分別要求模型具備不同層面的能力。

過去大量的工作主要聚焦于完成單一任務(wù)，相比之下，我們?nèi)祟悓χ車鷱?fù)雜的的世界具有一個通用的感知理解能力。因此，如何設(shè)計一個像人類一樣對視聽場景具有通用理解能力的模型是未來通往 AGI 道路上一個極其重要的問題。當(dāng)前主流的學(xué)習(xí)范式是通過構(gòu)建大規(guī)模的多任務(wù)指令微調(diào)數(shù)據(jù)集并在此基礎(chǔ)上直接做指令微調(diào)。然而，這種學(xué)習(xí)范式對于多任務(wù)學(xué)習(xí)而言是最優(yōu)的嗎？

最近中國人民大學(xué)高瓴人工智能學(xué)院GeWu-Lab實驗室，清華大學(xué)和北京騰訊 PCG AI 技術(shù)中心合作發(fā)表的 CVPR 2025 論文指出，當(dāng)前這種主流的學(xué)習(xí)范式忽視了多模態(tài)數(shù)據(jù)的異質(zhì)性和任務(wù)間的復(fù)雜關(guān)系，簡單地將所有任務(wù)聯(lián)合訓(xùn)練可能會造成任務(wù)間的相互干擾。

為了有效實現(xiàn)任務(wù)間的顯示互助，作者團隊提出了多模態(tài)大模型學(xué)習(xí)的新范式，分別從數(shù)據(jù)和模型兩個角度實現(xiàn)了多模態(tài)場景理解任務(wù)的高效一統(tǒng)，并在多個場景理解任務(wù)上超過了垂類專家模型，數(shù)據(jù)集、模型和代碼全部開源。目前工作還在進(jìn)一步拓展中，歡迎感興趣的領(lǐng)域?qū)＜壹尤耄餐瑯?gòu)建一個統(tǒng)一的理解、生成與推理的框架。如有興趣，請郵件聯(lián)系 dihu@ruc.edu.cn。

論文標(biāo)題：Crab: A Unified Audio-Visual Scene Understanding Model with ExplicitCooperation
論文鏈接：https://arxiv.org/abs/2503.13068
項目主頁：https://github.com/GeWu-Lab/Crab

統(tǒng)一的多模態(tài)場景理解能力展示

時序定位

輸入一段音視頻，讓模型找到發(fā)生的音視頻事件并定位出時序片段。

空間定位
輸入一段音頻和一張圖像，讓模型定位出圖片中發(fā)聲的物體為止。

時空推理

輸入一段樂器演奏的音視頻場景，讓模型回答相關(guān)問題，涉及到時序和空間信息的理解以及推理。

像素級理解

輸入一段音頻和一張圖片，讓模型分割出圖片中發(fā)聲的物體，具體包含 S4, MS3, AVSS 和 Ref-AVS 等多種分割任務(wù)。

視覺和聽覺信息是我們?nèi)祟惤佑|最多的兩類信息，近年來已經(jīng)有很多工作開始探究基于這兩個模態(tài)的視聽場景理解任務(wù)，主要可以分為時序定位、空間定位、像素級理解和時空推理等四種不同類型的任務(wù)，它們分別要求模型具備不同層面的能力。過去大量的工作聚焦于完成單一任務(wù)，相比之下，我們?nèi)祟悓χ車鷱?fù)雜的世界具有一個通用的感知理解能力。因此，讓模型也像人類一樣具有統(tǒng)一的視聽場景理解能力是具有重要意義的。

隨著多模態(tài)大語言模型的發(fā)展，構(gòu)建大規(guī)模的指令微調(diào)數(shù)據(jù)集并將各種不同的任務(wù)直接進(jìn)行聯(lián)合訓(xùn)練已經(jīng)成為當(dāng)前主流的學(xué)習(xí)范式。然而，這種學(xué)習(xí)范式忽視了多模態(tài)數(shù)據(jù)的異質(zhì)性和任務(wù)間的復(fù)雜關(guān)系，簡單地將所有任務(wù)聯(lián)合訓(xùn)練可能會造成任務(wù)間的相互干擾，這種現(xiàn)象在之前的工作中已經(jīng)被證實，并且這個問題對于任務(wù)間差異較大的視聽場景理解任務(wù)來說則更為重要。為了有效解決上述問題，本文分別從數(shù)據(jù)和模型的角度針對性地提出了一個統(tǒng)一的顯示互助學(xué)習(xí)范式來有效實現(xiàn)任務(wù)間的顯示互助。為了明確任務(wù)間的互助關(guān)系，首先構(gòu)建了一個具有顯示推理過程的數(shù)據(jù)集 AV-UIE，它包含具體的時序和空間信息，可以有效建立任務(wù)間的互助關(guān)系。然后為了進(jìn)一步在學(xué)習(xí)過程中促進(jìn)任務(wù)間的相互協(xié)助，本文提出了一種具有多個 Head 的類MoE LoRA結(jié)構(gòu)，每個 Head 負(fù)責(zé)學(xué)習(xí)多模態(tài)數(shù)據(jù)交互的不同層面，通過這種結(jié)構(gòu)將模型的不同能力解耦，讓任務(wù)間的互助關(guān)系顯示地展現(xiàn)出來，共享的能力在不同任務(wù)間建立起相互協(xié)助的橋梁。

AV-UIE: 具有顯示推理過程的視聽場景指令微調(diào)數(shù)據(jù)集

從數(shù)據(jù)的角度來看，現(xiàn)有視聽場景理解數(shù)據(jù)集的標(biāo)簽是簡單的單詞或者短語，這樣簡單的標(biāo)簽在訓(xùn)練過程中并不能顯著地幫助到其它任務(wù)，或者說只能以一種隱式的方式增強模型的訓(xùn)練效果，我們并不能確保一定是對其它任務(wù)有幫助的。為了進(jìn)一步地促進(jìn)任務(wù)間的顯示互助并將互助關(guān)系顯示地體現(xiàn)出來，本文提出了具有顯示推理過程的視聽場景指令微調(diào)數(shù)據(jù)集 AV-UIE，通過細(xì)化現(xiàn)有數(shù)據(jù)集的標(biāo)簽，額外增加了顯示的推理過程，其中包含具體的時空信息，這些信息明確了任務(wù)間的互助關(guān)系。

圖 1. 具有顯示推理過程的 AV-UIE 數(shù)集構(gòu)造流程和統(tǒng)計分析

圖 1 展示了具體的構(gòu)建過程以及對數(shù)據(jù)集的統(tǒng)計分析，通過 in-context learning 的方式利用現(xiàn)有的強大的多模態(tài)大模型進(jìn)行標(biāo)注，從不同任務(wù)中的數(shù)據(jù)中獲取音視頻場景，為了保證結(jié)果的準(zhǔn)確性和推理過程的合理性，原有數(shù)據(jù)的標(biāo)簽也作為輸入，讓 Gemini 1.5 Pro 針對該場景輸出帶有時序和空間等信息的顯示推理過程。為了保證數(shù)據(jù)的質(zhì)量，最終再由人工進(jìn)行檢查糾正。在訓(xùn)練過程中這些細(xì)化后的標(biāo)簽?zāi)軌蚬膭钅Ｐ蜏?zhǔn)確理解視聽場景內(nèi)容并輸出相應(yīng)的時空信息，以此來增強模型特定的能力，從而幫助到其它依賴這些特定能力的任務(wù)。圖 2 展示了 AVQA 和 AVVP 這兩種任務(wù)實現(xiàn)顯示互助的數(shù)據(jù)樣例，不同的顏色表示不同類型的時空信息，這兩個任務(wù)都能夠受益于增強后的空間定位和時序定位能力。

圖 2. AVQA 和 AVVP 任務(wù)通過顯示推理過程實現(xiàn)相互幫助的示例

AV-UIE 數(shù)據(jù)集包含九種任務(wù)的數(shù)據(jù)，總共 200K 訓(xùn)練樣本。其中，時序定位任務(wù)包含 AVE 和 AVVP，數(shù)據(jù)占比 6.8%，空間定位任務(wù)包含ARIG，數(shù)據(jù)占比 25.8%，像素級理解任務(wù)包含 S4，MS3，AVSS 和 Ref-AVS，數(shù)據(jù)占比 41.6%，時空理解任務(wù)包含 AVQA，數(shù)據(jù)占比 25.8%。相比于其它的指令微調(diào)數(shù)據(jù)集，盡管每一個任務(wù)的訓(xùn)練樣本數(shù)比較小，但是在顯示推理過程的幫助下，任務(wù)間的顯示互助仍然可以增強模型在單個任務(wù)上的性能。

Crab: 實現(xiàn)任務(wù)間顯示互助的統(tǒng)一學(xué)習(xí)框架

從數(shù)據(jù)的角度保證了模型可以輸出帶有時序信息的顯示推理過程，這是從結(jié)果上對模型進(jìn)行約束，顯示地增強不同類型的能力，但是如何保證模型在學(xué)習(xí)過程中可以有效地學(xué)到這些不同的能力呢？為此，本文提出了一個視聽場景理解的統(tǒng)一學(xué)習(xí)框架，圖 3 展示了模型的整體架構(gòu)，主要包括三個統(tǒng)一的多模態(tài)接口，分別用來處理 audio, visual 和 segmentation mask 數(shù)據(jù)，一個具有 interaction-aware LoRA 結(jié)構(gòu)的大模型，用于在學(xué)習(xí)過程中有效學(xué)習(xí)數(shù)據(jù)交互的不同層面從而實現(xiàn)任務(wù)間的顯示互助。

圖 3. 模型總體架構(gòu)

傳統(tǒng)的 LoRA 結(jié)構(gòu)由一組對稱的 A 矩陣和 B 矩陣組成，用于在下游任務(wù)上高效微調(diào)模型，具有多組對稱的 AB 矩陣的 LoRA MoE 結(jié)構(gòu)通常被用來多任務(wù)微調(diào)，每一組 LoRA 負(fù)責(zé)解決單個任務(wù)。為了進(jìn)一步地促進(jìn)任務(wù)間的相互協(xié)助，本文提出的 Interaction-aware LoRA 結(jié)構(gòu)（如圖 4 所示）由一個共享的 A 矩陣和多個不同的LoRA HeadB 矩陣組成，每個 Head 期望去學(xué)習(xí)數(shù)據(jù)交互的不同層面，進(jìn)而具備不同的能力。為了有效區(qū)分不同的 Head，額外增加一個 Router 用來給不同的任務(wù)分配不同的權(quán)重。例如，在學(xué)習(xí)過程中，時空推理任務(wù) AVQA 聚焦于增強模型的時序和空間定位能力，那么就會更多的激活對應(yīng) Head 的參數(shù)，增強它們特定的能力，而其它的時序定位和空間任務(wù)都可以受益于這些增強后的 Head。從這個角度來說，模型的能力被解耦成多個特定的能力，模型可以顯示地依賴這些能力完成不同類型的任務(wù)，而多個任務(wù)間共享的能力建立起了任務(wù)間協(xié)助的橋梁。

圖 2. 具有多個 LoRA head 的 Interaction-aware LoRA 結(jié)構(gòu)

實驗與分析

為了證明顯示互助學(xué)習(xí)范式的有效性，本文分別對比了在所有任務(wù)上通用的模型以及在單個任務(wù)上專有的模型，并提供了全面的消融實驗對比結(jié)果。表 1 展示了與多個任務(wù)上的通用模型的對比結(jié)果，相比于其它模型，本文提出的 Crab 統(tǒng)一學(xué)習(xí)框架在所有類型的任務(wù)上具有更加通用的理解能力，并且在多個任務(wù)上取得了更好的表現(xiàn)。這表明了 Crab 在視聽場景通用理解能力方面的優(yōu)越性。

表 1. 與多個任務(wù)上的通用模型的對比結(jié)果

表 2，3，4，5 分別展示了與時序定位、空間定位、像素級理解和時空推理等四種類型任務(wù)的專有模型對比結(jié)果，可以看到在 AVE、ARIG、AVQA 等任務(wù)上 Crab 均優(yōu)于單個任務(wù)上的專有模型，在 AVVP 和 AVS 任務(wù)上取得了相近的表現(xiàn)。表 6 展示了全面的消融實驗結(jié)果，相比于單個任務(wù)，簡單的多任務(wù) LoRA 微調(diào)并不能充分實現(xiàn)任務(wù)間的相互協(xié)助，甚至在一些任務(wù)上可能會降低性能。相比之下，在顯示互助的學(xué)習(xí)范式下，任務(wù)間的相互干擾被有效緩解，任務(wù)間的相互協(xié)助提高了單個任務(wù)的性能。

表 2. 與時序定位任務(wù)專有模型對比結(jié)果

表 3. 與空間定位任務(wù)專有模型對比結(jié)果

表 4. 與像素級理解任務(wù)專有模型對比結(jié)果

表 5. 與時空推理任務(wù)專有模型對比結(jié)果

表 6. 全面的消融實驗對比結(jié)果

為了進(jìn)一步證明任務(wù)間顯示互助的過程，本文對多個 LoRA Head 進(jìn)行了可視化分析實驗。在推理過程中，對于每個任務(wù)的多模態(tài)輸入數(shù)據(jù)，每個 LoRA Head 會產(chǎn)生一個權(quán)重，權(quán)重越大，表明完成該任務(wù)越依賴于這個 Head。圖 3 對比了 3 個 Head 在不同任務(wù)上的權(quán)重，左圖是 B1 和 B2，右圖是 B2 和 B3。可以發(fā)現(xiàn)兩點：1）相同類型的任務(wù)對不同 Head 的依賴程度是類似的，它們對不同 Head 的依賴權(quán)重分別形成不同的簇；2）不同任務(wù)對 3 個 Head 的不同依賴性表明每個 Head 具備不同的能力。這表明模型的能力被解耦成多種不同的能力，多個任務(wù)間可能會依賴于同一種能力，因此它們可以建立相互協(xié)助的關(guān)系。

圖 3. 3 個 LoRA Head 的權(quán)重可視化

總述

本文分別從數(shù)據(jù)和模型的角度出發(fā)，提出了統(tǒng)一視聽場景理解的顯示互助范式來實現(xiàn)任務(wù)間的顯示互助，大量的實驗結(jié)果以及可視化分析均證明了該范式的有效性。我們希望本文提出的想法可以為該領(lǐng)域的發(fā)展提供新的研究視角，并且在未來的工作中我們將聚焦于多模態(tài)推理的新范式，希望將現(xiàn)有的多模態(tài)推理工作提升到一個新的高度。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.