本文第一作者杜恒輝為中國人民大學(xué)二年級碩士生,主要研究方向為多模態(tài)大模型視聽場景理解與推理,長視頻理解等,師從胡迪副教授。作者來自于中國人民大學(xué),清華大學(xué)和北京騰訊 PCG AI 技術(shù)中心。
我們?nèi)祟惿钤谝粋€充滿視覺和音頻信息的世界中,近年來已經(jīng)有很多工作利用這兩個模態(tài)的信息來增強模型對視聽場景的理解能力,衍生出了多種不同類型的任務(wù),它們分別要求模型具備不同層面的能力。
過去大量的工作主要聚焦于完成單一任務(wù),相比之下,我們?nèi)祟悓χ車鷱?fù)雜的的世界具有一個通用的感知理解能力。因此,如何設(shè)計一個像人類一樣對視聽場景具有通用理解能力的模型是未來通往 AGI 道路上一個極其重要的問題。當(dāng)前主流的學(xué)習(xí)范式是通過構(gòu)建大規(guī)模的多任務(wù)指令微調(diào)數(shù)據(jù)集并在此基礎(chǔ)上直接做指令微調(diào)。然而,這種學(xué)習(xí)范式對于多任務(wù)學(xué)習(xí)而言是最優(yōu)的嗎?
最近中國人民大學(xué)高瓴人工智能學(xué)院GeWu-Lab實驗室,清華大學(xué)和北京騰訊 PCG AI 技術(shù)中心合作發(fā)表的 CVPR 2025 論文指出,當(dāng)前這種主流的學(xué)習(xí)范式忽視了多模態(tài)數(shù)據(jù)的異質(zhì)性和任務(wù)間的復(fù)雜關(guān)系,簡單地將所有任務(wù)聯(lián)合訓(xùn)練可能會造成任務(wù)間的相互干擾。
為了有效實現(xiàn)任務(wù)間的顯示互助,作者團隊提出了多模態(tài)大模型學(xué)習(xí)的新范式,分別從數(shù)據(jù)和模型兩個角度實現(xiàn)了多模態(tài)場景理解任務(wù)的高效一統(tǒng),并在多個場景理解任務(wù)上超過了垂類專家模型,數(shù)據(jù)集、模型和代碼全部開源。目前工作還在進(jìn)一步拓展中,歡迎感興趣的領(lǐng)域?qū)<壹尤耄餐瑯?gòu)建一個統(tǒng)一的理解、生成與推理的框架。如有興趣,請郵件聯(lián)系 dihu@ruc.edu.cn。
- 論文標(biāo)題:Crab: A Unified Audio-Visual Scene Understanding Model with ExplicitCooperation
- 論文鏈接:https://arxiv.org/abs/2503.13068
- 項目主頁:https://github.com/GeWu-Lab/Crab
統(tǒng)一的多模態(tài)場景理解能力展示
時序定位
輸入一段音視頻,讓模型找到發(fā)生的音視頻事件并定位出時序片段。
空間定位
輸入一段音頻和一張圖像,讓模型定位出圖片中發(fā)聲的物體為止。
時空推理
輸入一段樂器演奏的音視頻場景,讓模型回答相關(guān)問題,涉及到時序和空間信息的理解以及推理。
像素級理解
輸入一段音頻和一張圖片,讓模型分割出圖片中發(fā)聲的物體,具體包含 S4, MS3, AVSS 和 Ref-AVS 等多種分割任務(wù)。
視覺和聽覺信息是我們?nèi)祟惤佑|最多的兩類信息,近年來已經(jīng)有很多工作開始探究基于這兩個模態(tài)的視聽場景理解任務(wù),主要可以分為時序定位、空間定位、像素級理解和時空推理等四種不同類型的任務(wù),它們分別要求模型具備不同層面的能力。過去大量的工作聚焦于完成單一任務(wù),相比之下,我們?nèi)祟悓χ車鷱?fù)雜的世界具有一個通用的感知理解能力。因此,讓模型也像人類一樣具有統(tǒng)一的視聽場景理解能力是具有重要意義的。
隨著多模態(tài)大語言模型的發(fā)展,構(gòu)建大規(guī)模的指令微調(diào)數(shù)據(jù)集并將各種不同的任務(wù)直接進(jìn)行聯(lián)合訓(xùn)練已經(jīng)成為當(dāng)前主流的學(xué)習(xí)范式。然而,這種學(xué)習(xí)范式忽視了多模態(tài)數(shù)據(jù)的異質(zhì)性和任務(wù)間的復(fù)雜關(guān)系,簡單地將所有任務(wù)聯(lián)合訓(xùn)練可能會造成任務(wù)間的相互干擾,這種現(xiàn)象在之前的工作中已經(jīng)被證實,并且這個問題對于任務(wù)間差異較大的視聽場景理解任務(wù)來說則更為重要。為了有效解決上述問題,本文分別從數(shù)據(jù)和模型的角度針對性地提出了一個統(tǒng)一的顯示互助學(xué)習(xí)范式來有效實現(xiàn)任務(wù)間的顯示互助。為了明確任務(wù)間的互助關(guān)系,首先構(gòu)建了一個具有顯示推理過程的數(shù)據(jù)集 AV-UIE,它包含具體的時序和空間信息,可以有效建立任務(wù)間的互助關(guān)系。然后為了進(jìn)一步在學(xué)習(xí)過程中促進(jìn)任務(wù)間的相互協(xié)助,本文提出了一種具有多個 Head 的類MoE LoRA結(jié)構(gòu),每個 Head 負(fù)責(zé)學(xué)習(xí)多模態(tài)數(shù)據(jù)交互的不同層面,通過這種結(jié)構(gòu)將模型的不同能力解耦,讓任務(wù)間的互助關(guān)系顯示地展現(xiàn)出來,共享的能力在不同任務(wù)間建立起相互協(xié)助的橋梁。
AV-UIE: 具有顯示推理過程的視聽場景指令微調(diào)數(shù)據(jù)集
從數(shù)據(jù)的角度來看,現(xiàn)有視聽場景理解數(shù)據(jù)集的標(biāo)簽是簡單的單詞或者短語,這樣簡單的標(biāo)簽在訓(xùn)練過程中并不能顯著地幫助到其它任務(wù),或者說只能以一種隱式的方式增強模型的訓(xùn)練效果,我們并不能確保一定是對其它任務(wù)有幫助的。為了進(jìn)一步地促進(jìn)任務(wù)間的顯示互助并將互助關(guān)系顯示地體現(xiàn)出來,本文提出了具有顯示推理過程的視聽場景指令微調(diào)數(shù)據(jù)集 AV-UIE,通過細(xì)化現(xiàn)有數(shù)據(jù)集的標(biāo)簽,額外增加了顯示的推理過程,其中包含具體的時空信息,這些信息明確了任務(wù)間的互助關(guān)系。
圖 1. 具有顯示推理過程的 AV-UIE 數(shù)集構(gòu)造流程和統(tǒng)計分析
圖 1 展示了具體的構(gòu)建過程以及對數(shù)據(jù)集的統(tǒng)計分析,通過 in-context learning 的方式利用現(xiàn)有的強大的多模態(tài)大模型進(jìn)行標(biāo)注,從不同任務(wù)中的數(shù)據(jù)中獲取音視頻場景,為了保證結(jié)果的準(zhǔn)確性和推理過程的合理性,原有數(shù)據(jù)的標(biāo)簽也作為輸入,讓 Gemini 1.5 Pro 針對該場景輸出帶有時序和空間等信息的顯示推理過程。為了保證數(shù)據(jù)的質(zhì)量,最終再由人工進(jìn)行檢查糾正。在訓(xùn)練過程中這些細(xì)化后的標(biāo)簽?zāi)軌蚬膭钅P蜏?zhǔn)確理解視聽場景內(nèi)容并輸出相應(yīng)的時空信息,以此來增強模型特定的能力,從而幫助到其它依賴這些特定能力的任務(wù)。圖 2 展示了 AVQA 和 AVVP 這兩種任務(wù)實現(xiàn)顯示互助的數(shù)據(jù)樣例,不同的顏色表示不同類型的時空信息,這兩個任務(wù)都能夠受益于增強后的空間定位和時序定位能力。
圖 2. AVQA 和 AVVP 任務(wù)通過顯示推理過程實現(xiàn)相互幫助的示例
AV-UIE 數(shù)據(jù)集包含九種任務(wù)的數(shù)據(jù),總共 200K 訓(xùn)練樣本。其中,時序定位任務(wù)包含 AVE 和 AVVP,數(shù)據(jù)占比 6.8%,空間定位任務(wù)包含ARIG,數(shù)據(jù)占比 25.8%,像素級理解任務(wù)包含 S4,MS3,AVSS 和 Ref-AVS,數(shù)據(jù)占比 41.6%,時空理解任務(wù)包含 AVQA,數(shù)據(jù)占比 25.8%。相比于其它的指令微調(diào)數(shù)據(jù)集,盡管每一個任務(wù)的訓(xùn)練樣本數(shù)比較小,但是在顯示推理過程的幫助下,任務(wù)間的顯示互助仍然可以增強模型在單個任務(wù)上的性能。
Crab: 實現(xiàn)任務(wù)間顯示互助的統(tǒng)一學(xué)習(xí)框架
從數(shù)據(jù)的角度保證了模型可以輸出帶有時序信息的顯示推理過程,這是從結(jié)果上對模型進(jìn)行約束,顯示地增強不同類型的能力,但是如何保證模型在學(xué)習(xí)過程中可以有效地學(xué)到這些不同的能力呢?為此,本文提出了一個視聽場景理解的統(tǒng)一學(xué)習(xí)框架,圖 3 展示了模型的整體架構(gòu),主要包括三個統(tǒng)一的多模態(tài)接口,分別用來處理 audio, visual 和 segmentation mask 數(shù)據(jù),一個具有 interaction-aware LoRA 結(jié)構(gòu)的大模型,用于在學(xué)習(xí)過程中有效學(xué)習(xí)數(shù)據(jù)交互的不同層面從而實現(xiàn)任務(wù)間的顯示互助。
圖 3. 模型總體架構(gòu)
傳統(tǒng)的 LoRA 結(jié)構(gòu)由一組對稱的 A 矩陣和 B 矩陣組成,用于在下游任務(wù)上高效微調(diào)模型,具有多組對稱的 AB 矩陣的 LoRA MoE 結(jié)構(gòu)通常被用來多任務(wù)微調(diào),每一組 LoRA 負(fù)責(zé)解決單個任務(wù)。為了進(jìn)一步地促進(jìn)任務(wù)間的相互協(xié)助,本文提出的 Interaction-aware LoRA 結(jié)構(gòu)(如圖 4 所示)由一個共享的 A 矩陣和多個不同的LoRA HeadB 矩陣組成,每個 Head 期望去學(xué)習(xí)數(shù)據(jù)交互的不同層面,進(jìn)而具備不同的能力。為了有效區(qū)分不同的 Head,額外增加一個 Router 用來給不同的任務(wù)分配不同的權(quán)重。例如,在學(xué)習(xí)過程中,時空推理任務(wù) AVQA 聚焦于增強模型的時序和空間定位能力,那么就會更多的激活對應(yīng) Head 的參數(shù),增強它們特定的能力,而其它的時序定位和空間任務(wù)都可以受益于這些增強后的 Head。從這個角度來說,模型的能力被解耦成多個特定的能力,模型可以顯示地依賴這些能力完成不同類型的任務(wù),而多個任務(wù)間共享的能力建立起了任務(wù)間協(xié)助的橋梁。
圖 2. 具有多個 LoRA head 的 Interaction-aware LoRA 結(jié)構(gòu)
實驗與分析
為了證明顯示互助學(xué)習(xí)范式的有效性,本文分別對比了在所有任務(wù)上通用的模型以及在單個任務(wù)上專有的模型,并提供了全面的消融實驗對比結(jié)果。表 1 展示了與多個任務(wù)上的通用模型的對比結(jié)果,相比于其它模型,本文提出的 Crab 統(tǒng)一學(xué)習(xí)框架在所有類型的任務(wù)上具有更加通用的理解能力,并且在多個任務(wù)上取得了更好的表現(xiàn)。這表明了 Crab 在視聽場景通用理解能力方面的優(yōu)越性。
表 1. 與多個任務(wù)上的通用模型的對比結(jié)果
表 2,3,4,5 分別展示了與時序定位、空間定位、像素級理解和時空推理等四種類型任務(wù)的專有模型對比結(jié)果,可以看到在 AVE、ARIG、AVQA 等任務(wù)上 Crab 均優(yōu)于單個任務(wù)上的專有模型,在 AVVP 和 AVS 任務(wù)上取得了相近的表現(xiàn)。表 6 展示了全面的消融實驗結(jié)果,相比于單個任務(wù),簡單的多任務(wù) LoRA 微調(diào)并不能充分實現(xiàn)任務(wù)間的相互協(xié)助,甚至在一些任務(wù)上可能會降低性能。相比之下,在顯示互助的學(xué)習(xí)范式下,任務(wù)間的相互干擾被有效緩解,任務(wù)間的相互協(xié)助提高了單個任務(wù)的性能。
表 2. 與時序定位任務(wù)專有模型對比結(jié)果
表 3. 與空間定位任務(wù)專有模型對比結(jié)果
表 4. 與像素級理解任務(wù)專有模型對比結(jié)果
表 5. 與時空推理任務(wù)專有模型對比結(jié)果
表 6. 全面的消融實驗對比結(jié)果
為了進(jìn)一步證明任務(wù)間顯示互助的過程,本文對多個 LoRA Head 進(jìn)行了可視化分析實驗。在推理過程中,對于每個任務(wù)的多模態(tài)輸入數(shù)據(jù),每個 LoRA Head 會產(chǎn)生一個權(quán)重,權(quán)重越大,表明完成該任務(wù)越依賴于這個 Head。圖 3 對比了 3 個 Head 在不同任務(wù)上的權(quán)重,左圖是 B1 和 B2,右圖是 B2 和 B3。可以發(fā)現(xiàn)兩點:1)相同類型的任務(wù)對不同 Head 的依賴程度是類似的,它們對不同 Head 的依賴權(quán)重分別形成不同的簇;2)不同任務(wù)對 3 個 Head 的不同依賴性表明每個 Head 具備不同的能力。這表明模型的能力被解耦成多種不同的能力,多個任務(wù)間可能會依賴于同一種能力,因此它們可以建立相互協(xié)助的關(guān)系。
圖 3. 3 個 LoRA Head 的權(quán)重可視化
總述
本文分別從數(shù)據(jù)和模型的角度出發(fā),提出了統(tǒng)一視聽場景理解的顯示互助范式來實現(xiàn)任務(wù)間的顯示互助,大量的實驗結(jié)果以及可視化分析均證明了該范式的有效性。我們希望本文提出的想法可以為該領(lǐng)域的發(fā)展提供新的研究視角,并且在未來的工作中我們將聚焦于多模態(tài)推理的新范式,希望將現(xiàn)有的多模態(tài)推理工作提升到一個新的高度。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.