大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

CVPR 2025|多模態(tài)統(tǒng)一學(xué)習(xí)新范式來了,數(shù)據(jù)、模型、代碼全部開源

0
分享至



本文第一作者杜恒輝為中國人民大學(xué)二年級碩士生,主要研究方向為多模態(tài)大模型視聽場景理解與推理,長視頻理解等,師從胡迪副教授。作者來自于中國人民大學(xué),清華大學(xué)和北京騰訊 PCG AI 技術(shù)中心。

我們?nèi)祟惿钤谝粋€充滿視覺和音頻信息的世界中,近年來已經(jīng)有很多工作利用這兩個模態(tài)的信息來增強模型對視聽場景的理解能力,衍生出了多種不同類型的任務(wù),它們分別要求模型具備不同層面的能力。

過去大量的工作主要聚焦于完成單一任務(wù),相比之下,我們?nèi)祟悓χ車鷱?fù)雜的的世界具有一個通用的感知理解能力。因此,如何設(shè)計一個像人類一樣對視聽場景具有通用理解能力的模型是未來通往 AGI 道路上一個極其重要的問題。當(dāng)前主流的學(xué)習(xí)范式是通過構(gòu)建大規(guī)模的多任務(wù)指令微調(diào)數(shù)據(jù)集并在此基礎(chǔ)上直接做指令微調(diào)。然而,這種學(xué)習(xí)范式對于多任務(wù)學(xué)習(xí)而言是最優(yōu)的嗎?

最近中國人民大學(xué)高瓴人工智能學(xué)院GeWu-Lab實驗室,清華大學(xué)和北京騰訊 PCG AI 技術(shù)中心合作發(fā)表的 CVPR 2025 論文指出,當(dāng)前這種主流的學(xué)習(xí)范式忽視了多模態(tài)數(shù)據(jù)的異質(zhì)性和任務(wù)間的復(fù)雜關(guān)系,簡單地將所有任務(wù)聯(lián)合訓(xùn)練可能會造成任務(wù)間的相互干擾。

為了有效實現(xiàn)任務(wù)間的顯示互助,作者團隊提出了多模態(tài)大模型學(xué)習(xí)的新范式,分別從數(shù)據(jù)和模型兩個角度實現(xiàn)了多模態(tài)場景理解任務(wù)的高效一統(tǒng),并在多個場景理解任務(wù)上超過了垂類專家模型,數(shù)據(jù)集、模型和代碼全部開源。目前工作還在進(jìn)一步拓展中,歡迎感興趣的領(lǐng)域?qū)<壹尤耄餐瑯?gòu)建一個統(tǒng)一的理解、生成與推理的框架。如有興趣,請郵件聯(lián)系 dihu@ruc.edu.cn。



  • 論文標(biāo)題:Crab: A Unified Audio-Visual Scene Understanding Model with ExplicitCooperation
  • 論文鏈接:https://arxiv.org/abs/2503.13068
  • 項目主頁:https://github.com/GeWu-Lab/Crab

統(tǒng)一的多模態(tài)場景理解能力展示

時序定位

輸入一段音視頻,讓模型找到發(fā)生的音視頻事件并定位出時序片段。



空間定位
輸入一段音頻和一張圖像,讓模型定位出圖片中發(fā)聲的物體為止。



時空推理

輸入一段樂器演奏的音視頻場景,讓模型回答相關(guān)問題,涉及到時序和空間信息的理解以及推理。



像素級理解

輸入一段音頻和一張圖片,讓模型分割出圖片中發(fā)聲的物體,具體包含 S4, MS3, AVSS 和 Ref-AVS 等多種分割任務(wù)。









視覺和聽覺信息是我們?nèi)祟惤佑|最多的兩類信息,近年來已經(jīng)有很多工作開始探究基于這兩個模態(tài)的視聽場景理解任務(wù),主要可以分為時序定位、空間定位、像素級理解和時空推理等四種不同類型的任務(wù),它們分別要求模型具備不同層面的能力。過去大量的工作聚焦于完成單一任務(wù),相比之下,我們?nèi)祟悓χ車鷱?fù)雜的世界具有一個通用的感知理解能力。因此,讓模型也像人類一樣具有統(tǒng)一的視聽場景理解能力是具有重要意義的。

隨著多模態(tài)大語言模型的發(fā)展,構(gòu)建大規(guī)模的指令微調(diào)數(shù)據(jù)集并將各種不同的任務(wù)直接進(jìn)行聯(lián)合訓(xùn)練已經(jīng)成為當(dāng)前主流的學(xué)習(xí)范式。然而,這種學(xué)習(xí)范式忽視了多模態(tài)數(shù)據(jù)的異質(zhì)性和任務(wù)間的復(fù)雜關(guān)系,簡單地將所有任務(wù)聯(lián)合訓(xùn)練可能會造成任務(wù)間的相互干擾,這種現(xiàn)象在之前的工作中已經(jīng)被證實,并且這個問題對于任務(wù)間差異較大的視聽場景理解任務(wù)來說則更為重要。為了有效解決上述問題,本文分別從數(shù)據(jù)和模型的角度針對性地提出了一個統(tǒng)一的顯示互助學(xué)習(xí)范式來有效實現(xiàn)任務(wù)間的顯示互助。為了明確任務(wù)間的互助關(guān)系,首先構(gòu)建了一個具有顯示推理過程的數(shù)據(jù)集 AV-UIE,它包含具體的時序和空間信息,可以有效建立任務(wù)間的互助關(guān)系。然后為了進(jìn)一步在學(xué)習(xí)過程中促進(jìn)任務(wù)間的相互協(xié)助,本文提出了一種具有多個 Head 的類MoE LoRA結(jié)構(gòu),每個 Head 負(fù)責(zé)學(xué)習(xí)多模態(tài)數(shù)據(jù)交互的不同層面,通過這種結(jié)構(gòu)將模型的不同能力解耦,讓任務(wù)間的互助關(guān)系顯示地展現(xiàn)出來,共享的能力在不同任務(wù)間建立起相互協(xié)助的橋梁。

AV-UIE: 具有顯示推理過程的視聽場景指令微調(diào)數(shù)據(jù)集

從數(shù)據(jù)的角度來看,現(xiàn)有視聽場景理解數(shù)據(jù)集的標(biāo)簽是簡單的單詞或者短語,這樣簡單的標(biāo)簽在訓(xùn)練過程中并不能顯著地幫助到其它任務(wù),或者說只能以一種隱式的方式增強模型的訓(xùn)練效果,我們并不能確保一定是對其它任務(wù)有幫助的。為了進(jìn)一步地促進(jìn)任務(wù)間的顯示互助并將互助關(guān)系顯示地體現(xiàn)出來,本文提出了具有顯示推理過程的視聽場景指令微調(diào)數(shù)據(jù)集 AV-UIE,通過細(xì)化現(xiàn)有數(shù)據(jù)集的標(biāo)簽,額外增加了顯示的推理過程,其中包含具體的時空信息,這些信息明確了任務(wù)間的互助關(guān)系。



圖 1. 具有顯示推理過程的 AV-UIE 數(shù)集構(gòu)造流程和統(tǒng)計分析

圖 1 展示了具體的構(gòu)建過程以及對數(shù)據(jù)集的統(tǒng)計分析,通過 in-context learning 的方式利用現(xiàn)有的強大的多模態(tài)大模型進(jìn)行標(biāo)注,從不同任務(wù)中的數(shù)據(jù)中獲取音視頻場景,為了保證結(jié)果的準(zhǔn)確性和推理過程的合理性,原有數(shù)據(jù)的標(biāo)簽也作為輸入,讓 Gemini 1.5 Pro 針對該場景輸出帶有時序和空間等信息的顯示推理過程。為了保證數(shù)據(jù)的質(zhì)量,最終再由人工進(jìn)行檢查糾正。在訓(xùn)練過程中這些細(xì)化后的標(biāo)簽?zāi)軌蚬膭钅P蜏?zhǔn)確理解視聽場景內(nèi)容并輸出相應(yīng)的時空信息,以此來增強模型特定的能力,從而幫助到其它依賴這些特定能力的任務(wù)。圖 2 展示了 AVQA 和 AVVP 這兩種任務(wù)實現(xiàn)顯示互助的數(shù)據(jù)樣例,不同的顏色表示不同類型的時空信息,這兩個任務(wù)都能夠受益于增強后的空間定位和時序定位能力。



圖 2. AVQA 和 AVVP 任務(wù)通過顯示推理過程實現(xiàn)相互幫助的示例

AV-UIE 數(shù)據(jù)集包含九種任務(wù)的數(shù)據(jù),總共 200K 訓(xùn)練樣本。其中,時序定位任務(wù)包含 AVE 和 AVVP,數(shù)據(jù)占比 6.8%,空間定位任務(wù)包含ARIG,數(shù)據(jù)占比 25.8%,像素級理解任務(wù)包含 S4,MS3,AVSS 和 Ref-AVS,數(shù)據(jù)占比 41.6%,時空理解任務(wù)包含 AVQA,數(shù)據(jù)占比 25.8%。相比于其它的指令微調(diào)數(shù)據(jù)集,盡管每一個任務(wù)的訓(xùn)練樣本數(shù)比較小,但是在顯示推理過程的幫助下,任務(wù)間的顯示互助仍然可以增強模型在單個任務(wù)上的性能。

Crab: 實現(xiàn)任務(wù)間顯示互助的統(tǒng)一學(xué)習(xí)框架

從數(shù)據(jù)的角度保證了模型可以輸出帶有時序信息的顯示推理過程,這是從結(jié)果上對模型進(jìn)行約束,顯示地增強不同類型的能力,但是如何保證模型在學(xué)習(xí)過程中可以有效地學(xué)到這些不同的能力呢?為此,本文提出了一個視聽場景理解的統(tǒng)一學(xué)習(xí)框架,圖 3 展示了模型的整體架構(gòu),主要包括三個統(tǒng)一的多模態(tài)接口,分別用來處理 audio, visual 和 segmentation mask 數(shù)據(jù),一個具有 interaction-aware LoRA 結(jié)構(gòu)的大模型,用于在學(xué)習(xí)過程中有效學(xué)習(xí)數(shù)據(jù)交互的不同層面從而實現(xiàn)任務(wù)間的顯示互助。



圖 3. 模型總體架構(gòu)

傳統(tǒng)的 LoRA 結(jié)構(gòu)由一組對稱的 A 矩陣和 B 矩陣組成,用于在下游任務(wù)上高效微調(diào)模型,具有多組對稱的 AB 矩陣的 LoRA MoE 結(jié)構(gòu)通常被用來多任務(wù)微調(diào),每一組 LoRA 負(fù)責(zé)解決單個任務(wù)。為了進(jìn)一步地促進(jìn)任務(wù)間的相互協(xié)助,本文提出的 Interaction-aware LoRA 結(jié)構(gòu)(如圖 4 所示)由一個共享的 A 矩陣和多個不同的LoRA HeadB 矩陣組成,每個 Head 期望去學(xué)習(xí)數(shù)據(jù)交互的不同層面,進(jìn)而具備不同的能力。為了有效區(qū)分不同的 Head,額外增加一個 Router 用來給不同的任務(wù)分配不同的權(quán)重。例如,在學(xué)習(xí)過程中,時空推理任務(wù) AVQA 聚焦于增強模型的時序和空間定位能力,那么就會更多的激活對應(yīng) Head 的參數(shù),增強它們特定的能力,而其它的時序定位和空間任務(wù)都可以受益于這些增強后的 Head。從這個角度來說,模型的能力被解耦成多個特定的能力,模型可以顯示地依賴這些能力完成不同類型的任務(wù),而多個任務(wù)間共享的能力建立起了任務(wù)間協(xié)助的橋梁。



圖 2. 具有多個 LoRA head 的 Interaction-aware LoRA 結(jié)構(gòu)

實驗與分析

為了證明顯示互助學(xué)習(xí)范式的有效性,本文分別對比了在所有任務(wù)上通用的模型以及在單個任務(wù)上專有的模型,并提供了全面的消融實驗對比結(jié)果。表 1 展示了與多個任務(wù)上的通用模型的對比結(jié)果,相比于其它模型,本文提出的 Crab 統(tǒng)一學(xué)習(xí)框架在所有類型的任務(wù)上具有更加通用的理解能力,并且在多個任務(wù)上取得了更好的表現(xiàn)。這表明了 Crab 在視聽場景通用理解能力方面的優(yōu)越性。



表 1. 與多個任務(wù)上的通用模型的對比結(jié)果

表 2,3,4,5 分別展示了與時序定位、空間定位、像素級理解和時空推理等四種類型任務(wù)的專有模型對比結(jié)果,可以看到在 AVE、ARIG、AVQA 等任務(wù)上 Crab 均優(yōu)于單個任務(wù)上的專有模型,在 AVVP 和 AVS 任務(wù)上取得了相近的表現(xiàn)。表 6 展示了全面的消融實驗結(jié)果,相比于單個任務(wù),簡單的多任務(wù) LoRA 微調(diào)并不能充分實現(xiàn)任務(wù)間的相互協(xié)助,甚至在一些任務(wù)上可能會降低性能。相比之下,在顯示互助的學(xué)習(xí)范式下,任務(wù)間的相互干擾被有效緩解,任務(wù)間的相互協(xié)助提高了單個任務(wù)的性能。



表 2. 與時序定位任務(wù)專有模型對比結(jié)果



表 3. 與空間定位任務(wù)專有模型對比結(jié)果



表 4. 與像素級理解任務(wù)專有模型對比結(jié)果



表 5. 與時空推理任務(wù)專有模型對比結(jié)果



表 6. 全面的消融實驗對比結(jié)果

為了進(jìn)一步證明任務(wù)間顯示互助的過程,本文對多個 LoRA Head 進(jìn)行了可視化分析實驗。在推理過程中,對于每個任務(wù)的多模態(tài)輸入數(shù)據(jù),每個 LoRA Head 會產(chǎn)生一個權(quán)重,權(quán)重越大,表明完成該任務(wù)越依賴于這個 Head。圖 3 對比了 3 個 Head 在不同任務(wù)上的權(quán)重,左圖是 B1 和 B2,右圖是 B2 和 B3。可以發(fā)現(xiàn)兩點:1)相同類型的任務(wù)對不同 Head 的依賴程度是類似的,它們對不同 Head 的依賴權(quán)重分別形成不同的簇;2)不同任務(wù)對 3 個 Head 的不同依賴性表明每個 Head 具備不同的能力。這表明模型的能力被解耦成多種不同的能力,多個任務(wù)間可能會依賴于同一種能力,因此它們可以建立相互協(xié)助的關(guān)系。



圖 3. 3 個 LoRA Head 的權(quán)重可視化

總述

本文分別從數(shù)據(jù)和模型的角度出發(fā),提出了統(tǒng)一視聽場景理解的顯示互助范式來實現(xiàn)任務(wù)間的顯示互助,大量的實驗結(jié)果以及可視化分析均證明了該范式的有效性。我們希望本文提出的想法可以為該領(lǐng)域的發(fā)展提供新的研究視角,并且在未來的工作中我們將聚焦于多模態(tài)推理的新范式,希望將現(xiàn)有的多模態(tài)推理工作提升到一個新的高度。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
伊朗發(fā)起新一輪導(dǎo)彈襲擊!以色列超200人死傷,一科學(xué)研究院起火!涉及核活動,伊朗最新通報

伊朗發(fā)起新一輪導(dǎo)彈襲擊!以色列超200人死傷,一科學(xué)研究院起火!涉及核活動,伊朗最新通報

每日經(jīng)濟新聞
2025-06-15 12:39:06
國足再弱輪不到業(yè)余足球挑戰(zhàn)!媒體人:拳手沒人挑戰(zhàn),網(wǎng)紅也不傻

國足再弱輪不到業(yè)余足球挑戰(zhàn)!媒體人:拳手沒人挑戰(zhàn),網(wǎng)紅也不傻

奧拜爾
2025-06-14 19:49:16
茅臺經(jīng)銷商慌了!有評論分析,飛天若到1900元,多數(shù)經(jīng)銷商要賠錢

茅臺經(jīng)銷商慌了!有評論分析,飛天若到1900元,多數(shù)經(jīng)銷商要賠錢

火山詩話
2025-06-14 17:28:45
蜜雪冰城香港被停售,細(xì)菌超標(biāo)70%,網(wǎng)友:雪王給大陸吃的太臟

蜜雪冰城香港被停售,細(xì)菌超標(biāo)70%,網(wǎng)友:雪王給大陸吃的太臟

曉風(fēng)說
2025-06-14 08:55:38
記者:伊萬為帶國足拒蘇格蘭足總邀約,拿近10年國足主帥最低薪

記者:伊萬為帶國足拒蘇格蘭足總邀約,拿近10年國足主帥最低薪

雷速體育
2025-06-15 10:03:25
伊朗這個大內(nèi)奸不除,很難取得勝利

伊朗這個大內(nèi)奸不除,很難取得勝利

海格講
2025-06-15 05:45:05
新聞圖直出的美貌…

新聞圖直出的美貌…

阿廢冷眼觀察所
2025-06-14 01:19:01
印度網(wǎng)民們怒了!負(fù)責(zé)墜機飛機維修的是國企,曾讓全女工程師團隊更換787發(fā)動機

印度網(wǎng)民們怒了!負(fù)責(zé)墜機飛機維修的是國企,曾讓全女工程師團隊更換787發(fā)動機

不掉線電波
2025-06-14 21:25:56
伊朗15分鐘向以色列進(jìn)行3次導(dǎo)彈齊射,哈梅內(nèi)伊:絕不讓以政權(quán)全身而退!以軍否認(rèn)F-35戰(zhàn)機被擊落

伊朗15分鐘向以色列進(jìn)行3次導(dǎo)彈齊射,哈梅內(nèi)伊:絕不讓以政權(quán)全身而退!以軍否認(rèn)F-35戰(zhàn)機被擊落

每日經(jīng)濟新聞
2025-06-14 13:47:08
韓國網(wǎng)友:為什么中國菜很少獲得米其林評級?各國網(wǎng)友的搞笑回復(fù)

韓國網(wǎng)友:為什么中國菜很少獲得米其林評級?各國網(wǎng)友的搞笑回復(fù)

小嵩
2025-06-15 10:34:05
提車兩周,上高速半小時自燃,所有門打不開!一車主發(fā)帖引發(fā)關(guān)注

提車兩周,上高速半小時自燃,所有門打不開!一車主發(fā)帖引發(fā)關(guān)注

火山詩話
2025-06-15 07:29:21
奧萊報:因世界杯恩怨,梅西拒絕在球員通道理睬前皇馬球員佩佩

奧萊報:因世界杯恩怨,梅西拒絕在球員通道理睬前皇馬球員佩佩

雷速體育
2025-06-15 10:46:54
館長宣布直播結(jié)束,向大陸作出承諾,民進(jìn)黨爆發(fā)內(nèi)訌,賴清德要慌

館長宣布直播結(jié)束,向大陸作出承諾,民進(jìn)黨爆發(fā)內(nèi)訌,賴清德要慌

娛樂督察中
2025-06-14 22:25:51
痛心!葉文翀(1995年出生)不幸殉職,系家中獨子,母親做出艱難決定……

痛心!葉文翀(1995年出生)不幸殉職,系家中獨子,母親做出艱難決定……

極目新聞
2025-06-15 12:42:58
孫媳婦罵我老不死,我和老伴分居賣掉孫子的6棟別墅,孫子:奶奶高明

孫媳婦罵我老不死,我和老伴分居賣掉孫子的6棟別墅,孫子:奶奶高明

風(fēng)起青萍之未
2025-06-12 17:39:42
汪小菲搞笑曬父親節(jié)禮物,兒子女兒各送一幅畫,一家四口互動溫馨

汪小菲搞笑曬父親節(jié)禮物,兒子女兒各送一幅畫,一家四口互動溫馨

鋭娛之樂
2025-06-15 08:54:23
“館長” 宣布提前回臺,向大家道歉,感慨的說道:兩岸一家人

“館長” 宣布提前回臺,向大家道歉,感慨的說道:兩岸一家人

陳博世財經(jīng)
2025-06-15 10:51:34
國防科大馬駿教授,違背了常識和理性,一派胡言惹眾怒

國防科大馬駿教授,違背了常識和理性,一派胡言惹眾怒

平老師666
2025-06-14 22:45:40
湖北XX學(xué)院,奔馳哥與學(xué)生妹活色生香,追逐野鴛鴦成校園樂趣,這瓜真的驚艷!

湖北XX學(xué)院,奔馳哥與學(xué)生妹活色生香,追逐野鴛鴦成校園樂趣,這瓜真的驚艷!

閑侃閑侃
2025-06-15 07:17:03
“下輩子不用來地球”,國內(nèi)最大靈修騙局炸了,卷走35個億

“下輩子不用來地球”,國內(nèi)最大靈修騙局炸了,卷走35個億

大佬灼見
2025-06-14 22:10:56
2025-06-15 13:27:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10640文章數(shù) 142338關(guān)注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴(yán)重缺貨

頭條要聞

義烏商家賣娃衣:做的非LABUBU娃衣 只適用于15cm玩偶

頭條要聞

義烏商家賣娃衣:做的非LABUBU娃衣 只適用于15cm玩偶

體育要聞

裁判可以噴,但也從步行者自身找找問題?

娛樂要聞

鳳凰傳奇曾毅塌房?網(wǎng)友:別連累玲花

財經(jīng)要聞

以伊沖突持續(xù)升級,對全球市場影響多大

汽車要聞

長城為了拿環(huán)塔冠軍有多拼?魏建軍在下一盤大棋!

態(tài)度原創(chuàng)

教育
旅游
親子
房產(chǎn)
藝術(shù)

教育要聞

黑龍江頂尖高分考生想報哈工大,哪些專業(yè)值得推薦?省排名多少?

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

親子要聞

閨女凌晨1點還不睡覺,結(jié)果閨女說出原因讓人哭笑不得

房產(chǎn)要聞

又一城購房補貼!買房就發(fā)錢,正在海南樓市瘋狂擴散!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 免费无码又爽又刺激毛片| 亚洲精品久久久久中文字幕一区| 国内午夜国产精品小视频| 丝袜亚洲精品中文字幕一区| 亚洲欧洲免费无码| 亚洲熟妇少妇任你躁在线观看无码| 精品国精品国产自在久国产不卡| 欧美乱妇高清免费96欧美乱妇高清| 亚洲 日韩 欧美 有码 在线| 日日干夜夜操| 亚洲色欲久久久综合网东京热| 亚洲乱码av中文一区二区软件| 日本又色又爽又黄的a片吻戏| 成年日韩片av在线网站| 亚洲精品国产免费无码网站| 精品无码成人片一区二区98| аⅴ资源天堂资源库在线| 国产精品免费久久久久影院| 国产精品国产三级在线...| 亚洲中文字幕人成影院| 色婷婷综合久久久中文字幕| 两女女百合互慰av赤裸无遮挡| 精品国产乱码久久久久久1区2区| 精品国产一区二区三区四区阿崩| 99久久久无码国产精品9| 久久综合给合久久97色| 日本真人边吃奶边做爽动态图| 国产精品99久久久久久宅男| 亚洲国产成人一区二区精品区| 亚洲国产精品色一区二区| 中文字幕一区二区三区四区五区| 国产情侣一区二区三区| 亚洲精品av网站在线观看| 国产女人乱人伦精品一区二区| 亚洲精品国产乱码av在线观看| 男女啪动最猛动态图| 国产偷国产偷亚洲高清日韩| 女人张开腿让男人桶爽| 中文字幕乱码亚洲无线码| 亚洲欧美国产国产一区二区三区| av无码av天天av天天爽|