大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

打破跨模態干擾,快手東北大學聯合提出統一多模態框架

0
分享至

UNITE團隊 投稿
量子位 | 公眾號 QbitAI

多模態檢索是信息理解與獲取的關鍵技術,但其中的跨模態干擾問題一直是一大難題。

可行的解決辦法是構建一種統一的多模態表示方式,為此,來自快手與東北大學的研究人員推出了多模態統一嵌入框架——UNITE



UNITE的核心目標,就是構建一個能同時處理文本、圖像、視頻及其融合模態輸入的統一嵌入器。

它從數據策劃與訓練機制兩個關鍵視角出發,用對比學習的機制重新定義了統一多模態表示學習的范式。

在細粒度檢索、指令檢索等多個評測中,UNITE框架都斬獲了最佳成績。



模態感知對比學習,緩解跨模態干擾

在多模態檢索任務中,不同模態(文本、圖像、視頻)天然存在分布差異。

如果在訓練時將所有模態混合進行對比學習,會導致表示空間產生語義扭曲或干擾噪聲,影響模型對各模態語義的準確建模。

為了解決這一挑戰,UNITE團隊提出了Modal-Aware Masked Contrastive Learning(MAMCL)這一對比學習機制,能顯著緩解跨模態“相互干擾”。



在傳統InfoNCE損失下,模型會嘗試最大化正樣本對之間的相似度,并最小化其與負樣本之間的相似度:



但這種方式不能區分模態組合,例如,一個query的正樣本為文本模態,但其負樣本可能是圖像、視頻或者其他模態組合。這可能導致模型用圖像來學文本相似度,產生模態沖突。

MAMCL的核心思想是模態掩碼約束,也就是只在與當前query目標模態一致的負樣本中進行對比,從而避免模態間的錯誤競爭。

給定一個批次中個query,每個query()對應一個正樣本和個負樣本,構造相似度矩陣:



其中是第個候選樣本,是溫度系數。

接下來引入模態掩碼矩陣,用于標記候選樣本與正樣本模態是否一致:



其中表示提取候選樣本的模態標簽(例如 text, image, video, text+video)。

然后,構造模態感知掩碼相似度矩陣:



這一步確保在計算損失時,僅考慮模態一致的樣本

最終,MAMCL損失定義為(p是當前query對應的正樣本索引):



為了平衡泛化能力與判別能力,UNITE采用了“檢索適應 + 指令微調”的兩階段訓練方案:

  • 檢索適應階段,使用text-text、text-image、text-video等多模態數據訓練模型的基本檢索能力,同時引入高粒度視頻-文本數據,顯著提升模型的細粒度區分能力;
  • 指令微調階段,基于MMEB、CoVR等復雜多模態指令任務訓練,增強模型的指令遵循能力和擴展性。

多個評測中斬獲最佳成績

在細粒度檢索、指令檢索等多個評測中,UNITE框架都斬獲了最佳成績。

圖像-文本檢索任務中,在ShareGPT4V、Urban1K和DOCCI上,UNITE顯著超越E5-V和VLM2Vec等模型;



視頻-文本檢索方面,UNITE的2B模型在CaReBench三個子任務(General/Spatial/Temporal)中的General和Spatial里超越了前SOTA,7B模型以顯著領先水平刷新當前最好表現。

UNITE 7B在CaReBench上分別達到86.0,86.9,86.5,84.8,52.4,55.4。



指令檢索任務里,作者的UNITE系列模型也在多個數據集上表現出色。



具體來說,在涵蓋分類、VQA、檢索、定位四類任務共36個數據集的MMEB Benchmark中,UNITE 7B達到了最優性能70.3,超越了更大規模的模型mmE5 11B (69.8) 和IDMR 26B (69.2)。



在合成視頻檢索任務CoVR上,UNITE 2B和UNITE 7B達到了69.1和72.5,均明顯領先于現有SOTA模型(60.1)。



為驗證其通用性,團隊還在多個標準跨模態檢索任務上進行了評估。在Flickr30K、MSR-VTT、MSVD、DiDeMo任務上,展現了良好的通用表征能力。



綜合來看,UNITE支持文本、圖像、視頻及融合模態內容,并展現了綜合最優性能。

其可視化結果如下:



另外在實驗過程當中,作者還有三個關鍵發現。

一是視頻-文本數據具備“統一模態”的核心能力

具體來說,視頻-文本對數據在所有配置中表現最為突出,不僅在視頻檢索任務中遙遙領先(如MSR-VTT、MSVD),甚至在圖文檢索任務中也超越了基于圖像-文本對訓練的模型。

二是指令類任務更依賴文本主導的數據支撐——

盡管視頻-文本對數據在一般檢索任務中表現出色,但在復雜檢索指令跟隨類任務(如MMEB、CoVR)中,其優勢反而不明顯。

這類任務需要模型理解長文本、復雜邏輯或多階段指令,研究認為,Text–Text數據提升了語言理解與邏輯構建能力,而Text–Image數據提供精準的視覺語義映射,利于模態對齊。

最后,細粒度Text-Video樣本的添加策略影響巨大,直接在第一階段“檢索適應”中融合細粒度視頻-文本樣本,能帶來整體性能最優解,相比傳統“先對齊后微調”的做法更加有效且高效。

更多方法和實驗細節,請參照論文。

論文鏈接:https://arxiv.org/pdf/2505.19650
代碼鏈接:https://github.com/friedrichor/UNITE
項目鏈接:https://friedrichor.github.io/projects/UNITE
模型/數據鏈接:https://huggingface.co/collections/friedrichor/unite-682da30c4540abccd3da3a6b

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
杜照宇:被以色列炸死,聯合國降半旗,印軍拼死搶回遺體

杜照宇:被以色列炸死,聯合國降半旗,印軍拼死搶回遺體

丹寶說文史
2023-12-02 13:00:08
AI這條鯰魚,終結了志愿填報的信息暴利

AI這條鯰魚,終結了志愿填報的信息暴利

吐槽青年
2025-06-14 10:32:23
汪小菲直播,玥兒一旁不停投喂,聲音好好聽,已處于變聲期

汪小菲直播,玥兒一旁不停投喂,聲音好好聽,已處于變聲期

鋭娛之樂
2025-06-14 22:15:59
兒子清華錄取當天,前妻寄來包裹,退還了我20年來的所有匯款

兒子清華錄取當天,前妻寄來包裹,退還了我20年來的所有匯款

故事那點事
2025-06-09 16:49:59
意媒:國米將提前贖回4.15億歐元債券,十余年來首次實現盈利

意媒:國米將提前贖回4.15億歐元債券,十余年來首次實現盈利

懂球帝
2025-06-14 21:52:12
看完浙江這戶人家裝修,才知道什么叫歲月靜好,進門世界都安靜了

看完浙江這戶人家裝修,才知道什么叫歲月靜好,進門世界都安靜了

手工制作阿愛
2025-06-14 13:48:44
想不到!上海工作日的KTV被老年人包場

想不到!上海工作日的KTV被老年人包場

看看新聞Knews
2025-06-14 16:57:30
上海這一夜,被笑不露齒的章子怡驚艷,胖了一圈面相變了很多

上海這一夜,被笑不露齒的章子怡驚艷,胖了一圈面相變了很多

深析古今
2025-06-14 08:30:59
伊媒:多名革命衛隊指揮官、核科學家身亡,哈梅內伊高級顧問重傷

伊媒:多名革命衛隊指揮官、核科學家身亡,哈梅內伊高級顧問重傷

澎湃新聞
2025-06-13 12:10:31
剛加盟5個月!利雅得勝利前鋒身價6400萬,因水土不服萌生去意?

剛加盟5個月!利雅得勝利前鋒身價6400萬,因水土不服萌生去意?

星耀國際足壇
2025-06-14 23:23:30
“惡魔醫生”劉翔峰,摘病人器官販賣,將人命當提款機,結局可笑

“惡魔醫生”劉翔峰,摘病人器官販賣,將人命當提款機,結局可笑

體制內老陳
2025-06-12 12:40:56
隨著上海申花1:2不敵深圳新鵬城,3問主教練斯盧茨基?

隨著上海申花1:2不敵深圳新鵬城,3問主教練斯盧茨基?

田先生籃球
2025-06-14 22:49:35
中國更換涉烏克蘭戰爭特別代表:孫霖江接替李輝

中國更換涉烏克蘭戰爭特別代表:孫霖江接替李輝

仗劍看世界
2025-06-14 17:40:31
沒當過自由球員!亞當斯生涯賺了2.1億?四次提前續約!

沒當過自由球員!亞當斯生涯賺了2.1億?四次提前續約!

直播吧
2025-06-15 09:09:14
東風日產奇駿真心版 SUV 將于下月初上市,現款 17.99 萬元起

東風日產奇駿真心版 SUV 將于下月初上市,現款 17.99 萬元起

IT之家
2025-06-13 15:04:17
創新藥又現50億美元訂單!二波啟動,重點關注這五個黑馬!

創新藥又現50億美元訂單!二波啟動,重點關注這五個黑馬!

一家說
2025-06-14 11:45:20
總理是叛徒?俄羅斯“最大內鬼”浮出水面,竟然一直藏在普京身邊

總理是叛徒?俄羅斯“最大內鬼”浮出水面,竟然一直藏在普京身邊

小lu侃侃而談
2025-06-10 20:06:43
100萬人傷亡背后俄羅斯實際已遭重創

100萬人傷亡背后俄羅斯實際已遭重創

史政先鋒
2025-06-13 10:54:49
杜蘭特下家僅剩兩隊!斯通和烏度卡產生分歧,最可能聯手27+5狀元

杜蘭特下家僅剩兩隊!斯通和烏度卡產生分歧,最可能聯手27+5狀元

你的籃球頻道
2025-06-15 07:15:27
臺灣網紅館長上海直播受關注,國民黨立委柯志恩竟也蛐蛐他

臺灣網紅館長上海直播受關注,國民黨立委柯志恩竟也蛐蛐他

總在茶余后
2025-06-15 07:12:01
2025-06-15 11:08:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10666文章數 176167關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

印度空難幸存者:機身撞出巨大裂口 爬出去后發生爆炸

頭條要聞

印度空難幸存者:機身撞出巨大裂口 爬出去后發生爆炸

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

鳳凰傳奇曾毅塌房?網友:別連累玲花

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

游戲
房產
數碼
本地
公開課

《誅仙世界》首次回應銀價暴跌;騰訊網易紛紛做出違背祖訓的決定

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

數碼要聞

消息稱 AMD 將推出 R7 9700F 無核顯處理器,目標價位 250 美元

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 色六月婷婷亚洲婷婷六月| 亚洲成在人线免费观看| 无码一区二区三区在线| 国产一区二区三区小说| 日本肥老妇色xxxxx日本老妇| 国产成人精品日本亚洲77上位| 无码超乳爆乳中文字幕| 亚洲综合色区另类av| 无码人妻aⅴ一区二区三区玉蒲团| 少妇内射兰兰久久| 777亚洲精品乱码久久久久久| 亚洲一区二区三区成人网站| 久久精品国产久精久精| 成人无码a级毛片免费| 国产免费又色又爽粗视频| 狠狠躁夜夜躁人人爽天天不| 久久久久影院色老大2020| 国产精品免费av片在线观看| 伊人久久大香线蕉综合网站| 色无码av在线播放| 人妻丝袜中文无码av影音先锋专区| 欧洲免费无线码在线一区| 国产精品网站在线观看免费传媒| 久久99国产综合精品免费| 久久久无码精品亚洲日韩蜜桃| 日木亚洲精品无码专区| 精品人妻无码一区二区三区抖音| 久久久久久夜精品精品免费啦| 欧美z0zo人禽交欧美人禽交| 可以看三级的网站| www国产成人免费观看视频| 久久精品无码一区二区三区| 精品夜夜爽欧美毛片视频| 里番本子纯肉侵犯肉全彩无码| 国产成人免费ā片在线观看| 亚洲中文字幕一区精品自拍| 国产va免费精品高清在线观看| 国产真实露脸乱子伦原著| 无码人妻av一二区二区三区| 国产人妻久久精品二区三区老狼| 国产精品毛片va一区二区三区|