大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

AdaCM2:首個面向超長視頻理解的跨模態自適應記憶壓縮框架

0
分享至



本文第一作者為前阿里巴巴達摩院高級技術專家,現一年級博士研究生滿遠斌,研究方向為高效多模態大模型推理和生成系統。通信作者為第一作者的導師,UTA 計算機系助理教授尹淼。尹淼博士目前帶領 7 人的研究團隊,主要研究方向為多模態空間智能系統,致力于通過軟件和系統的聯合優化設計實現空間人工智能的落地。

近年來,大語言模型(LLM)持續刷新著多模態理解的邊界。當語言模型具備了「看視頻」的能力,視頻問答、視頻摘要和字幕生成等任務正逐步邁入真正的智能階段。但一個現實難題亟待解決——如何高效理解超長視頻?

為此,來自得克薩斯大學阿靈頓分校(UTA)計算機系研究團隊提出了AdaCM2:首個支持超長視頻理解的跨模態記憶壓縮框架。該研究已被CVPR 2025 正式接收,并榮獲Highlight 論文(接收率為 3%),展示出其在技術創新與實際價值上的雙重突破。



  • 論文標題:AdaCM2: On Understanding Extremely Long-Term Video with Adaptive Cross-Modality Memory Reduction
  • 論文地址:https://arxiv.org/pdf/2411.12593

背景:LLM 強大,長視頻理解卻步

多模態視頻理解模型如 VideoLLaMA、VideoChat 等已經在短視頻(5–15 秒)場景中表現優異,能夠回答關于視頻內容的自然語言問題。但當視頻長度擴展至分鐘級甚至小時級,模型的顯存瓶頸和冗余信息干擾問題暴露無遺:

  • 內存消耗呈指數級上升,難以部署;
  • 視覺 Token 冗余嚴重,導致關鍵信息被淹沒;
  • 文本與視頻之間缺乏精準對齊機制。

AdaCM2 正是為解決這些核心問題而生。



提出動機:兩大關鍵觀察揭示「壓縮冗余」的機會

AdaCM2 的提出建立在對視頻與文本交互過程中的兩個核心觀察基礎上,揭示了現有模型在超長視頻場景下的內在局限:



觀察一:幀內注意力稀疏性(Intra-Frame Sparsity)

在長視頻的任意一幀中,只有極少數視覺 Token 對當前文本提示具有強相關性。絕大多數視覺信息對于回答文本問題(如「她在和誰說話?」)是無關的。實驗發現,這些注意力得分呈現出尾部偏置分布,意味著高價值信息集中在少數 Token 中。

啟發:可以有選擇性地僅保留「重要的」視覺 Token,而無需一視同仁處理全部幀內容。

觀察二:層間語義冗余性(Layer-Wise Redundancy)

研究還發現,在深層網絡中,臨近幀之間的跨模態注意力相似度非常高,甚至在間隔較遠的幀之間也存在冗余。這種高相似性意味著:多個 Token 在不同時間或不同層次上表達了重復的語義信息。

啟發:應該在不同層次上使用差異化的壓縮策略,從而動態平衡信息保留與內存占用。

這兩大觀察構成了 AdaCM2 設計的基礎,驅動出一整套可調、可解釋、可擴展的「視頻記憶管理機制」。

創新:AdaCM2 提出跨模態動態壓縮機制

為應對長視頻帶來的內存挑戰,AdaCM2 首次引入了跨模態注意力驅動的層級記憶壓縮策略。其核心思想是:「僅保留那些對文本提示最有意義的視覺信息」,并通過跨層級的策略自適應完成壓縮,確保模型不丟關鍵信息。



關鍵技術點:

  • 逐幀回歸式建模:AdaCM2 不再一次性輸入全部幀,而是逐幀處理并動態更新記憶緩存,實現輕量但語義連續的建模。
  • 跨模態注意力打分:通過 Q-Former 模塊,模型在每一層中計算視覺 Token 與文本提示之間的注意力權重,只保留注意力得分高的「關鍵信息 Token」。
  • 分層壓縮機制:針對不同 Transformer 層中 Token 的冗余程度,設置可調的壓縮參數(α 和 β),實現更精細的內存控制。



  • 與 LLM 無縫對接:AdaCM2 支持與各種主流 LLM 對接,如 Vicuna-7B、FlanT5 等,僅需輕量微調 Q-Former 模塊即可完成端到端訓練。

實驗結果:性能超越 SOTA + 顯存下降 65%



AdaCM2 在多個長視頻標準數據集上進行了驗證,包括:

  • LVU 分類任務:平均 Top-1 準確率提升 4.5%,在「導演」「場景」等任務上領先所有方法;
  • COIN / Breakfast 行為理解任務:超過 MA-LMM,展示更強泛化能力;
  • MSVD 視頻字幕生成:達到 189.4 CIDEr,領先現有 SOTA;
  • 內存效率:顯存使用下降 65%,在極端情況下依舊維持穩定推理,支持處理超 2 小時長視頻。



消融研究也顯示,若移除跨模態壓縮模塊或將其替換為隨機丟棄,模型性能將顯著下降,證明觀察驅動設計的有效性。

應用前景:多模態大模型的「長時記憶」引擎

AdaCM2 的提出,為多模態模型賦予了「可控的長時記憶能力」。這一能力不僅適用于傳統的視頻理解任務,還對以下未來應用場景具有重要意義:

  • 智能交通監控:支持對全天候視頻的智能分析與摘要生成;
  • 醫療手術記錄分析:自動分析長時間術中操作行為;
  • 教育與會議記錄理解:提取關鍵片段并生成總結;
  • 機器人感知:支持具備持續視覺記憶的具身智能體。

總結

AdaCM2 作為首個專注于極長視頻理解的跨模態記憶壓縮框架,在大語言模型和視覺編碼器之間架起了一座高效的信息篩選橋梁。它不僅優化了計算資源利用率,還拓展了多模態 AI 在實際應用中的邊界。隨著多模態大模型逐步走向落地,AdaCM2 的提出無疑將成為推動長視頻智能理解發展的關鍵技術。

該論文已被 CVPR 2025 接收并評為 Highlight 論文,充分體現其在長視頻多模態建模領域的前瞻性與影響力。更多相關研究成果也即將在未來發布,敬請關注!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
特權高墻下的冷漠:解析伊朗民眾對高層遇刺的沉默邏輯

特權高墻下的冷漠:解析伊朗民眾對高層遇刺的沉默邏輯

步論天下事
2025-06-14 20:17:14
突發!蒼井空確認復出,你最希望看到她的什么?

突發!蒼井空確認復出,你最希望看到她的什么?

閑侃閑侃
2025-06-15 07:16:55
素材來了!!霍華德和史蒂芬森上演抱摔沖突 奧尼爾轉發

素材來了!!霍華德和史蒂芬森上演抱摔沖突 奧尼爾轉發

直播吧
2025-06-15 08:48:15
已確認!是知名演員朱一龍!

已確認!是知名演員朱一龍!

掌中邯鄲
2025-06-15 07:04:44
美國舉行閱兵式當天,全美數十萬人涌上街頭抗議特朗普政府,“有示威者向警方投擲石塊”

美國舉行閱兵式當天,全美數十萬人涌上街頭抗議特朗普政府,“有示威者向警方投擲石塊”

環球網資訊
2025-06-15 11:28:25
伊朗不打倒神棍政權,國家將永無希望

伊朗不打倒神棍政權,國家將永無希望

廖保平
2025-06-14 09:19:25
今年11月起,中國公民持有效澳大利亞簽證可免簽入境新西蘭

今年11月起,中國公民持有效澳大利亞簽證可免簽入境新西蘭

界面新聞
2025-06-15 09:39:47
一家三口先后離世!提醒:冰箱久放7種食物,是癌癥“幫兇”

一家三口先后離世!提醒:冰箱久放7種食物,是癌癥“幫兇”

小蜜情感說
2025-06-14 11:00:34
一男子高聲怒罵館長是“臺獨”狗

一男子高聲怒罵館長是“臺獨”狗

代偉看世界
2025-06-15 01:13:56
新聞圖直出的美貌…

新聞圖直出的美貌…

阿廢冷眼觀察所
2025-06-14 01:19:01
剛剛!2025版美國“糖尿病逆轉”指南發布,減重≥15公斤,逆轉率高達86%!

剛剛!2025版美國“糖尿病逆轉”指南發布,減重≥15公斤,逆轉率高達86%!

醫脈通
2025-06-14 18:35:29
6萬人見證!世俱杯首秀0-0:梅西中柱,38歲門將封神奪MVP

6萬人見證!世俱杯首秀0-0:梅西中柱,38歲門將封神奪MVP

葉青足球世界
2025-06-15 10:07:11
美媒報道美閱兵式現場:因天氣原因被迫提前,現場人群稀疏,美國務卿還被拍到打哈欠

美媒報道美閱兵式現場:因天氣原因被迫提前,現場人群稀疏,美國務卿還被拍到打哈欠

環球網資訊
2025-06-15 11:11:14
美國人閱兵了,沒有鋼鐵洪流,一群大兵懶懶散散,不踢正步

美國人閱兵了,沒有鋼鐵洪流,一群大兵懶懶散散,不踢正步

說說史事
2025-06-15 10:10:44
央行重磅數據公布!貸款猛增、存款狂漲……

央行重磅數據公布!貸款猛增、存款狂漲……

魏家東
2025-06-15 07:40:00
東北大學不再采用林徽因設計的校徽,新校徽被調侃像“農夫山泉”

東北大學不再采用林徽因設計的校徽,新校徽被調侃像“農夫山泉”

火山詩話
2025-06-15 06:54:48
伊朗媒體稱伊又擊落一架以色列F-35戰機!以防長警告伊朗:如果繼續襲擊,德黑蘭將化為火海

伊朗媒體稱伊又擊落一架以色列F-35戰機!以防長警告伊朗:如果繼續襲擊,德黑蘭將化為火海

每日經濟新聞
2025-06-15 00:21:17
美國明尼蘇達州兩名州議員遭槍擊,特朗普發聲:絕不容忍

美國明尼蘇達州兩名州議員遭槍擊,特朗普發聲:絕不容忍

環球網資訊
2025-06-15 08:48:47
南航“美女經理”:除了生理期就沒閑過,兩年半和上級開房410次

南航“美女經理”:除了生理期就沒閑過,兩年半和上級開房410次

就一點
2025-06-13 16:45:25
國防科大馬駿教授,違背了常識和理性,一派胡言惹眾怒

國防科大馬駿教授,違背了常識和理性,一派胡言惹眾怒

平老師666
2025-06-14 22:45:40
2025-06-15 12:44:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10640文章數 142338關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

義烏商家賣娃衣:做的非LABUBU娃衣 只適用于15cm玩偶

頭條要聞

義烏商家賣娃衣:做的非LABUBU娃衣 只適用于15cm玩偶

體育要聞

裁判可以噴,但也從步行者自身找找問題?

娛樂要聞

鳳凰傳奇曾毅塌房?網友:別連累玲花

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

教育
數碼
藝術
房產
公開課

教育要聞

黑龍江頂尖高分考生想報哈工大,哪些專業值得推薦?省排名多少?

數碼要聞

AMD 銳龍7 9700F曝光:無核顯加持,主流游戲玩家的新希望?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久久噜噜噜久噜久久| 9999国产精品欧美久久久久久| 中文字幕 亚洲精品 第1页| 色综合久久久久综合99| 国产精品午夜爆乳美女视频| 中文字幕无码久久精品| 人妻少妇伦在线无码专区视频| 秋霞午夜成人鲁丝片午夜精品| 国产av国片精品| 黑人30厘米少妇高潮全部进入| 中无码人妻丰满熟妇啪啪| 香港三日本三级少妇三级视频| 亚洲欧美激情在线一区| 亚洲成vr人片在线观看天堂无码| 亚洲日韩在线a视频在线观看| 国产99久久久国产精品免费看| 亚洲日本va在线视频观看| 大肉大捧一进一出好爽视频mba| 亚洲精品一区国产欧美| 无码人妻品一区二区三区精99| 精品国产乱码久久久久久鸭王1| 国产乱妇乱子在线视频| 亚洲精品午夜精品| 丰满人妻被黑人猛烈进入| 337p日本欧洲亚洲大胆在线| 无码av片在线观看免费| 99久久人妻无码精品系列| 国产精品99久久99久久久动漫| 久久人人97超碰caoporen| 色综合天天综合高清网国产在线| 亚洲中文字幕永久在线不卡| 亚洲国产精品电影人久久| 18禁无遮挡无码网站免费| 九九久久精品国产| 国产真实交换多p免视频| 国产精品岛国久久久久| 国产一区二区不卡在线看| 国产成人无码一区二区三区在线| 7777奇米成人狠狠成人影视| 99精品免费久久久久久久久日本| 久久婷婷狠狠综合激情|