網易首頁 > 網易號 > 正文申請入駐

視頻生成統一評估架構，上交x斯坦福聯合讓MLLM像人類一樣打分

2025-06-12 17:04:58　來源: 量子位

北京舉報

分享至

Video-Bench團隊投稿
量子位 | 公眾號 QbitAI

視頻生成技術正以前所未有的速度革新著當前的視覺內容創作方式，從電影制作到廣告設計，從虛擬現實到社交媒體，高質量且符合人類期望的視頻生成模型正變得越來越重要。

那么，要如何評估AI生成的視頻是否符合人類的審美和需求呢？

Video-Bench視頻評估框架，能夠通過模擬人類的認知過程，建立起連接文本指令與視覺內容的智能評估體系。

簡單地說，能夠讓多模態大模型（MLLM）“像人一樣評估視頻”。

實驗結果表明，Video-Bench不僅能精準識別生成視頻在物體一致性（0.735相關性）、動作合理性等維度的缺陷，還能穩定評估美學質量等傳統難題，顯著優于現有的評估方法。

Video-Bench的研究團隊來自上海交通大學、斯坦福大學、卡內基梅隆大學等機構。

Video-Bench：基于MLLM的自動化視頻評估框架

Video-Bench團隊在面對已有的視頻評估方法時，發現了兩個問題：

1.簡單的評分規則往往無法捕捉視頻流暢度、美學表現等復雜維度——

那么，當評判“視頻質量”時，如何將人類出于“直覺”的模糊感受轉化為可量化的評估指標？

2.現有基于大語言模型（Large Language Model，LLM）的基準雖能更好模擬人類評估邏輯，但在視頻-條件對齊評估中存在跨模態比較困難，在視頻質量評估中則面臨文本評價標準模糊化的局限——

那么，評估”視頻是否符合文字描述”時，評估系統如何實現跨模態對比？

針對上述的兩個問題，Video-Bench作出了兩點核心創新：

（1）系統性地構建了覆蓋視頻-條件對齊（Video-Condition Alignment）和視頻質量（Video quality）的雙維度評估框架。

（2）引入了鏈式查詢（Chain-of-Query）和少樣本評分（Few-shot scoring）兩項核心技術。

鏈式查詢通過多輪迭代的”描述-提問-驗證”流程，有效解決了文本與視頻跨模態對齊的評估難題；少樣本評分則通過多視頻對比建立相對質量標尺，將主觀的美學評判轉化為可量化的客觀標準。

這樣的功能設計使Video-Bench突破了現有視頻質量評估方法的限制，能夠更全面、更智能地對視頻進行評分。

更全面、更智能

一方面，Video-Bench將視頻生成質量解構為“視頻-條件對齊”和“視頻質量”兩個正交維度，分別評估生成內容與文本指令的符合度以及視頻本身的觀感質量。

視頻-條件一致性關注評估生成的視頻是否準確地反映了文本提示中的內容，包括以下幾個關鍵維度對象類別一致性、動作一致性、顏色一致性、場景一致性、視頻-文本一致性；

視頻質量的評估則側重于視頻本身的視覺保真度和美學價值。包括成像質量、美學質量、時間一致性、運動質量。

這種雙維度的評估框架能使Video-Bench全面覆蓋視頻生成的各個要素，在評估視頻是否“保真”的同時，關注到視頻的美觀程度。

另一方面，Video-Bench的評估框架利用多模態大語言模型（Multimodal Large Language Model，MLLM）的強大能力，通過鏈式查詢技術和少樣本評分技術，實現對視頻生成質量的高效評估：

（1）鏈式查詢技術：通過多輪問答的方式，逐步深入地評估視頻與文本提示之間的一致性。

這種方法避免了直接的跨模態比較，而是先將視頻內容轉換為文本描述，然后通過一系列精心設計的問題，逐步檢查視頻內容是否與文本提示完全一致，有效解決了跨模態對比的語義鴻溝問題。

（2）少樣本評分技術：模仿人類橫向比較的本能，通過同時對比多個同主題視頻，使抽象的美學評價變得可量化。

例如在評估”電影感”時，Video-Bench會橫向比較不同生成結果的運鏡流暢度、光影層次感，而非孤立打分。

“像人一樣評估視頻”

將Video-Bench與當前主流評估方法進行系統性對比，可以看到，在視頻-條件對齊維度，Video-Bench以平均0.733的Spearman相關系數顯著優于傳統方法CompBench；在視頻質量維度，其0.620的平均相關性同樣領先EvalCrafter。

此外，在對象類別一致性這一關鍵指標上，Video-Bench達到0.735的相關性，較基于GRiT的方法提升56.3%。

為驗證評估結果的可靠性，Video-Bench還組織了10人專家小組對35,196個視頻樣本進行標注。

對齊結果顯示，評估者間一致性（Krippendorff’s α）達0.52，與人類自評水平相當。

通過組件設計的消融實驗，可以看到，鏈式查詢使視頻-條件對齊評估提升了9.3%，少樣本評分將成像質量評估相關性從46.1%（單樣本）提升至62.4%（7樣本）。

組合使用兩項技術時，評估穩定性（TARA@3）達67%，Krippendorff’s α達0.867，驗證了這些組件設計的有效性。

魯棒性測試結果發現，添加高斯噪聲后，Video-Bench的視頻-文本一致性評估誤差<5%，且三次重復實驗的評分一致性達87%，對不同復雜度提示的評估穩定性優于基線方法32%。

現有視頻生成模型的測評結果

使用Vedio-Bench對7個主流視頻生成模型進行測評，結果發現，商業模型整體優于開源模型（Gen3綜合得分4.38v.s.VideoCrafter2綜合得分3.87），不同模型存在顯著特長差異（如CogVideoX在視頻-文本一致性領先，而Gen3在成像質量最優）。

總體來看，當前的模型在動作合理性（平均2.53/3）和動態模糊（3.11/5）等動態維度表現較弱。

對不同基礎模型進行比較，結果發現，與Gemini1.5pro和Qwen2vl-72b相比，GPT-4o通常在視頻質量和一致性評分上表現更優，特別是在成像質量（0.807）和視頻-文本一致性（0.750）方面，GPT-4o-0806表現尤為突出。

然而，性能并不總是隨著GPT-4o版本的更新而持續提升。例如，GPT-4o-1120在運動效果方面相較于GPT-4o-0806有所下降（0.309vs.0.469），這表明在更新過程中，時間運動檢測可能存在潛在退化。

作者簡介

共同第一作者：

韓慧，上海交通大學碩士生，研究方向為多模態語言模型

李思遠，上海交通大學碩士生，研究方向為多模態語言模型

陳家棋，復旦大學碩士，斯坦福訪問學者，Fellou 研究員，研究方向為 LLM agent

袁怡雯，CMU 本科，xAI 研究員，研究方向為多模態語言模型和 RAG

通訊作者為倪泳鑫，波士頓大學博士

代碼鏈接：https://github.com/Video-Bench/Video-Bench.git
論文地址：https://arxiv.org/html/2504.04907v1

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

CVPR 2025 多模態大一統：斯坦福 x 復旦符號主義建模生成式任務

機器之心Pro 2025-06-13 10:11:44
0 跟貼 0
AI云，火山引擎如何“激進”？

鈦媒體APP 2025-06-13 19:09:03
0 跟貼 0

視頻生成模型無損加速兩倍，秘訣是「抓住attention時空稀疏性」

機器之心Pro 2025-05-07 19:05:34
2 跟貼 2

視頻擴散模型新突破！清華＆騰訊實現保真3D生成，告別多視圖依賴

量子位 2025-06-13 17:03:06
0 跟貼 0
前智源團隊創業，聯想、智譜AI投了一家人形機器人大模型公司｜硬氪首發

36氪 2025-06-14 09:31:10
0 跟貼 0

豆包使用成本“卷”至1/3 火山引擎瞄準智能體“爆發” 催生智算一體機新需求

財聯社 2025-06-14 11:16:00
1 跟貼 1

一句話生成任務專屬LoRA！Transformer作者創業公司顛覆LLM微調

量子位 2025-06-13 17:23:47
0 跟貼 0
這篇Nature論文僅有一個作者，MIT博士生業余愛好，為 AI 技術帶來全新應用方向

生物世界 2025-06-14 12:34:55
0 跟貼 0

AI自己給自己當網管，實現安全“頓悟時刻”，風險率直降9.6%

量子位 2025-06-13 17:03:41
0 跟貼 0
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
全球首次，Transformer「混血」速度狂飆65倍！英偉達已下注

新智元 2025-06-14 13:25:54
0 跟貼 0
上海庫帕思科技有限公司CTO王長冕：在西岸，人工智能企業貫穿各行業更方便

每日經濟新聞 2025-06-14 12:43:02
0 跟貼 0
每一幕皆可控！字節發布多主體視頻生成神器，人人皆主角

量子位 2025-06-13 17:12:08
2 跟貼 2
廣東特色冬瓜盅，里面全是精華，簡直就是大補

夢想搞笑家 2025-06-12 15:29:39
1261 跟貼 1261
孩子因基因突變出生后5、6月時眼睛變成藍色

橙薪視頻 2025-06-13 16:37:22
621 跟貼 621
反轉！16斤“黑材料”竟是科研樣本，羅帥宇墜亡真相顛覆全網認知

主持人老李 2025-06-14 13:21:12
0 跟貼 0
美式談判邏輯自相矛盾，欲通過高超音速導彈訛詐，換取解除制裁

虎說虎侃本人 2025-06-12 19:53:58
0 跟貼 0
提醒：遠離尿毒癥，這三個指標要關注

藥師方健 2025-06-13 22:15:34
6 跟貼 6
伊朗任命新任革命衛隊司令、臨時總參謀長

環球網資訊 2025-06-13 15:30:18
8084 跟貼 8084
伊朗對該國互聯網使用實施臨時限制

新京報 2025-06-13 19:26:01
9788 跟貼 9788
對標斯坦福？福耀科技大學招生老師透內幕，只收50人，這誰敢去

傲傲講歷史 2025-06-13 16:00:13
38 跟貼 38
一個讓你有無敵洞察力的頂級思維

德魯克博雅管理 2025-06-12 17:04:34
19 跟貼 19
膽堿酯酶：肝臟健康的晴雨表，中毒診斷的金指標

普外耿醫生 2025-06-11 17:20:44
0 跟貼 0
當院長騎電驢摔傷住院醫護人員紛紛拍照

凌晨看看 2025-06-14 09:03:19
3727 跟貼 3727
統計 | 你還傻傻分不清各種數據檢驗方法嗎

生物學霸 2025-04-28 18:56:25
0 跟貼 0
研究生在實驗室放「煙花」引發爆炸、誤開高溫模式樣本全報廢，導師：我早晚要被你嚇死

生物學霸 2025-03-07 17:50:20
0 跟貼 0
獨家｜蘇超逆流而上，贊助費飆升至300萬，仍一席難求

澎湃新聞 2025-06-13 19:44:28
414 跟貼 414
俄烏打架大國背后的底層邏輯

溫了我的唇色 2025-06-12 14:23:06
2 跟貼 2
當全網都在玩梗的時候，江蘇人已經忙掙錢了

揚子晚報 2025-06-13 21:27:45
17 跟貼 17
谷歌視頻模型Veo3正在顛覆好萊塢：星球大戰風暴兵系列之訓練新兵

鏈聞科技 2025-06-13 11:14:00
3 跟貼 3
超級大國的黃昏？五大維度剖析美國暴亂深層危機

瑪超說 2025-06-11 17:17:57
0 跟貼 0
先有斯坦福，后有硅谷

嘉賓商學 2025-06-13 11:33:03
0 跟貼 0
從側翻事故到政治勝利：朝鮮驅逐艦快速修復的深層邏輯

烽火三月佳人三千 2025-06-14 04:09:06
0 跟貼 0
每秒生成超30幀視頻，支持實時交互！自回歸視頻生成新框架來了

量子位 2025-06-12 13:53:22
0 跟貼 0
小升初數學考試題，可以用金字塔模型，也可以用沙漏模型

公考客棧店小二 2025-06-14 12:31:21
0 跟貼 0
高志凱點破殖民陰影延續，呼吁擺脫過時強盜邏輯

精彩背后的故事 2025-06-13 23:43:48
1 跟貼 1
視頻生成模型無損加速兩倍1

機器之心Pro 2025-05-07 17:36:45
0 跟貼 0
被斯坦福AI團隊抄襲的國產大模型有多優秀？

小糖發財 2025-06-13 07:12:10
0 跟貼 0
一周打幾次110！上海老小區沖突頻發：出一樣的錢，憑什么搞“雙標”？法規出臺多年，如何破局

上觀新聞 2025-06-13 16:53:01
265 跟貼 265
南京小伙自駕兩萬多公里往返英國留學，異國他鄉看到很多國產新能源車

揚子晚報 2025-06-14 09:45:53
0 跟貼 0

量子位

追蹤人工智能動態

10659文章數 176166關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

藝術

家居

數碼

軍事航空

手機 / 數碼

房產 / 家居

視頻生成統一評估架構，上交x斯坦福聯合讓MLLM像人類一樣打分

一輛新車比特斯拉FSD都便宜，全行業陪葬？

摩薩德在伊朗境內建立無人機基地 部署精確制導武器

摩薩德在伊朗境內建立無人機基地 部署精確制導武器

32隊爭10億獎金，全新世俱杯來了！

鳳凰傳奇曾毅手表引爭議 含性暗示元素

樓市權威發聲

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

呼吸科專家破解呼吸道九大謠言！

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

森林幾何 極簡灰調原木風

蘋果現正銷售翻新的 M4 MacBook Air 機型

伊媒：以色列國防部大樓被伊朗導彈擊中

一輛新車比特斯拉FSD都便宜，全行業陪葬？

摩薩德在伊朗境內建立無人機基地部署精確制導武器

摩薩德在伊朗境內建立無人機基地部署精確制導武器

32隊爭10億獎金，全新世俱杯來了！

鳳凰傳奇曾毅手表引爭議含性暗示元素

呼吸科專家破解呼吸道九大謠言！

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

森林幾何極簡灰調原木風