網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

視頻生成統(tǒng)一評估架構(gòu)，上交x斯坦福聯(lián)合讓MLLM像人類一樣打分

2025-06-12 17:04:58　來源: 量子位

北京舉報

分享至

Video-Bench團隊投稿
量子位 | 公眾號 QbitAI

視頻生成技術(shù)正以前所未有的速度革新著當(dāng)前的視覺內(nèi)容創(chuàng)作方式，從電影制作到廣告設(shè)計，從虛擬現(xiàn)實到社交媒體，高質(zhì)量且符合人類期望的視頻生成模型正變得越來越重要。

那么，要如何評估AI生成的視頻是否符合人類的審美和需求呢？

Video-Bench視頻評估框架，能夠通過模擬人類的認(rèn)知過程，建立起連接文本指令與視覺內(nèi)容的智能評估體系。

簡單地說，能夠讓多模態(tài)大模型（MLLM）“像人一樣評估視頻”。

實驗結(jié)果表明，Video-Bench不僅能精準(zhǔn)識別生成視頻在物體一致性（0.735相關(guān)性）、動作合理性等維度的缺陷，還能穩(wěn)定評估美學(xué)質(zhì)量等傳統(tǒng)難題，顯著優(yōu)于現(xiàn)有的評估方法。

Video-Bench的研究團隊來自上海交通大學(xué)、斯坦福大學(xué)、卡內(nèi)基梅隆大學(xué)等機構(gòu)。

Video-Bench：基于MLLM的自動化視頻評估框架

Video-Bench團隊在面對已有的視頻評估方法時，發(fā)現(xiàn)了兩個問題：

1.簡單的評分規(guī)則往往無法捕捉視頻流暢度、美學(xué)表現(xiàn)等復(fù)雜維度——

那么，當(dāng)評判“視頻質(zhì)量”時，如何將人類出于“直覺”的模糊感受轉(zhuǎn)化為可量化的評估指標(biāo)？

2.現(xiàn)有基于大語言模型（Large Language Model，LLM）的基準(zhǔn)雖能更好模擬人類評估邏輯，但在視頻-條件對齊評估中存在跨模態(tài)比較困難，在視頻質(zhì)量評估中則面臨文本評價標(biāo)準(zhǔn)模糊化的局限——

那么，評估”視頻是否符合文字描述”時，評估系統(tǒng)如何實現(xiàn)跨模態(tài)對比？

針對上述的兩個問題，Video-Bench作出了兩點核心創(chuàng)新：

（1）系統(tǒng)性地構(gòu)建了覆蓋視頻-條件對齊（Video-Condition Alignment）和視頻質(zhì)量（Video quality）的雙維度評估框架。

（2）引入了鏈?zhǔn)讲樵儯–hain-of-Query）和少樣本評分（Few-shot scoring）兩項核心技術(shù)。

鏈?zhǔn)讲樵兺ㄟ^多輪迭代的”描述-提問-驗證”流程，有效解決了文本與視頻跨模態(tài)對齊的評估難題；少樣本評分則通過多視頻對比建立相對質(zhì)量標(biāo)尺，將主觀的美學(xué)評判轉(zhuǎn)化為可量化的客觀標(biāo)準(zhǔn)。

這樣的功能設(shè)計使Video-Bench突破了現(xiàn)有視頻質(zhì)量評估方法的限制，能夠更全面、更智能地對視頻進(jìn)行評分。

更全面、更智能

一方面，Video-Bench將視頻生成質(zhì)量解構(gòu)為“視頻-條件對齊”和“視頻質(zhì)量”兩個正交維度，分別評估生成內(nèi)容與文本指令的符合度以及視頻本身的觀感質(zhì)量。

視頻-條件一致性關(guān)注評估生成的視頻是否準(zhǔn)確地反映了文本提示中的內(nèi)容，包括以下幾個關(guān)鍵維度對象類別一致性、動作一致性、顏色一致性、場景一致性、視頻-文本一致性；

視頻質(zhì)量的評估則側(cè)重于視頻本身的視覺保真度和美學(xué)價值。包括成像質(zhì)量、美學(xué)質(zhì)量、時間一致性、運動質(zhì)量。

這種雙維度的評估框架能使Video-Bench全面覆蓋視頻生成的各個要素，在評估視頻是否“保真”的同時，關(guān)注到視頻的美觀程度。

另一方面，Video-Bench的評估框架利用多模態(tài)大語言模型（Multimodal Large Language Model，MLLM）的強大能力，通過鏈?zhǔn)讲樵兗夹g(shù)和少樣本評分技術(shù)，實現(xiàn)對視頻生成質(zhì)量的高效評估：

（1）鏈?zhǔn)讲樵兗夹g(shù)：通過多輪問答的方式，逐步深入地評估視頻與文本提示之間的一致性。

這種方法避免了直接的跨模態(tài)比較，而是先將視頻內(nèi)容轉(zhuǎn)換為文本描述，然后通過一系列精心設(shè)計的問題，逐步檢查視頻內(nèi)容是否與文本提示完全一致，有效解決了跨模態(tài)對比的語義鴻溝問題。

（2）少樣本評分技術(shù)：模仿人類橫向比較的本能，通過同時對比多個同主題視頻，使抽象的美學(xué)評價變得可量化。

例如在評估”電影感”時，Video-Bench會橫向比較不同生成結(jié)果的運鏡流暢度、光影層次感，而非孤立打分。

“像人一樣評估視頻”

將Video-Bench與當(dāng)前主流評估方法進(jìn)行系統(tǒng)性對比，可以看到，在視頻-條件對齊維度，Video-Bench以平均0.733的Spearman相關(guān)系數(shù)顯著優(yōu)于傳統(tǒng)方法CompBench；在視頻質(zhì)量維度，其0.620的平均相關(guān)性同樣領(lǐng)先EvalCrafter。

此外，在對象類別一致性這一關(guān)鍵指標(biāo)上，Video-Bench達(dá)到0.735的相關(guān)性，較基于GRiT的方法提升56.3%。

為驗證評估結(jié)果的可靠性，Video-Bench還組織了10人專家小組對35,196個視頻樣本進(jìn)行標(biāo)注。

對齊結(jié)果顯示，評估者間一致性（Krippendorff’s α）達(dá)0.52，與人類自評水平相當(dāng)。

通過組件設(shè)計的消融實驗，可以看到，鏈?zhǔn)讲樵兪挂曨l-條件對齊評估提升了9.3%，少樣本評分將成像質(zhì)量評估相關(guān)性從46.1%（單樣本）提升至62.4%（7樣本）。

組合使用兩項技術(shù)時，評估穩(wěn)定性（TARA@3）達(dá)67%，Krippendorff’s α達(dá)0.867，驗證了這些組件設(shè)計的有效性。

魯棒性測試結(jié)果發(fā)現(xiàn)，添加高斯噪聲后，Video-Bench的視頻-文本一致性評估誤差<5%，且三次重復(fù)實驗的評分一致性達(dá)87%，對不同復(fù)雜度提示的評估穩(wěn)定性優(yōu)于基線方法32%。

現(xiàn)有視頻生成模型的測評結(jié)果

使用Vedio-Bench對7個主流視頻生成模型進(jìn)行測評，結(jié)果發(fā)現(xiàn)，商業(yè)模型整體優(yōu)于開源模型（Gen3綜合得分4.38v.s.VideoCrafter2綜合得分3.87），不同模型存在顯著特長差異（如CogVideoX在視頻-文本一致性領(lǐng)先，而Gen3在成像質(zhì)量最優(yōu)）。

總體來看，當(dāng)前的模型在動作合理性（平均2.53/3）和動態(tài)模糊（3.11/5）等動態(tài)維度表現(xiàn)較弱。

對不同基礎(chǔ)模型進(jìn)行比較，結(jié)果發(fā)現(xiàn)，與Gemini1.5pro和Qwen2vl-72b相比，GPT-4o通常在視頻質(zhì)量和一致性評分上表現(xiàn)更優(yōu)，特別是在成像質(zhì)量（0.807）和視頻-文本一致性（0.750）方面，GPT-4o-0806表現(xiàn)尤為突出。

然而，性能并不總是隨著GPT-4o版本的更新而持續(xù)提升。例如，GPT-4o-1120在運動效果方面相較于GPT-4o-0806有所下降（0.309vs.0.469），這表明在更新過程中，時間運動檢測可能存在潛在退化。

作者簡介

共同第一作者：

韓慧，上海交通大學(xué)碩士生，研究方向為多模態(tài)語言模型

李思遠(yuǎn)，上海交通大學(xué)碩士生，研究方向為多模態(tài)語言模型

陳家棋，復(fù)旦大學(xué)碩士，斯坦福訪問學(xué)者，F(xiàn)ellou 研究員，研究方向為 LLM agent

袁怡雯，CMU 本科，xAI 研究員，研究方向為多模態(tài)語言模型和 RAG

通訊作者為倪泳鑫，波士頓大學(xué)博士

代碼鏈接：https://github.com/Video-Bench/Video-Bench.git
論文地址：https://arxiv.org/html/2504.04907v1

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.