Video-Bench團隊 投稿
量子位 | 公眾號 QbitAI
視頻生成技術正以前所未有的速度革新著當前的視覺內容創作方式,從電影制作到廣告設計,從虛擬現實到社交媒體,高質量且符合人類期望的視頻生成模型正變得越來越重要。
那么,要如何評估AI生成的視頻是否符合人類的審美和需求呢?
Video-Bench視頻評估框架,能夠通過模擬人類的認知過程,建立起連接文本指令與視覺內容的智能評估體系。
簡單地說,能夠讓多模態大模型(MLLM)“像人一樣評估視頻”。
實驗結果表明,Video-Bench不僅能精準識別生成視頻在物體一致性(0.735相關性)、動作合理性等維度的缺陷,還能穩定評估美學質量等傳統難題,顯著優于現有的評估方法。
Video-Bench的研究團隊來自上海交通大學、斯坦福大學、卡內基梅隆大學等機構。
Video-Bench:基于MLLM的自動化視頻評估框架
Video-Bench團隊在面對已有的視頻評估方法時,發現了兩個問題:
1.簡單的評分規則往往無法捕捉視頻流暢度、美學表現等復雜維度——
那么,當評判“視頻質量”時,如何將人類出于“直覺”的模糊感受轉化為可量化的評估指標?
2.現有基于大語言模型(Large Language Model,LLM)的基準雖能更好模擬人類評估邏輯,但在視頻-條件對齊評估中存在跨模態比較困難,在視頻質量評估中則面臨文本評價標準模糊化的局限——
那么,評估”視頻是否符合文字描述”時,評估系統如何實現跨模態對比?
針對上述的兩個問題,Video-Bench作出了兩點核心創新:
(1)系統性地構建了覆蓋視頻-條件對齊(Video-Condition Alignment)和視頻質量(Video quality)的雙維度評估框架。
(2)引入了鏈式查詢(Chain-of-Query)和少樣本評分(Few-shot scoring)兩項核心技術。
鏈式查詢通過多輪迭代的”描述-提問-驗證”流程,有效解決了文本與視頻跨模態對齊的評估難題;少樣本評分則通過多視頻對比建立相對質量標尺,將主觀的美學評判轉化為可量化的客觀標準。
這樣的功能設計使Video-Bench突破了現有視頻質量評估方法的限制,能夠更全面、更智能地對視頻進行評分。
更全面、更智能
一方面,Video-Bench將視頻生成質量解構為“視頻-條件對齊”和“視頻質量”兩個正交維度,分別評估生成內容與文本指令的符合度以及視頻本身的觀感質量。
視頻-條件一致性關注評估生成的視頻是否準確地反映了文本提示中的內容,包括以下幾個關鍵維度對象類別一致性、動作一致性、顏色一致性、場景一致性、視頻-文本一致性;
視頻質量的評估則側重于視頻本身的視覺保真度和美學價值。包括成像質量、美學質量、時間一致性、運動質量。
這種雙維度的評估框架能使Video-Bench全面覆蓋視頻生成的各個要素,在評估視頻是否“保真”的同時,關注到視頻的美觀程度。
另一方面,Video-Bench的評估框架利用多模態大語言模型(Multimodal Large Language Model,MLLM)的強大能力,通過鏈式查詢技術和少樣本評分技術,實現對視頻生成質量的高效評估:
(1)鏈式查詢技術:通過多輪問答的方式,逐步深入地評估視頻與文本提示之間的一致性。
這種方法避免了直接的跨模態比較,而是先將視頻內容轉換為文本描述,然后通過一系列精心設計的問題,逐步檢查視頻內容是否與文本提示完全一致,有效解決了跨模態對比的語義鴻溝問題。
(2)少樣本評分技術:模仿人類橫向比較的本能,通過同時對比多個同主題視頻,使抽象的美學評價變得可量化。
例如在評估”電影感”時,Video-Bench會橫向比較不同生成結果的運鏡流暢度、光影層次感,而非孤立打分。
“像人一樣評估視頻”
將Video-Bench與當前主流評估方法進行系統性對比,可以看到,在視頻-條件對齊維度,Video-Bench以平均0.733的Spearman相關系數顯著優于傳統方法CompBench;在視頻質量維度,其0.620的平均相關性同樣領先EvalCrafter。
此外,在對象類別一致性這一關鍵指標上,Video-Bench達到0.735的相關性,較基于GRiT的方法提升56.3%。
為驗證評估結果的可靠性,Video-Bench還組織了10人專家小組對35,196個視頻樣本進行標注。
對齊結果顯示,評估者間一致性(Krippendorff’s α)達0.52,與人類自評水平相當。
通過組件設計的消融實驗,可以看到,鏈式查詢使視頻-條件對齊評估提升了9.3%,少樣本評分將成像質量評估相關性從46.1%(單樣本)提升至62.4%(7樣本)。
組合使用兩項技術時,評估穩定性(TARA@3)達67%,Krippendorff’s α達0.867,驗證了這些組件設計的有效性。
魯棒性測試結果發現,添加高斯噪聲后,Video-Bench的視頻-文本一致性評估誤差<5%,且三次重復實驗的評分一致性達87%,對不同復雜度提示的評估穩定性優于基線方法32%。
現有視頻生成模型的測評結果
使用Vedio-Bench對7個主流視頻生成模型進行測評,結果發現,商業模型整體優于開源模型(Gen3綜合得分4.38v.s.VideoCrafter2綜合得分3.87),不同模型存在顯著特長差異(如CogVideoX在視頻-文本一致性領先,而Gen3在成像質量最優)。
總體來看,當前的模型在動作合理性(平均2.53/3)和動態模糊(3.11/5)等動態維度表現較弱。
對不同基礎模型進行比較,結果發現,與Gemini1.5pro和Qwen2vl-72b相比,GPT-4o通常在視頻質量和一致性評分上表現更優,特別是在成像質量(0.807)和視頻-文本一致性(0.750)方面,GPT-4o-0806表現尤為突出。
然而,性能并不總是隨著GPT-4o版本的更新而持續提升。例如,GPT-4o-1120在運動效果方面相較于GPT-4o-0806有所下降(0.309vs.0.469),這表明在更新過程中,時間運動檢測可能存在潛在退化。
作者簡介
共同第一作者:
韓慧,上海交通大學碩士生,研究方向為多模態語言模型
李思遠,上海交通大學碩士生,研究方向為多模態語言模型
陳家棋,復旦大學碩士,斯坦福訪問學者,Fellou 研究員,研究方向為 LLM agent
袁怡雯,CMU 本科,xAI 研究員,研究方向為多模態語言模型和 RAG
通訊作者為倪泳鑫,波士頓大學博士
代碼鏈接:https://github.com/Video-Bench/Video-Bench.git
論文地址:https://arxiv.org/html/2504.04907v1
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.