大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

視頻生成統一評估架構,上交x斯坦福聯合讓MLLM像人類一樣打分

0
分享至

Video-Bench團隊 投稿
量子位 | 公眾號 QbitAI

視頻生成技術正以前所未有的速度革新著當前的視覺內容創作方式,從電影制作到廣告設計,從虛擬現實到社交媒體,高質量且符合人類期望的視頻生成模型正變得越來越重要。

那么,要如何評估AI生成的視頻是否符合人類的審美和需求呢?

Video-Bench視頻評估框架,能夠通過模擬人類的認知過程,建立起連接文本指令與視覺內容的智能評估體系。

簡單地說,能夠讓多模態大模型(MLLM)“像人一樣評估視頻”。

實驗結果表明,Video-Bench不僅能精準識別生成視頻在物體一致性(0.735相關性)、動作合理性等維度的缺陷,還能穩定評估美學質量等傳統難題,顯著優于現有的評估方法。



Video-Bench的研究團隊來自上海交通大學、斯坦福大學、卡內基梅隆大學等機構。

Video-Bench:基于MLLM的自動化視頻評估框架

Video-Bench團隊在面對已有的視頻評估方法時,發現了兩個問題:

1.簡單的評分規則往往無法捕捉視頻流暢度、美學表現等復雜維度——

那么,當評判“視頻質量”時,如何將人類出于“直覺”的模糊感受轉化為可量化的評估指標?

2.現有基于大語言模型(Large Language Model,LLM)的基準雖能更好模擬人類評估邏輯,但在視頻-條件對齊評估中存在跨模態比較困難,在視頻質量評估中則面臨文本評價標準模糊化的局限——

那么,評估”視頻是否符合文字描述”時,評估系統如何實現跨模態對比?

針對上述的兩個問題,Video-Bench作出了兩點核心創新:



(1)系統性地構建了覆蓋視頻-條件對齊(Video-Condition Alignment)視頻質量(Video quality)的雙維度評估框架。

(2)引入了鏈式查詢(Chain-of-Query)少樣本評分(Few-shot scoring)兩項核心技術。

鏈式查詢通過多輪迭代的”描述-提問-驗證”流程,有效解決了文本與視頻跨模態對齊的評估難題;少樣本評分則通過多視頻對比建立相對質量標尺,將主觀的美學評判轉化為可量化的客觀標準。

這樣的功能設計使Video-Bench突破了現有視頻質量評估方法的限制,能夠更全面、更智能地對視頻進行評分。

更全面、更智能

一方面,Video-Bench將視頻生成質量解構為“視頻-條件對齊”和“視頻質量”兩個正交維度,分別評估生成內容與文本指令的符合度以及視頻本身的觀感質量。

視頻-條件一致性關注評估生成的視頻是否準確地反映了文本提示中的內容,包括以下幾個關鍵維度對象類別一致性、動作一致性、顏色一致性、場景一致性、視頻-文本一致性;

視頻質量的評估則側重于視頻本身的視覺保真度和美學價值。包括成像質量、美學質量、時間一致性、運動質量。

這種雙維度的評估框架能使Video-Bench全面覆蓋視頻生成的各個要素,在評估視頻是否“保真”的同時,關注到視頻的美觀程度。

另一方面,Video-Bench的評估框架利用多模態大語言模型(Multimodal Large Language Model,MLLM)的強大能力,通過鏈式查詢技術和少樣本評分技術,實現對視頻生成質量的高效評估:



(1)鏈式查詢技術:通過多輪問答的方式,逐步深入地評估視頻與文本提示之間的一致性。

這種方法避免了直接的跨模態比較,而是先將視頻內容轉換為文本描述,然后通過一系列精心設計的問題,逐步檢查視頻內容是否與文本提示完全一致,有效解決了跨模態對比的語義鴻溝問題。



(2)少樣本評分技術:模仿人類橫向比較的本能,通過同時對比多個同主題視頻,使抽象的美學評價變得可量化。

例如在評估”電影感”時,Video-Bench會橫向比較不同生成結果的運鏡流暢度、光影層次感,而非孤立打分。

“像人一樣評估視頻”



將Video-Bench與當前主流評估方法進行系統性對比,可以看到,在視頻-條件對齊維度,Video-Bench以平均0.733的Spearman相關系數顯著優于傳統方法CompBench;在視頻質量維度,其0.620的平均相關性同樣領先EvalCrafter。

此外,在對象類別一致性這一關鍵指標上,Video-Bench達到0.735的相關性,較基于GRiT的方法提升56.3%。



為驗證評估結果的可靠性,Video-Bench還組織了10人專家小組對35,196個視頻樣本進行標注。

對齊結果顯示,評估者間一致性(Krippendorff’s α)達0.52,與人類自評水平相當。



通過組件設計的消融實驗,可以看到,鏈式查詢使視頻-條件對齊評估提升了9.3%,少樣本評分將成像質量評估相關性從46.1%(單樣本)提升至62.4%(7樣本)。

組合使用兩項技術時,評估穩定性(TARA@3)達67%,Krippendorff’s α達0.867,驗證了這些組件設計的有效性。



魯棒性測試結果發現,添加高斯噪聲后,Video-Bench的視頻-文本一致性評估誤差<5%,且三次重復實驗的評分一致性達87%,對不同復雜度提示的評估穩定性優于基線方法32%。

現有視頻生成模型的測評結果



使用Vedio-Bench對7個主流視頻生成模型進行測評,結果發現,商業模型整體優于開源模型(Gen3綜合得分4.38v.s.VideoCrafter2綜合得分3.87),不同模型存在顯著特長差異(如CogVideoX在視頻-文本一致性領先,而Gen3在成像質量最優)。

總體來看,當前的模型在動作合理性(平均2.53/3)和動態模糊(3.11/5)等動態維度表現較弱。



對不同基礎模型進行比較,結果發現,與Gemini1.5pro和Qwen2vl-72b相比,GPT-4o通常在視頻質量和一致性評分上表現更優,特別是在成像質量(0.807)和視頻-文本一致性(0.750)方面,GPT-4o-0806表現尤為突出。

然而,性能并不總是隨著GPT-4o版本的更新而持續提升。例如,GPT-4o-1120在運動效果方面相較于GPT-4o-0806有所下降(0.309vs.0.469),這表明在更新過程中,時間運動檢測可能存在潛在退化。

作者簡介

共同第一作者

韓慧,上海交通大學碩士生,研究方向為多模態語言模型

李思遠,上海交通大學碩士生,研究方向為多模態語言模型

陳家棋,復旦大學碩士,斯坦福訪問學者,Fellou 研究員,研究方向為 LLM agent

袁怡雯,CMU 本科,xAI 研究員,研究方向為多模態語言模型和 RAG

通訊作者為倪泳鑫,波士頓大學博士

代碼鏈接:https://github.com/Video-Bench/Video-Bench.git
論文地址:https://arxiv.org/html/2504.04907v1

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中共中央批準:陳杰任上海市委常委

中共中央批準:陳杰任上海市委常委

政知新媒體
2025-06-13 22:13:08
山西省委副秘書長、省委新聞發言人梁克昌履新!

山西省委副秘書長、省委新聞發言人梁克昌履新!

太原全接觸
2025-06-14 09:51:39
阿里巴巴門口雕塑:一個畏畏縮縮的中年男人,提著一個公文包……

阿里巴巴門口雕塑:一個畏畏縮縮的中年男人,提著一個公文包……

翻開歷史和現實
2025-06-07 10:12:32
后半生最舒服的生活方式,就三個字!(此文無價)

后半生最舒服的生活方式,就三個字?。ù宋臒o價)

深度報
2025-06-13 23:21:32
魯懷安成功預測過大S命理,又告訴大家:未來這4個國家不要去

魯懷安成功預測過大S命理,又告訴大家:未來這4個國家不要去

魔都姐姐雜談
2025-06-11 11:27:02
徹查湘雅實習醫生墜亡事件,平息公眾疑慮 | 新京報快評

徹查湘雅實習醫生墜亡事件,平息公眾疑慮 | 新京報快評

新京報評論
2025-06-13 15:16:07
北京今天午后雨勢將再度增強,雨下到半夜前后

北京今天午后雨勢將再度增強,雨下到半夜前后

新京報
2025-06-14 13:11:14
館長暴怒甩證!怒懟整個綠媒!12小時300萬臺灣青年覺醒潮!

館長暴怒甩證!怒懟整個綠媒!12小時300萬臺灣青年覺醒潮!

小嵩
2025-06-13 09:02:52
賣老鼠藥的也跑來造車!2025最魔幻新勢力,全網都看傻了

賣老鼠藥的也跑來造車!2025最魔幻新勢力,全網都看傻了

深藍財經
2025-06-11 19:27:21
亞冠:日本94-93黎巴嫩獲得冠軍,蒙古第三,浙江第八,韓國墊底

亞冠:日本94-93黎巴嫩獲得冠軍,蒙古第三,浙江第八,韓國墊底

漫川舟船
2025-06-14 05:41:59
七折的卡宴能否挽救保時捷“腰斬”的在華銷量?

七折的卡宴能否挽救保時捷“腰斬”的在華銷量?

界面新聞
2025-06-13 19:01:05
哈利伯頓:去客場戰斗48分鐘是個挑戰,我已迫不及待迎接G5

哈利伯頓:去客場戰斗48分鐘是個挑戰,我已迫不及待迎接G5

雷速體育
2025-06-14 14:08:25
全國人大常委會法工委副主任武增已任司法部黨組成員

全國人大常委會法工委副主任武增已任司法部黨組成員

澎湃新聞
2025-06-13 19:14:29
只有三人是非賣品!廣東全隊任北控挑選,或“5換1”交易陳國豪?

只有三人是非賣品!廣東全隊任北控挑選,或“5換1”交易陳國豪?

緋雨兒
2025-06-14 11:06:52
首次!駐港國安公署與國安處聯手行動

首次!駐港國安公署與國安處聯手行動

環球時報新聞
2025-06-14 10:14:17
阿里P9年入433萬!晉升如登天,生存更如履薄冰?

阿里P9年入433萬!晉升如登天,生存更如履薄冰?

互聯網早讀課
2025-06-14 08:08:29
男孩嫌爺爺寒酸不讓出席畢業禮,軍樂響起全場沸騰,他卻無法淡定

男孩嫌爺爺寒酸不讓出席畢業禮,軍樂響起全場沸騰,他卻無法淡定

無名講堂
2025-06-10 17:17:20
為啥關燈蚊子嗡嗡叫,開了燈卻找不到?教你一招,一覺睡到天亮

為啥關燈蚊子嗡嗡叫,開了燈卻找不到?教你一招,一覺睡到天亮

三農老歷
2025-06-08 09:26:54
張雪峰隱退真實原因曝光,家長曬志愿卡,網友:他終究是個商人!

張雪峰隱退真實原因曝光,家長曬志愿卡,網友:他終究是個商人!

知曉科普
2025-06-14 08:35:09
百元出頭的歐洲頂級爆款跑鞋!很輕!很軟!很彈!

百元出頭的歐洲頂級爆款跑鞋!很輕!很軟!很彈!

柚子說球
2025-06-13 12:14:41
2025-06-14 14:43:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10659文章數 176166關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

摩薩德在伊朗境內建立無人機基地 部署精確制導武器

頭條要聞

摩薩德在伊朗境內建立無人機基地 部署精確制導武器

體育要聞

32隊爭10億獎金,全新世俱杯來了!

娛樂要聞

鳳凰傳奇曾毅手表引爭議 含性暗示元素

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

健康
藝術
家居
數碼
軍事航空

呼吸科專家破解呼吸道九大謠言!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

森林幾何 極簡灰調原木風

數碼要聞

蘋果現正銷售翻新的 M4 MacBook Air 機型

軍事要聞

伊媒:以色列國防部大樓被伊朗導彈擊中

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧美专区日韩视频人妻| 成人伊人精品色xxxx视频| 亚洲欧美尹人综合网站| 日韩内射美女片在线观看网站| 亚洲国产成人av在线观看| 国产男女猛烈无遮挡免费视频| 无码国内精品久久人妻蜜桃| 日本高清www无色夜在线视频| 亚洲.欧美.在线视频| 永久免费观看的毛片手机视频| 欧美mv日韩mv国产网站app| 国产乱人伦av在线a| 日韩av片无码一区二区不卡电影| 免费又黄又爽又猛的毛片| 伊人久久大香线蕉午夜av| 欧美激情综合色综合啪啪五月| 成人无码专区免费播放三区| 日本大胆欧美人术艺术| 日韩午夜爽爽人体A片视频| 国产成人精品高清在线观看93| 18禁成年免费无码国产| 一道久久爱综合久久爱| 强行糟蹋人妻hd中文字| 国产成人午夜福利在线播放| 热99re久久精品这里都是精品免费| 亚洲综合电影小说图片区| 日韩无码在钱中文字幕在钱视频| 国产精华av午夜在线| 狠狠色丁香婷婷久久综合蜜芽| 97碰碰碰人妻无码视频| 日本道色综合久久影院| 亚洲综合久久无码色噜噜| 日韩人妻熟女中文字幕a美景之屋| 国产高清不卡一区二区| yy111111少妇无码影院| 亚洲国产成人精品无码区在线软件| 亚洲人成网线在线播放| 久久se精品一区二区| 久久精品a亚洲国产v高清不卡| 亚洲美女被黑人巨大在线播放| аⅴ资源天堂资源库在线|