大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

視頻生成統(tǒng)一評估架構(gòu),上交x斯坦福聯(lián)合讓MLLM像人類一樣打分

0
分享至

Video-Bench團隊 投稿
量子位 | 公眾號 QbitAI

視頻生成技術(shù)正以前所未有的速度革新著當(dāng)前的視覺內(nèi)容創(chuàng)作方式,從電影制作到廣告設(shè)計,從虛擬現(xiàn)實到社交媒體,高質(zhì)量且符合人類期望的視頻生成模型正變得越來越重要。

那么,要如何評估AI生成的視頻是否符合人類的審美和需求呢?

Video-Bench視頻評估框架,能夠通過模擬人類的認(rèn)知過程,建立起連接文本指令與視覺內(nèi)容的智能評估體系。

簡單地說,能夠讓多模態(tài)大模型(MLLM)“像人一樣評估視頻”。

實驗結(jié)果表明,Video-Bench不僅能精準(zhǔn)識別生成視頻在物體一致性(0.735相關(guān)性)、動作合理性等維度的缺陷,還能穩(wěn)定評估美學(xué)質(zhì)量等傳統(tǒng)難題,顯著優(yōu)于現(xiàn)有的評估方法。



Video-Bench的研究團隊來自上海交通大學(xué)、斯坦福大學(xué)、卡內(nèi)基梅隆大學(xué)等機構(gòu)。

Video-Bench:基于MLLM的自動化視頻評估框架

Video-Bench團隊在面對已有的視頻評估方法時,發(fā)現(xiàn)了兩個問題:

1.簡單的評分規(guī)則往往無法捕捉視頻流暢度、美學(xué)表現(xiàn)等復(fù)雜維度——

那么,當(dāng)評判“視頻質(zhì)量”時,如何將人類出于“直覺”的模糊感受轉(zhuǎn)化為可量化的評估指標(biāo)?

2.現(xiàn)有基于大語言模型(Large Language Model,LLM)的基準(zhǔn)雖能更好模擬人類評估邏輯,但在視頻-條件對齊評估中存在跨模態(tài)比較困難,在視頻質(zhì)量評估中則面臨文本評價標(biāo)準(zhǔn)模糊化的局限——

那么,評估”視頻是否符合文字描述”時,評估系統(tǒng)如何實現(xiàn)跨模態(tài)對比?

針對上述的兩個問題,Video-Bench作出了兩點核心創(chuàng)新:



(1)系統(tǒng)性地構(gòu)建了覆蓋視頻-條件對齊(Video-Condition Alignment)視頻質(zhì)量(Video quality)的雙維度評估框架。

(2)引入了鏈?zhǔn)讲樵儯–hain-of-Query)少樣本評分(Few-shot scoring)兩項核心技術(shù)。

鏈?zhǔn)讲樵兺ㄟ^多輪迭代的”描述-提問-驗證”流程,有效解決了文本與視頻跨模態(tài)對齊的評估難題;少樣本評分則通過多視頻對比建立相對質(zhì)量標(biāo)尺,將主觀的美學(xué)評判轉(zhuǎn)化為可量化的客觀標(biāo)準(zhǔn)。

這樣的功能設(shè)計使Video-Bench突破了現(xiàn)有視頻質(zhì)量評估方法的限制,能夠更全面、更智能地對視頻進(jìn)行評分。

更全面、更智能

一方面,Video-Bench將視頻生成質(zhì)量解構(gòu)為“視頻-條件對齊”和“視頻質(zhì)量”兩個正交維度,分別評估生成內(nèi)容與文本指令的符合度以及視頻本身的觀感質(zhì)量。

視頻-條件一致性關(guān)注評估生成的視頻是否準(zhǔn)確地反映了文本提示中的內(nèi)容,包括以下幾個關(guān)鍵維度對象類別一致性、動作一致性、顏色一致性、場景一致性、視頻-文本一致性;

視頻質(zhì)量的評估則側(cè)重于視頻本身的視覺保真度和美學(xué)價值。包括成像質(zhì)量、美學(xué)質(zhì)量、時間一致性、運動質(zhì)量。

這種雙維度的評估框架能使Video-Bench全面覆蓋視頻生成的各個要素,在評估視頻是否“保真”的同時,關(guān)注到視頻的美觀程度。

另一方面,Video-Bench的評估框架利用多模態(tài)大語言模型(Multimodal Large Language Model,MLLM)的強大能力,通過鏈?zhǔn)讲樵兗夹g(shù)和少樣本評分技術(shù),實現(xiàn)對視頻生成質(zhì)量的高效評估:



(1)鏈?zhǔn)讲樵兗夹g(shù):通過多輪問答的方式,逐步深入地評估視頻與文本提示之間的一致性。

這種方法避免了直接的跨模態(tài)比較,而是先將視頻內(nèi)容轉(zhuǎn)換為文本描述,然后通過一系列精心設(shè)計的問題,逐步檢查視頻內(nèi)容是否與文本提示完全一致,有效解決了跨模態(tài)對比的語義鴻溝問題。



(2)少樣本評分技術(shù):模仿人類橫向比較的本能,通過同時對比多個同主題視頻,使抽象的美學(xué)評價變得可量化。

例如在評估”電影感”時,Video-Bench會橫向比較不同生成結(jié)果的運鏡流暢度、光影層次感,而非孤立打分。

“像人一樣評估視頻”



將Video-Bench與當(dāng)前主流評估方法進(jìn)行系統(tǒng)性對比,可以看到,在視頻-條件對齊維度,Video-Bench以平均0.733的Spearman相關(guān)系數(shù)顯著優(yōu)于傳統(tǒng)方法CompBench;在視頻質(zhì)量維度,其0.620的平均相關(guān)性同樣領(lǐng)先EvalCrafter。

此外,在對象類別一致性這一關(guān)鍵指標(biāo)上,Video-Bench達(dá)到0.735的相關(guān)性,較基于GRiT的方法提升56.3%。



為驗證評估結(jié)果的可靠性,Video-Bench還組織了10人專家小組對35,196個視頻樣本進(jìn)行標(biāo)注。

對齊結(jié)果顯示,評估者間一致性(Krippendorff’s α)達(dá)0.52,與人類自評水平相當(dāng)。



通過組件設(shè)計的消融實驗,可以看到,鏈?zhǔn)讲樵兪挂曨l-條件對齊評估提升了9.3%,少樣本評分將成像質(zhì)量評估相關(guān)性從46.1%(單樣本)提升至62.4%(7樣本)。

組合使用兩項技術(shù)時,評估穩(wěn)定性(TARA@3)達(dá)67%,Krippendorff’s α達(dá)0.867,驗證了這些組件設(shè)計的有效性。



魯棒性測試結(jié)果發(fā)現(xiàn),添加高斯噪聲后,Video-Bench的視頻-文本一致性評估誤差<5%,且三次重復(fù)實驗的評分一致性達(dá)87%,對不同復(fù)雜度提示的評估穩(wěn)定性優(yōu)于基線方法32%

現(xiàn)有視頻生成模型的測評結(jié)果



使用Vedio-Bench對7個主流視頻生成模型進(jìn)行測評,結(jié)果發(fā)現(xiàn),商業(yè)模型整體優(yōu)于開源模型(Gen3綜合得分4.38v.s.VideoCrafter2綜合得分3.87),不同模型存在顯著特長差異(如CogVideoX在視頻-文本一致性領(lǐng)先,而Gen3在成像質(zhì)量最優(yōu))。

總體來看,當(dāng)前的模型在動作合理性(平均2.53/3)和動態(tài)模糊(3.11/5)等動態(tài)維度表現(xiàn)較弱。



對不同基礎(chǔ)模型進(jìn)行比較,結(jié)果發(fā)現(xiàn),與Gemini1.5pro和Qwen2vl-72b相比,GPT-4o通常在視頻質(zhì)量和一致性評分上表現(xiàn)更優(yōu),特別是在成像質(zhì)量(0.807)和視頻-文本一致性(0.750)方面,GPT-4o-0806表現(xiàn)尤為突出。

然而,性能并不總是隨著GPT-4o版本的更新而持續(xù)提升。例如,GPT-4o-1120在運動效果方面相較于GPT-4o-0806有所下降(0.309vs.0.469),這表明在更新過程中,時間運動檢測可能存在潛在退化。

作者簡介

共同第一作者

韓慧,上海交通大學(xué)碩士生,研究方向為多模態(tài)語言模型

李思遠(yuǎn),上海交通大學(xué)碩士生,研究方向為多模態(tài)語言模型

陳家棋,復(fù)旦大學(xué)碩士,斯坦福訪問學(xué)者,F(xiàn)ellou 研究員,研究方向為 LLM agent

袁怡雯,CMU 本科,xAI 研究員,研究方向為多模態(tài)語言模型和 RAG

通訊作者為倪泳鑫,波士頓大學(xué)博士

代碼鏈接:https://github.com/Video-Bench/Video-Bench.git
論文地址:https://arxiv.org/html/2504.04907v1

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
河南禁酒令大反轉(zhuǎn)!本以為是“硬核新規(guī)”,官方回應(yīng),網(wǎng)友:理解

河南禁酒令大反轉(zhuǎn)!本以為是“硬核新規(guī)”,官方回應(yīng),網(wǎng)友:理解

溫讀史
2025-06-14 09:56:47
上海專家發(fā)現(xiàn):吃甜食的老人,健康指數(shù)是吃蔬菜的人的5倍不止?

上海專家發(fā)現(xiàn):吃甜食的老人,健康指數(shù)是吃蔬菜的人的5倍不止?

華庭講美食
2025-06-14 13:52:03
袁立小號發(fā)文緬懷羅帥宇,連發(fā)兩條動態(tài),看新聞難過到吃不下飯

袁立小號發(fā)文緬懷羅帥宇,連發(fā)兩條動態(tài),看新聞難過到吃不下飯

趣文說娛
2025-06-14 11:13:03
局勢突變!中國深夜發(fā)出警告,俄羅斯聲明立即結(jié)束會談!

局勢突變!中國深夜發(fā)出警告,俄羅斯聲明立即結(jié)束會談!

一個有靈魂的作者
2025-06-14 22:17:44
國防大學(xué)的教授也是一個水貨

國防大學(xué)的教授也是一個水貨

回旋鏢
2025-06-14 15:59:57
跌太猛了!浙江余杭這個小區(qū)從214萬暴跌到80萬,跌幅超過60%…

跌太猛了!浙江余杭這個小區(qū)從214萬暴跌到80萬,跌幅超過60%…

火山詩話
2025-06-14 14:30:42
好消息:中國防空導(dǎo)彈再次擊落戰(zhàn)機!壞消息:被擊落的是中國戰(zhàn)機

好消息:中國防空導(dǎo)彈再次擊落戰(zhàn)機!壞消息:被擊落的是中國戰(zhàn)機

荷蘭豆愛健康
2025-06-12 18:47:39
伊朗不打倒神棍政權(quán),國家將永無希望

伊朗不打倒神棍政權(quán),國家將永無希望

廖保平
2025-06-14 09:19:25
南航“美女經(jīng)理”:除了生理期就沒閑過,兩年半和上級開房410次

南航“美女經(jīng)理”:除了生理期就沒閑過,兩年半和上級開房410次

就一點
2025-06-13 16:45:25
哈梅內(nèi)伊聲明:要徹底摧毀以色列政權(quán)!伊朗向以方向發(fā)射約150枚導(dǎo)彈!伊軍稱擊落以戰(zhàn)機并逮捕飛行員

哈梅內(nèi)伊聲明:要徹底摧毀以色列政權(quán)!伊朗向以方向發(fā)射約150枚導(dǎo)彈!伊軍稱擊落以戰(zhàn)機并逮捕飛行員

每日經(jīng)濟新聞
2025-06-14 06:41:13
LABUBU真成“頂流”了!韓國線下店有人為它通宵排隊,有人為它吵架動手,為您揭秘其火爆原因

LABUBU真成“頂流”了!韓國線下店有人為它通宵排隊,有人為它吵架動手,為您揭秘其火爆原因

三湘都市報
2025-06-14 18:04:05
恥辱!香港運動員奪冠拒唱國歌,這樣的運動員不止一個

恥辱!香港運動員奪冠拒唱國歌,這樣的運動員不止一個

柳絮憶史
2025-06-14 07:10:03
聊聊步行者 VS 雷霆 G4

聊聊步行者 VS 雷霆 G4

靜易墨
2025-06-14 21:17:05
伊朗:打擊美軍基地 下一輪對以襲擊導(dǎo)彈數(shù)是20倍

伊朗:打擊美軍基地 下一輪對以襲擊導(dǎo)彈數(shù)是20倍

看看新聞Knews
2025-06-14 20:25:47
蘇超最新積分榜公布

蘇超最新積分榜公布

現(xiàn)代快報
2025-06-14 21:17:08
鳳凰傳奇曾毅回應(yīng)手表爭議,堪稱災(zāi)難性公關(guān),被吐槽不如道歉……

鳳凰傳奇曾毅回應(yīng)手表爭議,堪稱災(zāi)難性公關(guān),被吐槽不如道歉……

妮妮玩不夠
2025-06-14 07:47:04
中紀(jì)委怒批公務(wù)員也是人!正常生活不應(yīng)問責(zé)處!

中紀(jì)委怒批公務(wù)員也是人!正常生活不應(yīng)問責(zé)處!

霹靂炮
2025-06-13 23:49:27
羅帥宇的通報來了,真相終于大白

羅帥宇的通報來了,真相終于大白

大張的自留地
2025-06-14 08:39:21
慘不忍睹!女籃三人10中1,籃板也不會搶,球迷:趕快淘汰他仨

慘不忍睹!女籃三人10中1,籃板也不會搶,球迷:趕快淘汰他仨

南海浪花
2025-06-14 11:30:33
1-2!鄭欽文輸球內(nèi)情曝光,賽后眼眶含淚,對手采訪說到了關(guān)鍵

1-2!鄭欽文輸球內(nèi)情曝光,賽后眼眶含淚,對手采訪說到了關(guān)鍵

侃球熊弟
2025-06-15 00:02:53
2025-06-15 04:19:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10666文章數(shù) 176166關(guān)注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業(yè)陪葬?

頭條要聞

以防長威脅哈梅內(nèi)伊:若繼續(xù)發(fā)射導(dǎo)彈 德黑蘭將成火海

頭條要聞

以防長威脅哈梅內(nèi)伊:若繼續(xù)發(fā)射導(dǎo)彈 德黑蘭將成火海

體育要聞

約戰(zhàn)天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經(jīng)要聞

樓市權(quán)威發(fā)聲

汽車要聞

長城為了拿環(huán)塔冠軍有多拼?魏建軍在下一盤大棋!

態(tài)度原創(chuàng)

旅游
房產(chǎn)
本地
游戲
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

房產(chǎn)要聞

又一城購房補貼!買房就發(fā)錢,正在海南樓市瘋狂擴散!

本地新聞

最近的打工人,都在熬夜看這劇逐幀學(xué)習(xí)職場小技巧

死掉的“賽博初戀”,有誰能夠打贏復(fù)活賽?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲欧美精品无码一区二区三区| 毛片无码免费无码播放| 色欲香天天综合网站| 欧美精品人人做人人爱视频| 亚洲精品中文字幕乱码4区| 久久久久久免费毛片精品| 国产一精品一av一免费爽爽| 亚洲精品国偷拍自产在线观看| 蜜臀av无码一区二区三区| 极品老师腿张开粉嫩小泬| 国产精品怡红院永久免费| 麻豆精产一二三产区| 夜鲁鲁鲁夜夜综合视频欧美| 国产ww久久久久久久久久| 精品国产乱码久久久久久浪潮小说| 亚洲国产成人av片在线播放| 少妇激情作爱视频| 男人用嘴添女人下身免费视频| 中文字幕人妻无码专区app| 国产免费网站看v片在线观看| 6080yyy午夜理论片中无码| 最近免费mv在线观看动漫| 国产成人无码一区二区在线观看| 69久久精品无码一区二区| 欧美国产成人久久精品| 国产精品办公室沙发| 久久亚洲av无码精品色午夜| 内射爽无广熟女亚洲| 边吃奶边添下面好爽| 亚洲无码在线免费观看| 国产亚洲精品在av| 亚洲午夜福利在线观看| 18禁裸乳无遮挡啪啪无码免费| 2019精品国自产拍在线不卡| 边添小泬边狠狠躁视频| 精品免费国产一区二区三区四区| 鲁鲁鲁爽爽爽在线视频观看| 别揉我奶头~嗯~啊~一区二区三区| 天码人妻一区二区三区| 少妇人妻大乳在线视频| 欧美操逼视频|