大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

視頻推理界的“福爾摩斯測試”:所有大模型,統統不及格 | 開源

0
分享至

金磊 整理自 凹非寺
量子位 | 公眾號 QbitAI

一個新的Benchmark,竟讓大模型在復雜視頻推理這事兒上統統不及格!

這就是騰訊ARC Lab和香港城市大學最新推出的Video-Holmes——

如其名,它可以說是視頻推理界的“福爾摩斯測試”,通過讓多模態大模型參與“推理殺人兇手”,“解析作案意圖”等高難度的推理任務,以展現他們復雜視頻推理能力的邊界。



而且Video-Holmes可以說是規避了現在業內已有的Benchmark痛點,即視頻源和問題都偏簡單,沒法反映推理模型和非推理模型之間的差距。

舉個例子。

在這個例子中,為了尋找男人真正的死因,模型需要主動思考需要關注的視覺信息,并通過邏輯關聯分散在不同視頻片段中的多個相關線索進行推理,最后發現男人的死因居然是:“過度使用超能力”?!



結果啊,測試的成績可謂是大跌眼鏡。

所有大模型,在各項測試中全部不及格

(SR代表社會推理;IMC意指意圖與動機鏈;TCI表示時間因果推理;TA時間線分析;MHR即多模態提示推理;PAR為物理異常推理;CTI代表核心主題推理。)



值得一提的是,這個Benchmark的“一鍵測評懶人包”,目前已經上線到了GitHub和HuggingFace,有做視頻推理相關的小伙伴,可以去挑戰一下了(地址見文末)。

讓大模型全軍覆沒的新Benchmark

正如剛才提到的,現有視頻推理基準(如 VCR-Bench、MVBench 等)主要評估模型的視覺感知和接地能力。

大多數問題也是基于顯式提示或孤立視覺線索(如 “女人穿了什么”),無法模擬人類在現實中主動搜索、整合、分析多線索的復雜推理過程。

即使是較為前沿的模型,在這些基準上的提升也非常有限(如從 68.3% 到 69.4%),難以驗證模型的真實推理能力。

因此,團隊收集并人工標注了270部1-5分鐘的“推理短電影”,并設計了7種高推理要求的單選題,強迫模型提取,串聯多個散布在電影中的關鍵信息來推導出最終的真相。

值得注意的是,設計的問題是由DeepSeek來生成,并且也是由DeepSeek來評估的響應。



至于問題的類型(上文我們提及的幾大類型),具體的“打開方式”如下:



再深入到具體問題的回答,各個大模型回答結果如下(以SR和IMC為例):





測試結果顯示,即使強大入Gemini-2.5-Pro的閉源模型,也僅達到了45%的準確率。

并且Video-Holmes能夠反應推理模型和對應非推理版本之間的Gap——

SEED-Bench-R1 比 Qwen2.5-VL-7B提升了5個點,而Gemini-2.0-Thinking比Gemini-2.0提升了整整12個點!

除此之外,團隊進一步還分析了模型的推理過程,結果顯示,現有模型整體上能夠正確感知視覺信息,但它們普遍在線索串聯信息(推理能力)上欠缺,以及容易遺漏關鍵的視覺信息。

注:Video-Holmes的標注、構建、測試、推理過程分析的資料和代碼,以及論文全部都開源啦(見文末)~

如何“食用”?

大家若是想下載Video-Holmes,可以運行如下代碼:

gitclonehttps://github.com/TencentARC/Video-Holmes.gitcdVideo-Holmespip install huggingface_hubpython download.py —hf_token YOUR_HUGGINGFACE_ACCESS_TOKENunzip Benchmark/videos.zip -d Benchmark/unzip Benchmark/annotations.zip -d Benchmark/

團隊還為基線模型提供了一體化的評估代碼:

python evaluate.py —model_name YOUR_MODEL_NAME —model_pathYOUR_MODEL_PATH(optional)

以及可支持的大模型名單如下:



還可以通過指定——model_path參數或實現以下函數來定制模型:prepare_your_model(第388行)和generate_your_model(第439行)。

推理過程分析

首先需要應用DeepSeek API密鑰,然后可以運行以下命令來分析模型的推理過程:

pythonevaluate_reasoning.py —model_name YOUR_MODEL_NAME —api_key YOUR_API_KEY

生成你的“福爾摩斯測試”

要為帶有注釋的視頻生成問題,你可以運行以下命令:

cdPipelinepython generate_questions.py —api_key YOUR_API_KEY

那么你覺得這個新Benchmark如何?感興趣的話就快去試試吧~

HF Daily Paper:
https://huggingface.co/papers/2505.21374

Homepage:
https://video-holmes.github.io/Page.github.io/

Code:
https://github.com/TencentARC/Video-Holmes

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
河南禁酒令大反轉!本以為是“硬核新規”,官方回應,網友:理解

河南禁酒令大反轉!本以為是“硬核新規”,官方回應,網友:理解

溫讀史
2025-06-14 09:56:47
上海專家發現:吃甜食的老人,健康指數是吃蔬菜的人的5倍不止?

上海專家發現:吃甜食的老人,健康指數是吃蔬菜的人的5倍不止?

華庭講美食
2025-06-14 13:52:03
袁立小號發文緬懷羅帥宇,連發兩條動態,看新聞難過到吃不下飯

袁立小號發文緬懷羅帥宇,連發兩條動態,看新聞難過到吃不下飯

趣文說娛
2025-06-14 11:13:03
局勢突變!中國深夜發出警告,俄羅斯聲明立即結束會談!

局勢突變!中國深夜發出警告,俄羅斯聲明立即結束會談!

一個有靈魂的作者
2025-06-14 22:17:44
國防大學的教授也是一個水貨

國防大學的教授也是一個水貨

回旋鏢
2025-06-14 15:59:57
跌太猛了!浙江余杭這個小區從214萬暴跌到80萬,跌幅超過60%…

跌太猛了!浙江余杭這個小區從214萬暴跌到80萬,跌幅超過60%…

火山詩話
2025-06-14 14:30:42
好消息:中國防空導彈再次擊落戰機!壞消息:被擊落的是中國戰機

好消息:中國防空導彈再次擊落戰機!壞消息:被擊落的是中國戰機

荷蘭豆愛健康
2025-06-12 18:47:39
伊朗不打倒神棍政權,國家將永無希望

伊朗不打倒神棍政權,國家將永無希望

廖保平
2025-06-14 09:19:25
南航“美女經理”:除了生理期就沒閑過,兩年半和上級開房410次

南航“美女經理”:除了生理期就沒閑過,兩年半和上級開房410次

就一點
2025-06-13 16:45:25
哈梅內伊聲明:要徹底摧毀以色列政權!伊朗向以方向發射約150枚導彈!伊軍稱擊落以戰機并逮捕飛行員

哈梅內伊聲明:要徹底摧毀以色列政權!伊朗向以方向發射約150枚導彈!伊軍稱擊落以戰機并逮捕飛行員

每日經濟新聞
2025-06-14 06:41:13
LABUBU真成“頂流”了!韓國線下店有人為它通宵排隊,有人為它吵架動手,為您揭秘其火爆原因

LABUBU真成“頂流”了!韓國線下店有人為它通宵排隊,有人為它吵架動手,為您揭秘其火爆原因

三湘都市報
2025-06-14 18:04:05
恥辱!香港運動員奪冠拒唱國歌,這樣的運動員不止一個

恥辱!香港運動員奪冠拒唱國歌,這樣的運動員不止一個

柳絮憶史
2025-06-14 07:10:03
聊聊步行者 VS 雷霆 G4

聊聊步行者 VS 雷霆 G4

靜易墨
2025-06-14 21:17:05
伊朗:打擊美軍基地 下一輪對以襲擊導彈數是20倍

伊朗:打擊美軍基地 下一輪對以襲擊導彈數是20倍

看看新聞Knews
2025-06-14 20:25:47
蘇超最新積分榜公布

蘇超最新積分榜公布

現代快報
2025-06-14 21:17:08
鳳凰傳奇曾毅回應手表爭議,堪稱災難性公關,被吐槽不如道歉……

鳳凰傳奇曾毅回應手表爭議,堪稱災難性公關,被吐槽不如道歉……

妮妮玩不夠
2025-06-14 07:47:04
中紀委怒批公務員也是人!正常生活不應問責處!

中紀委怒批公務員也是人!正常生活不應問責處!

霹靂炮
2025-06-13 23:49:27
羅帥宇的通報來了,真相終于大白

羅帥宇的通報來了,真相終于大白

大張的自留地
2025-06-14 08:39:21
慘不忍睹!女籃三人10中1,籃板也不會搶,球迷:趕快淘汰他仨

慘不忍睹!女籃三人10中1,籃板也不會搶,球迷:趕快淘汰他仨

南海浪花
2025-06-14 11:30:33
1-2!鄭欽文輸球內情曝光,賽后眼眶含淚,對手采訪說到了關鍵

1-2!鄭欽文輸球內情曝光,賽后眼眶含淚,對手采訪說到了關鍵

侃球熊弟
2025-06-15 00:02:53
2025-06-15 04:19:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10666文章數 176166關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

房產
藝術
數碼
旅游
公開課

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數碼要聞

黃仁勛親筆簽名版 RTX 5090 鍍金顯卡以 24200 美元達成慈善拍賣

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 无码高潮少妇毛多水多水免费| 国偷自产一区二区免费视频| 欧美高清视频手机在在线| 国产女人叫床高潮大片| 无码精品国产va在线观看| 成人免费视频视频在线观看 免费| 亚洲国产成人精品无码区花野真一| 亚洲一区二区三区中文字幂| 国产欧美亚洲精品第1页青草| 国产精品任我爽爆在线播放| 午夜福利视频一区二区手机免费看| 国产成人午夜精品福利视频| 色综合天天综合网中文| 动漫成人无码免费视频在线播| 国产亚洲熟妇综合视频| 欧美亚洲另类丝袜综合| 成人性生交大片免费看vr| 日本成片区免费久久| 亚洲亚洲人成综合丝袜图片| 人人妻人人澡人人爽欧美一区九九| 国产亚洲色婷婷久久99精品| 久久理伦片琪琪电影院| 精品三级久久久久电影网| 拍真实国产伦偷精品| а中文在线天堂| 亚洲高清aⅴ日本欧美视频| 精品国产sm最大网免费站| 国产成人精品午夜福利不卡| 麻豆av一区二区天美传媒| 久久zyz资源站无码中文动漫| 亚洲精品日本久久一区二区三区| 国产成人国拍亚洲精品| 午夜福利理论片在线观看播放| 亚洲婷婷开心色四房播播| 日本肉体xxxx裸体137大胆| 亚洲av无码一区二区三区人| 久久精品无码一区二区三区免费| 午夜天堂av久久久噜噜噜| 午夜不卡久久精品无码免费| 国产福利姬精品福利资源网址| 国产成人亚洲综合无码加勒比一|