大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

這屆出題太難了!新基準讓多模態模型集體自閉,GPT-4o都是零分

0
分享至



機器之心報道

編輯:蛋醬、佳琪

眼下最頂尖的一批 LMM 是哪些?你可能想到了無所不能的 GPT-4o、Gemini 2 Flash 等等……

但這些大模型,遇到一個名為「ZeroBench」的視覺基準之后,紛紛敗下陣來。

20 多個知名模型,首次作答成績如下,全部是零分:



震驚之后,我們仔細研究了這個 ZeroBench 基準里的問題。

對于大模型來說,許多現有的基準已經沒有任何挑戰性,也失去了作為衡量大模型真實視覺理解能力標準的價值。ZeroBench 的出現,顯然打破了這個局面。



ZeroBench 包含 100 個具有挑戰性的全新問題,具體多有挑戰性呢?請聽題:

第一題:不用優惠,菜單上每款點一個,總共需要多少港幣?



好家伙,這菜單上下顛倒就算了,還反光看不清字,讓在其中找到每道菜的價格,再做加法,這不是為難我胖虎嗎?

對于需要更多步驟才能得到答案的多模態模型來說,可能它也需要:「服務器繁忙,請稍后再試」。

問題 2:(i) 計算壺鈴的總重量?(ii) 計算重量在 5 至 15 磅之間(含 5 磅和 15 磅)的啞鈴總重量,單位為磅。(iii) 估計每個綠色壺鈴的重量,單位為磅。



知識面不夠寬,還真做不了這題。不光要算總重量,還得挑出綠色的,還得分類統計......



多模態模型見了這題都要暗地里蛐蛐:我連自己重多少斤都不知道,您這讓我數啞鈴?

問題 3:你正試圖破解一個保險箱,需要一個 6 位數密碼。根據失主留下的線索和物品,請推理出完整密碼。



這是在考眼力,考數學,還是在拍《達芬奇密碼》?

看來,ZeroBench 對多模態模型確實很高,不僅得明察秋毫,還得擁有福爾摩斯般的推理能力。

問題 4:在八方位指南針上,身體朝南的鵝占總數的百分比是多少?請精確到小數點后一位。



想要判斷鵝的身體是否朝南,首先得知道這張圖的南在哪邊?接下來還需要考慮冬季夏季,南北半球,上午下午?

停停,在高中畢業之后,我就停止如此深度地使用自己的大腦了。



GPT-4o 做了這道題,分析了半天,最后擺爛了,讓我們重新上傳圖片,「以便它從頭開始處理?!箍赡芩惨O聛戆l一句:鵝太南(難)了。

問題 5:

(1)現在是英國牛津的傍晚,這個時鐘是根據物品使用方向來安裝的。距離正午大約過去了多少小時?

(2)這個時鐘是用一個八人賽艇隊員的裝備制成的,他的隊伍使用標準裝備。他可能坐在哪些座位?把座位號加起來等于多少?

(3)如果將圖像水平翻轉一次,垂直翻轉一次,然后順時針旋轉 90 度,時針最接近哪個整點?

(4)把前三個答案相乘等于多少?



「從這塊只有指針的表判斷距離正午的時間」、「表皮是由賽艇隊員的裝備做成的,他的座位號是多少?」,「水平翻轉一次,垂直翻轉一次,然后順時針旋轉 90 度......」

如果說前幾題查查資料,努努力還能寫出來,現在已經來到連題目都讀不懂的境地了。

看完這些題目,不難理解為什么它叫 ZeroBench —— 因為 AI 做完這些題后,自信可能就歸零了!

想來出題人也是頗費了一番心思才能琢磨出如此刁鉆的角度。ZeroBench 的研究團隊組織了一個 20 多人的專家出題組,每道題都是手工高定。

由于很難事先知道一個問題對多模態模型來說有多難,因此在開發過程中,出題人還會拿最新、最好的模型來「試水」。發現題目太簡單就加料,發現還能做出來就繼續加料,直到調節到「難度適中」。

ZeroBench 概述



項目主頁: https://zerobench.github.io/

論文地址: https://arxiv.org/pdf/2502.09696

數據集構建

伴隨著大模型能力的不斷進化,想要創建一個難度足夠高的問題集越來越難。

ZeroBench 中的每個問題是由 20 多位人類問題創建者手工定制的。為了增加問題的多樣性,對問題創建者的指導還是比較寬泛的:(1)包含對回答問題至關重要的困難視覺元素,(2)包含多步驟推理,(3)盡可能具有挑戰性。

由于很難事先知道一個問題對 LMM 來說有多難,因此在開發過程中,研究者鼓勵問題創建者在一些前沿模型上對候選問題進行評估,衡量其難度并相應地調整問題。

在獲得了 140 個候選問題后,研究者使用了以下由 4 個部分組成的篩選流程,最終選出了 100 個問題用于 ZeroBench:

  • 反饋。對候選問題進行篩選,必要時通過反復審查和反饋進行改進。
  • 初步評估。為了衡量難度,研究者使用 o1 pro(OpenAI,2024a)和 QVQ(Qwen-Team,2024)對問題進行了初步評估。
  • 審查。在初步評估的基礎上,對每個候選問題都進行了全面審查,以確保這些問題可以回答、格式和注釋正確、難度足夠且簡明扼要。審查人員的分配確保了出題者不會審查到自己的試題。許多試題也被修改了,旨在增加難度。此外,為了降低正確答案被猜中的可能性,必要時還對問題進行了修改,以確保答案范圍足夠廣泛。這就排除了二進制、多項選擇或答案為小整數(即小于 10)的問題。不符合要求的問題都被過濾掉了,因此第一次就有了 106 個合適的問題。
  • 對抗過濾。研究者使用貪婪解碼對每個 LMM 基線的剩余問題進行了評估,并刪除了任何一個模型都能正確回答的問題。每個模型能正確回答的問題差異很大,表現最好的模型也只能得到 4/106 分。有些問題只有一個相對較弱的模型能正確回答。研究者認為這是一種將問題分布與當前模型能力相聯系的有效方法。

經過反復推敲,研究者最終確定了共 100 個問題。為了在評估過程中區分模型性能,他們在審查過程中為每個問題創建了一個或多個子問題。子問題(圖 6)由明確的問題子部分、自然推理步驟或與得出最終答案相關的其他數量生成。



統計

表 1 顯示了 ZeroBench 的核心統計數據,其中包括 100 個主問題和 334 個子問題,在單幅和多幅圖像設置中包含自然圖像和合成圖像。



如圖 4 所示,主問題的文本長度分布廣泛,最長可達 2k 字符;在子問題中,短問題的比例明顯較高。問題中圖片的平均大?。▓D 5)分布較為均勻。ZeroBench 中的問題以難度為優先考慮因素,大多數問題都包含多個步驟,需要不同的視覺能力。同樣,問題的背景也往往是混合的,需要不同領域的知識。因此,為每個問題或子問題指定不同的類別是不可行的。



評估

研究者在 ZeroBench 主問題和子問題上對 20 個 LMM 進行了評估,結果見表 2。從中可以得出幾個結論:

對于當下 LMM 的水準而言,ZeroBench 是不可能挑戰成功的。在可重現的環境中,研究者發現所有模型在該基準測試中都只有 0% 的及格率。



有些問題是可以回答的,大多數模型的得分都不是零。表現最好的模型是 Gemini 2 Flash Thinking,它的 pass@5 得分達到了 7%(正確回答 7 個問題);QVQ、Gemini 2 Flash 和 Pixtral-Large 的表現也相對較好,正確回答了 3 個問題。

子問題區分開了模型的性能。這部分問題對模型的挑戰性較小,所有模型的得分都不為零。雖然與主問題相比,推理模型的難度要低得多,但總體而言,這些模型仍然難以正確回答這些小問題,其中絕大多數都太難了。推理模型在推理過程中通常會產生一個擴展的思維鏈,允許它們在得出最終解決方案之前探索多種路徑。然而,在 ZeroBench 上,此類模型與傳統模型相比似乎并無明顯優勢。

在主問題上,開放源代碼和封閉源代碼模型的表現仍然很差,沒有明顯的區別。不過,通過比較子問題的得分,可以發現兩者的性能差距很大,領先的開源模型(QVQ 19.78%)落后于 SOTA(Claude 3.5 Sonnet v2 24.30%)近 5 個百分點。

錯誤分析

圖 7 展示了在 ZeroBench 子問題中經常出現的視覺解讀錯誤,例如錯誤地計算物體數量、無法「看到」細微細節或準確提取信息,以及難以理解空間關系。更多例子可參考附錄。



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
國產版“特斯拉ModelY”亮相!外觀動感預售23.58萬,續航超700Km

國產版“特斯拉ModelY”亮相!外觀動感預售23.58萬,續航超700Km

小史談車
2025-06-14 13:19:44
太慘了!網傳上海一學霸小三門210分考204分,認為清北無望而墜亡

太慘了!網傳上海一學霸小三門210分考204分,認為清北無望而墜亡

火山詩話
2025-06-12 06:24:32
佛山女教師婚內出軌多人,被“弟弟”頂得腰疼,次日勾搭另一男人

佛山女教師婚內出軌多人,被“弟弟”頂得腰疼,次日勾搭另一男人

社會醬
2025-05-16 17:30:43
中國稀土能成戰略武器,他倆夫妻居功至偉,眼下急需解決一個問題

中國稀土能成戰略武器,他倆夫妻居功至偉,眼下急需解決一個問題

阿胡
2025-06-11 11:56:30
高圓圓雖然很漂亮,但到這個年齡還是少穿這種露肉的衣服好。

高圓圓雖然很漂亮,但到這個年齡還是少穿這種露肉的衣服好。

TVB的四小花
2025-06-12 10:14:51
江蘇“國補”采用限額分配,各平臺領取功能將陸續重新上線

江蘇“國補”采用限額分配,各平臺領取功能將陸續重新上線

現代快報
2025-06-14 09:01:12
雷霆主帥談吹罰攤牌,湖人舊將創紀錄!哈利主動攬責,西卡很自信

雷霆主帥談吹罰攤牌,湖人舊將創紀錄!哈利主動攬責,西卡很自信

魚崖大話籃球
2025-06-14 13:08:13
50年代江青與毛主席的一張罕見合影,年過30仍氣質猶存,容顏姣好

50年代江青與毛主席的一張罕見合影,年過30仍氣質猶存,容顏姣好

南書房
2025-06-12 14:30:08
幼兒園要帶28份榴蓮,爸爸為省錢果斷請假,被帶草莓媽媽內涵

幼兒園要帶28份榴蓮,爸爸為省錢果斷請假,被帶草莓媽媽內涵

菁媽育兒
2025-05-28 10:49:53
43歲郭晶晶出席珠寶展!戴高奢端莊又大氣,連換兩套珠寶超貴氣

43歲郭晶晶出席珠寶展!戴高奢端莊又大氣,連換兩套珠寶超貴氣

娛樂圈圈圓
2025-06-14 10:11:22
中國將成為全球乃至人類歷史上第一個“電力王國”

中國將成為全球乃至人類歷史上第一個“電力王國”

生活新鮮市
2025-06-13 14:11:35
47歲TVB演員在長沙擺攤賣咖啡,喊話湖南衛視:想收到通告

47歲TVB演員在長沙擺攤賣咖啡,喊話湖南衛視:想收到通告

三湘都市報
2025-06-13 19:13:46
遼寧一女子貸款10萬開服裝店   開店20多天吃飯時情緒崩潰

遼寧一女子貸款10萬開服裝店 開店20多天吃飯時情緒崩潰

阿SIR觀察
2025-06-14 07:17:30
樓市權威發聲

樓市權威發聲

Wind萬得
2025-06-14 06:45:24
73歲李立群和疑銀環蛇近距離嘮嗑,讓蛇住自家院里,網友:膽真大

73歲李立群和疑銀環蛇近距離嘮嗑,讓蛇住自家院里,網友:膽真大

趣文說娛
2025-06-13 12:02:01
閏土歌手在外養情人了

閏土歌手在外養情人了

毒舌扒姨太
2025-06-13 22:41:57
無人送別!凌晨2點伊萬離開中國:帶著2箱行李,和球迷的巨大遺憾

無人送別!凌晨2點伊萬離開中國:帶著2箱行李,和球迷的巨大遺憾

風過鄉
2025-06-14 07:54:24
上海42歲富婆去健身房,男私教指導1小時后,當場充了20萬:這錢很值

上海42歲富婆去健身房,男私教指導1小時后,當場充了20萬:這錢很值

溫情郵局
2025-03-28 13:37:40
美國的簽證秒過是一種什么體驗?網友:都是經驗之談,很實用啊

美國的簽證秒過是一種什么體驗?網友:都是經驗之談,很實用啊

娛樂圈人物大賞
2025-06-02 00:05:21
警惕中國下一代反常的“集體沉默”

警惕中國下一代反常的“集體沉默”

霹靂炮
2025-05-22 23:04:31
2025-06-14 14:39:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10640文章數 142338關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

網紅是潛逃31年的殺人犯 幾乎每天都看法治新聞

頭條要聞

網紅是潛逃31年的殺人犯 幾乎每天都看法治新聞

體育要聞

32隊爭10億獎金,全新世俱杯來了!

娛樂要聞

鳳凰傳奇曾毅手表引爭議 含性暗示元素

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

教育
數碼
本地
房產
手機

教育要聞

小學數學競賽題,班級上一半以上的同學不會做

數碼要聞

蘋果現正銷售翻新的 M4 MacBook Air 機型

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

手機要聞

iOS 26 增加了對與 Android 之間 eSIM 卡轉移的支持

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲精品国产成人一区二区| 久久久亚洲综合久久久久87| 日韩在线一区二区三区免费视频| 产精品无码久久_亚洲国产精| 亚洲 日韩 激情 无码 中出| 日本免费一区二区三区日本| 丁香六月久久婷婷开心| 性色av一区二区三区无码| 免费人成在线观看网站| 欧美性大战久久久久xxx| 中国人与黑人牲交free欧美| 久久亚洲av成人无码国产| 午夜视频在线在免费| 无码成人片在线播放| 中文字幕无线码一区2020青青| 精品少妇人妻av久久久| 女人18片毛片60分钟| 高中生自慰www网站| 成人国内精品久久久久一区| 国产女精品视频网站免费| 精品久久久久久久免费人妻| 牲交欧美兽交欧美| 亚洲男人第一无码av网| 四虎永久在线精品视频| 亚洲国产精久久久久久久| 亚洲成在人网站av天堂| 特级无码毛片免费视频播放| 男女猛烈激情xx00免费视频| 日本免费精品一区二区三区| 人人爽人人片人人片av| 国产a v无码专区亚洲av| 久久av无码精品人妻糸列| 色哟哟国产精品免费观看| 亚洲色成人www永久在线观看| 国产在线视频一区二区三区98| 亚洲日产aⅴ中文字幕无码| 特级西西人体444www高清大胆| 国产亚洲精品久久久美女| 窝窝午夜色视频国产精品破| 丁香激情综合久久伊人久久| 国产亚洲精品久久久久久久久|