大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

五一大瓜!大模型頂級排行榜被指系統性“造假”,官方緊急回應,Karpathy也下場質疑

0
分享至


各位五一快樂,快來吃瓜!(順便星標??一下本號,最近很多朋友反應不能及時看到內容更新,只有關注并且??才會第一時間收到更新)

AI圈子波瀾又起,焦點集中在了大名鼎鼎的Chatbot Arena排行榜上。一篇名為《The Leaderboard Illusion》(排行榜幻覺)的預印本論文橫空出世,直接對這個被廣泛視為LLM“試金石”的平臺提出了系統性質疑,論文更是直接點名Meta Llama 4 刷榜“造假”,連大佬Andrej Karpathy都下場發表了看法


論文地址:

https://arxiv.org/pdf/2504.20879

Chatbot Arena:“兵家必爭之地”

先簡單科普下,Chatbot Arena由LMSYS(一個研究組織,原名lmsys.org,現稱lmarena.ai)創建,通過讓用戶匿名與兩個模型對話并投票選出更好的那個,來對大模型進行排名。因其動態、用戶驅動的評估方式,能捕捉到傳統基準測試之外的真實用戶偏好,迅速成為衡量頂級AI系統能力的事實標準,影響力巨大


《The Leaderboard Illusion》:掀開“皇帝的新衣”?

這篇由Cohere、普林斯頓、斯坦福等機構研究人員(其中部分作者也曾向Arena提交過模型)撰寫的論文,通過分析大量數據(涉及200多萬次對戰、243個模型、42家提供商),指出了Chatbot Arena存在的幾大核心問題,認為其公平性和可靠性受到了損害:

  1. 1.“秘密測試”與“選擇性披露”:論文聲稱,少數(主要是大型、專有模型)提供商被允許在Arena上進行大量“私下測試”,可以提交多個模型變體進行評估,但最終只選擇性地公開表現最好的那個版本的分數,甚至可以撤回不滿意的結果。論文點名Meta在Llama 4發布前,僅一個月內就在Arena上測試了多達27個私有變體。這種做法被指扭曲了排名,讓這些提供商獲得了不公平的優勢,大白話就是說Meta Llama 4 “造假”

  2. 2.數據獲取“貧富差距”:由于私下測試、更高的采樣率(模型被選中參與對戰的頻率)以及模型下線(deprecation)策略,專有模型提供商獲得了遠超開源/開放權重模型的用戶反饋數據。論文估計,僅Google和OpenAI就分別獲得了Arena總數據的19.2%和20.4%,而83個開放權重模型合計僅獲得29.7%。這種數據不對稱,讓優勢方更容易針對Arena進行優化

  3. 3.過擬合風險:論文通過實驗證明,即使少量Arena數據也能顯著提升模型在Arena評估(如ArenaHard基準)上的表現(相對提升高達112%),但在其他通用基準(如MMLU)上提升有限甚至下降。這表明模型可能在“刷榜”,而非真正提升通用能力,即過擬合了Arena的特定偏好

  4. 4.模型下線不透明且不公:論文發現大量模型(205個)被“悄悄”下線(采樣率降至近零),遠超官方明確列出的47個。且這種下線更多發生在開放權重/開源模型上(占被移除模型的66%)。這不僅影響了數據獲取,還可能破壞了支撐Arena評分的Bradley-Terry模型假設,導致排名不可靠。

基于這些發現,論文提出了五項緊急建議:禁止撤回分數、限制私有測試數量、公平執行模型移除、實施公平采樣算法、公開所有測試模型及移除信息。

LMSYS (lmarena.ai) 回應:捍衛與澄清

面對質疑,Chatbot Arena的組織者lmarena.ai迅速做出了回應,主要觀點如下:

  1. 1.預發布測試是好事:他們承認并歡迎預發布測試,認為這能幫助模型提供商了解社區用戶的真實偏好,優化模型,對整個社區有利。用戶也喜歡第一時間體驗最新模型

  2. 2.反映真實偏好,而非偏見:Arena的排名反映的是數百萬真實用戶的偏好總和。偏好本身是主觀的,但這正是其價值所在,因為模型最終是為人服務的。他們正在研究統計方法分解偏好,并努力擴大用戶群多樣性

  3. 3.政策防止“挑分”:他們強調其政策 不允許 提供商僅報告測試期間的最高分。發布的評分是針對 最終公開發布 的那個模型

  4. 4.質疑論文方法與數據:lmarena.ai認為論文中的模擬存在缺陷,并指出論文中的一些數據與他們最近發布的實際統計數據不符

  5. 5.公平與開放承諾:他們重申致力于公平、社區驅動的評估,歡迎所有提供商提交模型。幫助Meta測試Llama 4與其他提供商無異,并強調自身平臺和工具的開源性,以及發布了大量開放對話數據

  6. 6.接受部分建議:他們表示同意部分建議(如實施主動采樣算法),并愿意考慮更多。

Andrej Karpathy :懷疑與替代方案

特斯拉前AI總監、OpenAI創始成員Andrej Karpathy也分享了他的看法,他更傾向于懷疑Arena的排名:

  1. 1.個人經驗與排名不符:他提到自己曾遇到過排名第一的Gemini模型實際體驗不如排名較低的模型(如Claude 3.5)的情況。也注意到一些“不知名”的小模型排名異常高

  2. 2.當數據和經驗(或直覺)對不上的時候,往往經驗(或直覺)更靠譜:引用貝索斯的話,個人或小范圍的真實體驗可能比宏觀數據更能反映問題

  3. 3.擔憂過擬合特定偏好:他推測,不同團隊可能投入了不同程度的精力專門針對Arena評分進行優化,導致模型更擅長Arena偏好的風格(比如嵌套列表、表情符號),而非整體能力提升

  4. 4.推薦替代評估:OpenRouter:新的潛在頂級評估方式——OpenRouter的LLM排名。OpenRouter作為API路由平臺,用戶(包括企業)基于實際應用需求和成本在不同模型間切換,這種“用腳投票”直接反映了模型在真實場景中的綜合價值(能力+成本),可能更難被“游戲化”。

lmarena.ai對Karpathy的回應:

感謝karpathy的反饋!表示會持續構建像WebDev Arena這樣的新評估平臺,以捕捉更高級、更真實的編碼用例


Andrej Karpathy 質疑全文:


最近有篇新論文在傳,詳細分析了 LM Arena 排行榜,叫《排行榜幻覺》(The Leaderboard Illusion)

我最早開始有點兒懷疑這事,是有一次,(大概前段時間吧),某個 Gemini 模型沖到了第一名,而且分數遠超第二,但我自己切換過去試用了幾天,感覺還不如我之前用習慣了的那個。反過來呢,差不多同一時間,Claude 3.5 在我個人用起來明明是頂級水平,但在 Arena 上的排名卻非常低。無論是在網上還是私下聊天,我都聽到過類似的反饋。而且,還有不少看著挺隨機的模型,有些小的都讓人起疑,據我所知也沒啥實際應用背景,但它們排名卻也相當高。

“當數據和(用戶的)直覺或經驗對不上的時候,往往后者更靠譜。”(這是杰夫·貝索斯最近在一個播客里說的,不過我個人深有同感)。我覺得吧,這些(大模型)團隊內部可能把不同的精力都放在了專門針對 LM Arena 分數上,并且基于這個分數來做決策。不幸的是,這樣搞出來的可能不是整體上更好的模型,而是更擅長在 LM Arena 上拿高分的模型——不管那到底意味著什么。也許就是那種特別會用嵌套列表、項目符號和表情符號的模型吧。

LM Arena(以及那些 LLM 提供商)很可能會繼續在這種模式下迭代和改進,但除此之外,我心里還有個新的候選者,有潛力成為新的“頂級評測”方式之一。那就是OpenRouterAI 的 LLM 排名:

https://openrouter.ai/rankings

簡單來說,OpenRouter 能讓個人或公司在不同 LLM 提供商的 API 之間快速切換。這些用戶都有真實的應用場景(不是搞些小測試題或者解謎),他們自己內部也有評估方式,而且都有實實在在的動力去選對模型。所以,當他們選擇某個 LLM 而不是另一個時,實際上就是在用腳投票,綜合考慮了(模型的)能力和成本。我覺得 OpenRouter 在用戶數量和使用場景的多樣性上可能還沒完全到位,但這種基于實際應用的評估方式,我認為非常有潛力發展成一種非常好的、并且很難被“刷榜”或操縱(game)的評測體系

--完--

最后給大家貼一下openrouter的大模型綜合排行(還有各個領域的排名,涉及編程,市場,角色扮演,技術,科學,翻譯,法律,金融,健康,學術等大家可以自行探索)


參考:

https://arxiv.org/pdf/2504.20879

?星標AI寒武紀,好內容不錯過?

用你的在看告訴我~

求贊

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
陳龍突擊查爸媽伙食氣炸!三咸菜四剩飯,老兩口犟嘴笑翻網友

陳龍突擊查爸媽伙食氣炸!三咸菜四剩飯,老兩口犟嘴笑翻網友

心誠則靈了
2025-06-13 21:17:14
中美談完后,美國媒體失了魂,集體指責特朗普:7年日子白過了…

中美談完后,美國媒體失了魂,集體指責特朗普:7年日子白過了…

靚仔情感
2025-06-14 19:21:40
東北大妞為丹麥男友生遺腹子,回國給媽買125萬房,被母親擺一道

東北大妞為丹麥男友生遺腹子,回國給媽買125萬房,被母親擺一道

椰青美食分享
2025-06-15 03:45:08
伊朗高層家屬乘私人飛機逃離德黑蘭前往俄羅斯,內塔尼亞胡證實

伊朗高層家屬乘私人飛機逃離德黑蘭前往俄羅斯,內塔尼亞胡證實

環球熱點快評
2025-06-15 10:02:56
中紀委怒批公務員也是人!正常生活不應問責處!

中紀委怒批公務員也是人!正常生活不應問責處!

霹靂炮
2025-06-13 23:49:27
資本力量太可怕!半個娛樂圈都在吹捧的labubu,被郭麒麟戳破真相

資本力量太可怕!半個娛樂圈都在吹捧的labubu,被郭麒麟戳破真相

姩姩有娛呀
2025-06-14 19:33:09
巴里奧斯:如果我沒去中國踢球,我可能會一直留在多特蒙德

巴里奧斯:如果我沒去中國踢球,我可能會一直留在多特蒙德

懂球帝
2025-06-14 14:04:11
49歲馬伊琍真實狀態曝光,跟普通人沒啥區別,真沒啥特別的!

49歲馬伊琍真實狀態曝光,跟普通人沒啥區別,真沒啥特別的!

草莓解說體育
2025-06-10 00:54:17
3歲孫女被爺奶輪流扇41個耳光,打致嘔吐,媽媽:他們打女兒還打我,可我不能離婚

3歲孫女被爺奶輪流扇41個耳光,打致嘔吐,媽媽:他們打女兒還打我,可我不能離婚

深度知局
2025-06-14 08:09:05
奔馳車集體“擺爛”,車主崩潰!

奔馳車集體“擺爛”,車主崩潰!

車轱轆話V
2025-06-13 19:15:48
陳夢街上買菜被偶遇,沒有網上傳的那么好看,但皮膚白皙氣質出眾

陳夢街上買菜被偶遇,沒有網上傳的那么好看,但皮膚白皙氣質出眾

動物奇奇怪怪
2025-06-14 10:10:29
曝親媽出軌被兒子抓現行,還通知老爸邀功,親媽不停求兒子放過

曝親媽出軌被兒子抓現行,還通知老爸邀功,親媽不停求兒子放過

談史論天地
2025-06-15 05:27:48
7月1日正式開通!湖北兩地高鐵可直達重慶

7月1日正式開通!湖北兩地高鐵可直達重慶

魯中晨報
2025-06-14 17:10:04
窮人的富養是帶孩子到處旅游,增長了欲望;富人的富養竟是......

窮人的富養是帶孩子到處旅游,增長了欲望;富人的富養竟是......

霹靂炮
2025-06-06 22:31:58
任正非在《人民日報》頭版發文,比馬化騰的規格更高!

任正非在《人民日報》頭版發文,比馬化騰的規格更高!

娛樂八卦木木子
2025-06-14 13:00:24
伊朗德黑蘭機場被炸,大批客機被毀!損失或比俄軍事基地遭襲還大

伊朗德黑蘭機場被炸,大批客機被毀!損失或比俄軍事基地遭襲還大

科普大世界
2025-06-14 21:37:03
島內三路人馬前往大陸,賴清德急召集人開會,侯友宜露出真面目

島內三路人馬前往大陸,賴清德急召集人開會,侯友宜露出真面目

獵火照狼山
2025-06-14 19:41:19
兒子出國后16年沒聯系,我癌癥住院時,主治醫生摘下口罩:媽

兒子出國后16年沒聯系,我癌癥住院時,主治醫生摘下口罩:媽

五元講堂
2025-06-12 15:16:01
全美震驚!明尼蘇達州眾議員遭暗殺滅門,幾天前剛投票取消非法移民免費醫保

全美震驚!明尼蘇達州眾議員遭暗殺滅門,幾天前剛投票取消非法移民免費醫保

大洛杉磯LA
2025-06-15 02:26:16
69歲老太被兒媳送養老院,偷賣掉留兒子的9套大平層,3月后兒媳懵了

69歲老太被兒媳送養老院,偷賣掉留兒子的9套大平層,3月后兒媳懵了

風起青萍之未
2025-06-09 18:08:37
2025-06-15 12:59:00
AI寒武紀 incentive-icons
AI寒武紀
專注于人工智能,科技領域
717文章數 313關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

義烏商家賣娃衣:做的非LABUBU娃衣 只適用于15cm玩偶

頭條要聞

義烏商家賣娃衣:做的非LABUBU娃衣 只適用于15cm玩偶

體育要聞

裁判可以噴,但也從步行者自身找找問題?

娛樂要聞

鳳凰傳奇曾毅塌房?網友:別連累玲花

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

親子
教育
時尚
本地
旅游

親子要聞

閨女凌晨1點還不睡覺,結果閨女說出原因讓人哭笑不得

教育要聞

黑龍江頂尖高分考生想報哈工大,哪些專業值得推薦?省排名多少?

夏天最值得入手的6件單品,全在這了

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 丰满少妇大力进入av亚洲| 亚洲色欲综合一区二区三区小说| 中文成人无码精品久久久| 国产午夜精华无码网站| 国产欧美亚洲精品a第一页| 一区二区三区无码被窝影院| 成年片色大黄全免费网站久久| 狠狠色婷婷久久综合频道日韩| 少妇人妻偷人精品无码视频| 人妻无码一区二区不卡无码av| 久久97国产超碰青草| 国产在线观看无码免费视频| 成人高潮视频在线观看| 老司机午夜精品视频资源| 丁香婷婷激情综合俺也去| 成人无码α片在线观看不卡| 97久久国产成人免费网站| 亚洲成在人线在线播放无码| 九色九九九老阿姨| 免费国产成人高清在线观看网站| 无遮挡啪啪摇乳动态图| 九九影院理论片私人影院| 99久久婷婷国产一区二区| 久久99国产精品成人| 久久的爱久久久久的快乐| 18禁成年无码免费网站无遮挡| 国产成人无码一二三区视频| 131美女爱做视频| 99精品国产在热久久无码| 久久久久久久99精品国产片| 特级精品毛片免费观看| 国产成a人亚洲精品无码樱花| 日韩成人免费无码不卡视频| 国产精选污视频在线观看| 国产日韩av在线播放| 欧美日韩亚洲中文字幕一区二区三区| 粗大的内捧猛烈进出少妇视频| 99久久免费国产精精品| av色综合久久天堂av色综合在| 国产亚洲曝欧美精品手机在线| 国产午夜亚洲精品理论片八戒|