網易首頁 > 網易號 > 正文申請入駐

五一大瓜！大模型頂級排行榜被指系統性“造假”，官方緊急回應，Karpathy也下場質疑

2025-05-01 07:57:44　來源: AI寒武紀

江蘇舉報

分享至

各位五一快樂，快來吃瓜！（順便星標??一下本號，最近很多朋友反應不能及時看到內容更新，只有關注并且??才會第一時間收到更新）

AI圈子波瀾又起，焦點集中在了大名鼎鼎的Chatbot Arena排行榜上。一篇名為《The Leaderboard Illusion》（排行榜幻覺）的預印本論文橫空出世，直接對這個被廣泛視為LLM“試金石”的平臺提出了系統性質疑，論文更是直接點名Meta Llama 4 刷榜“造假”，連大佬Andrej Karpathy都下場發表了看法

論文地址：

https://arxiv.org/pdf/2504.20879

Chatbot Arena：“兵家必爭之地”

先簡單科普下，Chatbot Arena由LMSYS（一個研究組織，原名lmsys.org，現稱lmarena.ai）創建，通過讓用戶匿名與兩個模型對話并投票選出更好的那個，來對大模型進行排名。因其動態、用戶驅動的評估方式，能捕捉到傳統基準測試之外的真實用戶偏好，迅速成為衡量頂級AI系統能力的事實標準，影響力巨大

《The Leaderboard Illusion》：掀開“皇帝的新衣”？

這篇由Cohere、普林斯頓、斯坦福等機構研究人員（其中部分作者也曾向Arena提交過模型）撰寫的論文，通過分析大量數據（涉及200多萬次對戰、243個模型、42家提供商），指出了Chatbot Arena存在的幾大核心問題，認為其公平性和可靠性受到了損害：

1.“秘密測試”與“選擇性披露”：論文聲稱，少數（主要是大型、專有模型）提供商被允許在Arena上進行大量“私下測試”，可以提交多個模型變體進行評估，但最終只選擇性地公開表現最好的那個版本的分數，甚至可以撤回不滿意的結果。論文點名Meta在Llama 4發布前，僅一個月內就在Arena上測試了多達27個私有變體。這種做法被指扭曲了排名，讓這些提供商獲得了不公平的優勢，大白話就是說Meta Llama 4 “造假”
2.數據獲取“貧富差距”：由于私下測試、更高的采樣率（模型被選中參與對戰的頻率）以及模型下線（deprecation）策略，專有模型提供商獲得了遠超開源/開放權重模型的用戶反饋數據。論文估計，僅Google和OpenAI就分別獲得了Arena總數據的19.2%和20.4%，而83個開放權重模型合計僅獲得29.7%。這種數據不對稱，讓優勢方更容易針對Arena進行優化
3.過擬合風險：論文通過實驗證明，即使少量Arena數據也能顯著提升模型在Arena評估（如ArenaHard基準）上的表現（相對提升高達112%），但在其他通用基準（如MMLU）上提升有限甚至下降。這表明模型可能在“刷榜”，而非真正提升通用能力，即過擬合了Arena的特定偏好
4.模型下線不透明且不公：論文發現大量模型（205個）被“悄悄”下線（采樣率降至近零），遠超官方明確列出的47個。且這種下線更多發生在開放權重/開源模型上（占被移除模型的66%）。這不僅影響了數據獲取，還可能破壞了支撐Arena評分的Bradley-Terry模型假設，導致排名不可靠。

基于這些發現，論文提出了五項緊急建議：禁止撤回分數、限制私有測試數量、公平執行模型移除、實施公平采樣算法、公開所有測試模型及移除信息。

LMSYS (lmarena.ai) 回應：捍衛與澄清

面對質疑，Chatbot Arena的組織者lmarena.ai迅速做出了回應，主要觀點如下：

1.預發布測試是好事：他們承認并歡迎預發布測試，認為這能幫助模型提供商了解社區用戶的真實偏好，優化模型，對整個社區有利。用戶也喜歡第一時間體驗最新模型
2.反映真實偏好，而非偏見：Arena的排名反映的是數百萬真實用戶的偏好總和。偏好本身是主觀的，但這正是其價值所在，因為模型最終是為人服務的。他們正在研究統計方法分解偏好，并努力擴大用戶群多樣性
3.政策防止“挑分”：他們強調其政策不允許提供商僅報告測試期間的最高分。發布的評分是針對最終公開發布的那個模型
4.質疑論文方法與數據：lmarena.ai認為論文中的模擬存在缺陷，并指出論文中的一些數據與他們最近發布的實際統計數據不符
5.公平與開放承諾：他們重申致力于公平、社區驅動的評估，歡迎所有提供商提交模型。幫助Meta測試Llama 4與其他提供商無異，并強調自身平臺和工具的開源性，以及發布了大量開放對話數據
6.接受部分建議：他們表示同意部分建議（如實施主動采樣算法），并愿意考慮更多。

Andrej Karpathy ：懷疑與替代方案

特斯拉前AI總監、OpenAI創始成員Andrej Karpathy也分享了他的看法，他更傾向于懷疑Arena的排名：

1.個人經驗與排名不符：他提到自己曾遇到過排名第一的Gemini模型實際體驗不如排名較低的模型（如Claude 3.5）的情況。也注意到一些“不知名”的小模型排名異常高
2.當數據和經驗（或直覺）對不上的時候，往往經驗（或直覺）更靠譜：引用貝索斯的話，個人或小范圍的真實體驗可能比宏觀數據更能反映問題
3.擔憂過擬合特定偏好：他推測，不同團隊可能投入了不同程度的精力專門針對Arena評分進行優化，導致模型更擅長Arena偏好的風格（比如嵌套列表、表情符號），而非整體能力提升
4.推薦替代評估：OpenRouter：新的潛在頂級評估方式——OpenRouter的LLM排名。OpenRouter作為API路由平臺，用戶（包括企業）基于實際應用需求和成本在不同模型間切換，這種“用腳投票”直接反映了模型在真實場景中的綜合價值（能力+成本），可能更難被“游戲化”。

lmarena.ai對Karpathy的回應：

感謝karpathy的反饋！表示會持續構建像WebDev Arena這樣的新評估平臺，以捕捉更高級、更真實的編碼用例

Andrej Karpathy 質疑全文：

最近有篇新論文在傳，詳細分析了 LM Arena 排行榜，叫《排行榜幻覺》（The Leaderboard Illusion）

我最早開始有點兒懷疑這事，是有一次，（大概前段時間吧），某個 Gemini 模型沖到了第一名，而且分數遠超第二，但我自己切換過去試用了幾天，感覺還不如我之前用習慣了的那個。反過來呢，差不多同一時間，Claude 3.5 在我個人用起來明明是頂級水平，但在 Arena 上的排名卻非常低。無論是在網上還是私下聊天，我都聽到過類似的反饋。而且，還有不少看著挺隨機的模型，有些小的都讓人起疑，據我所知也沒啥實際應用背景，但它們排名卻也相當高。

“當數據和（用戶的）直覺或經驗對不上的時候，往往后者更靠譜。”（這是杰夫·貝索斯最近在一個播客里說的，不過我個人深有同感）。我覺得吧，這些（大模型）團隊內部可能把不同的精力都放在了專門針對 LM Arena 分數上，并且基于這個分數來做決策。不幸的是，這樣搞出來的可能不是整體上更好的模型，而是更擅長在 LM Arena 上拿高分的模型——不管那到底意味著什么。也許就是那種特別會用嵌套列表、項目符號和表情符號的模型吧。

LM Arena（以及那些 LLM 提供商）很可能會繼續在這種模式下迭代和改進，但除此之外，我心里還有個新的候選者，有潛力成為新的“頂級評測”方式之一。那就是OpenRouterAI 的 LLM 排名:

https://openrouter.ai/rankings

簡單來說，OpenRouter 能讓個人或公司在不同 LLM 提供商的 API 之間快速切換。這些用戶都有真實的應用場景（不是搞些小測試題或者解謎），他們自己內部也有評估方式，而且都有實實在在的動力去選對模型。所以，當他們選擇某個 LLM 而不是另一個時，實際上就是在用腳投票，綜合考慮了（模型的）能力和成本。我覺得 OpenRouter 在用戶數量和使用場景的多樣性上可能還沒完全到位，但這種基于實際應用的評估方式，我認為非常有潛力發展成一種非常好的、并且很難被“刷榜”或操縱（game）的評測體系

--完--

最后給大家貼一下openrouter的大模型綜合排行（還有各個領域的排名，涉及編程，市場，角色扮演，技術，科學，翻譯，法律，金融，健康，學術等大家可以自行探索）

參考：

https://arxiv.org/pdf/2504.20879

?星標AI寒武紀，好內容不錯過?

用你的贊和在看告訴我～

求贊

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.