Artificial Analysis：DeepSeek成為世界前二AGI實(shí)驗(yàn)室

2025-05-29 23:01:49　來源: AI寒武紀(jì)

江蘇舉報

分享至

模型與API獨(dú)立分析公司Artificial Analysis @ArtificialAnlys 對DeepSeek R1-0528結(jié)論如下：

DeepSeek R1 一舉超越 xAI、Meta 和 Anthropic，與谷歌并列成為全球第二大人工智能實(shí)驗(yàn)室，并成為開源權(quán)重領(lǐng)域無可爭議的領(lǐng)導(dǎo)者

DeepSeek R1 0528 版本在 Artificial Analysis 智能指數(shù)（針對所有頂尖模型獨(dú)立進(jìn)行的7項(xiàng)主流評估所構(gòu)成的綜合指數(shù)）中的得分從60分躍升至68分。這一提升幅度與 OpenAI 的 o1 模型到 o3 模型的差距（從62分到70分）相當(dāng)

這意味著 DeepSeek R1 的智能水平已超越 xAI 的 Grok 3 mini（高水準(zhǔn)版）、英偉達(dá)的 Llama Nemotron Ultra、Meta 的 Llama 4 Maverick、阿里的通義千問 Qwen 3 253B，并與谷歌的 Gemini 2.5 Pro 持平

模型性能提升詳解

智能水平全面提升：在 AIME 2024（數(shù)學(xué)競賽，+21分）、LiveCodeBench（代碼生成，+15分）、GPQA Diamond（科學(xué)推理，+10分）和《人類最后考卷》（推理與知識，+6分）等多個方面實(shí)現(xiàn)了顯著飛躍

架構(gòu)保持不變：R1-0528 是一個訓(xùn)練后更新版本，其 V3/R1 架構(gòu)并未改變——依然是擁有6710億總參數(shù)和370億激活參數(shù)的大模型

?編程能力大幅躍進(jìn)：在 Artificial Analysis 編程能力指數(shù)中，R1 目前已追平 Gemini 2.5 Pro，僅次于 o4-mini（高水準(zhǔn)版）和 o3 模型

?Token 消耗量增加：R1-0528 在完成 Artificial Analysis 智能指數(shù)評估時消耗了9900萬 Token，比初代 R1 的7100萬 Token 多出40%——也就是說，新版 R1 的“思考”時間更長。但這并非我們所見過的最高 Token 消耗量：Gemini 2.5 Pro 的 Token 消耗量比 R1-0528 還要多30%

對AI領(lǐng)域的啟示

開源與閉源模型差距前所未有地縮小：開源權(quán)重模型在智能增益方面持續(xù)與閉源專有模型保持同步。DeepSeek 在今年1月發(fā)布的 R1 是首個達(dá)到全球第二位置的開源權(quán)重模型，而今天 R1 的更新使其重回這一高位

中美AI水平持續(xù)并駕齊驅(qū)：來自中國AI實(shí)驗(yàn)室的模型幾乎完全追平了美國同行，本次發(fā)布延續(xù)了這一新興趨勢。截至今日，在 Artificial Analysis 智能指數(shù)中，DeepSeek 已領(lǐng)先包括 Anthropic 和 Meta 在內(nèi)的美國AI實(shí)驗(yàn)室

強(qiáng)化學(xué)習(xí)驅(qū)動性能提升：DeepSeek 在保持原有 R1 版本架構(gòu)和預(yù)訓(xùn)練數(shù)據(jù)不變的情況下，實(shí)現(xiàn)了智能水平的顯著提升。這進(jìn)一步凸顯了訓(xùn)練后調(diào)優(yōu)（尤其是針對采用強(qiáng)化學(xué)習(xí)技術(shù)訓(xùn)練的推理模型）日益增長的重要性。OpenAI 曾披露其 o1 到 o3 模型的強(qiáng)化學(xué)習(xí)計算規(guī)模擴(kuò)大了10倍——DeepSeek 剛剛證明，到目前為止，他們有能力跟上 OpenAI 在強(qiáng)化學(xué)習(xí)算力擴(kuò)展方面的步伐。擴(kuò)展強(qiáng)化學(xué)習(xí)所需的算力遠(yuǎn)低于擴(kuò)展預(yù)訓(xùn)練，為實(shí)現(xiàn)智能增益提供了一條高效路徑，尤其能為那些GPU資源相對緊張的AI實(shí)驗(yàn)室提供支持

source：

https://x.com/ArtificialAnlys/status/1928071179115581671

?星標(biāo)AI寒武紀(jì)，好內(nèi)容不錯過?

用你的贊和在看告訴我～

求贊

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.