模型與API獨(dú)立分析公司Artificial Analysis @ArtificialAnlys 對DeepSeek R1-0528結(jié)論如下:
DeepSeek R1 一舉超越 xAI、Meta 和 Anthropic,與谷歌并列成為全球第二大人工智能實(shí)驗(yàn)室,并成為開源權(quán)重領(lǐng)域無可爭議的領(lǐng)導(dǎo)者
DeepSeek R1 0528 版本在 Artificial Analysis 智能指數(shù)(針對所有頂尖模型獨(dú)立進(jìn)行的7項(xiàng)主流評估所構(gòu)成的綜合指數(shù))中的得分從60分躍升至68分。這一提升幅度與 OpenAI 的 o1 模型到 o3 模型的差距(從62分到70分)相當(dāng)
這意味著 DeepSeek R1 的智能水平已超越 xAI 的 Grok 3 mini(高水準(zhǔn)版)、英偉達(dá)的 Llama Nemotron Ultra、Meta 的 Llama 4 Maverick、阿里的通義千問 Qwen 3 253B,并與谷歌的 Gemini 2.5 Pro 持平
模型性能提升詳解
智能水平全面提升:在 AIME 2024(數(shù)學(xué)競賽,+21分)、LiveCodeBench(代碼生成,+15分)、GPQA Diamond(科學(xué)推理,+10分)和《人類最后考卷》(推理與知識,+6分)等多個方面實(shí)現(xiàn)了顯著飛躍
架構(gòu)保持不變:R1-0528 是一個訓(xùn)練后更新版本,其 V3/R1 架構(gòu)并未改變——依然是擁有6710億總參數(shù)和370億激活參數(shù)的大模型
?編程能力大幅躍進(jìn):在 Artificial Analysis 編程能力指數(shù)中,R1 目前已追平 Gemini 2.5 Pro,僅次于 o4-mini(高水準(zhǔn)版)和 o3 模型
?Token 消耗量增加:R1-0528 在完成 Artificial Analysis 智能指數(shù)評估時消耗了9900萬 Token,比初代 R1 的7100萬 Token 多出40%——也就是說,新版 R1 的“思考”時間更長。但這并非我們所見過的最高 Token 消耗量:Gemini 2.5 Pro 的 Token 消耗量比 R1-0528 還要多30%
對AI領(lǐng)域的啟示
開源與閉源模型差距前所未有地縮小:開源權(quán)重模型在智能增益方面持續(xù)與閉源專有模型保持同步。DeepSeek 在今年1月發(fā)布的 R1 是首個達(dá)到全球第二位置的開源權(quán)重模型,而今天 R1 的更新使其重回這一高位
中美AI水平持續(xù)并駕齊驅(qū):來自中國AI實(shí)驗(yàn)室的模型幾乎完全追平了美國同行,本次發(fā)布延續(xù)了這一新興趨勢。截至今日,在 Artificial Analysis 智能指數(shù)中,DeepSeek 已領(lǐng)先包括 Anthropic 和 Meta 在內(nèi)的美國AI實(shí)驗(yàn)室
強(qiáng)化學(xué)習(xí)驅(qū)動性能提升:DeepSeek 在保持原有 R1 版本架構(gòu)和預(yù)訓(xùn)練數(shù)據(jù)不變的情況下,實(shí)現(xiàn)了智能水平的顯著提升。這進(jìn)一步凸顯了訓(xùn)練后調(diào)優(yōu)(尤其是針對采用強(qiáng)化學(xué)習(xí)技術(shù)訓(xùn)練的推理模型)日益增長的重要性。OpenAI 曾披露其 o1 到 o3 模型的強(qiáng)化學(xué)習(xí)計算規(guī)模擴(kuò)大了10倍——DeepSeek 剛剛證明,到目前為止,他們有能力跟上 OpenAI 在強(qiáng)化學(xué)習(xí)算力擴(kuò)展方面的步伐。擴(kuò)展強(qiáng)化學(xué)習(xí)所需的算力遠(yuǎn)低于擴(kuò)展預(yù)訓(xùn)練,為實(shí)現(xiàn)智能增益提供了一條高效路徑,尤其能為那些GPU資源相對緊張的AI實(shí)驗(yàn)室提供支持
source:
https://x.com/ArtificialAnlys/status/1928071179115581671
?星標(biāo)AI寒武紀(jì),好內(nèi)容不錯過?
用你的贊和在看告訴我~
求贊
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.