同行紛紛押注Agent,梁文鋒仍保持深度求索AGI的定力。
文|《中國企業(yè)家》記者 閆俊文
編輯|張曉迪
頭圖來源|視覺中國
5月28日下午6時,DeepSeek在用戶群發(fā)布公告,“DeepSeek-R1模型已完成小版本試升級,歡迎前往官方網(wǎng)頁、APP、小程序進行測試,API接口和使用方式保持不變。”
《中國企業(yè)家》查詢DeepSeek服務(wù)狀態(tài)發(fā)現(xiàn),5月28日晚間10點33分,DeepSeek網(wǎng)頁及APP的API服務(wù)出現(xiàn)了5分鐘的“不可用”狀態(tài),這是DeepSeekAPI服務(wù)在最近兩個月里少有的卡殼現(xiàn)象。
緊接著,5月29日,DeepSeek就開源了R1最新0528版本,這是R1自1月20日正式推出,時隔128天后,首次迎來的一次更新。
DeepSeek稱此次更新為“小版本升級”,至于外界更為期待的R2模型,官方并未給出時間表。一位創(chuàng)業(yè)者告訴《中國企業(yè)家》,R1是DeepSeek-V3模型能力的復(fù)現(xiàn),R2模型可能要等到V4模型研發(fā)成功之后了。V3的上次升級是在今年的3月24日,V4目前尚未有推出時間表。
5月29日晚間,DeepSeek在官方公眾號發(fā)表文章《DeepSeek-R1更新,思考更深,推理更強》,根據(jù)文章給出的測試結(jié)果,更新后的R1-0528,模型能力增強。不過,在工具調(diào)用等能力方面仍有進化空間。文章解釋稱,此次更新的DeepSeek-R1-0528仍然使用了2024年12月發(fā)布的DeepSeek-V3 Base模型作為基座,更新的重點是對模型進行了后訓(xùn)練,從而提升了模型的思維深度與推理能力。
與預(yù)訓(xùn)練對應(yīng),后訓(xùn)練是大模型訓(xùn)練的另一個階段,這是當下大模型競賽中的一個熱度“賽點”。
一位投資人告訴《中國企業(yè)家》,國內(nèi)幾家“六小虎”已經(jīng)放棄了基座大模型的訓(xùn)練,但并不是放棄了大模型,而是放棄預(yù)訓(xùn)練,轉(zhuǎn)而去加強后訓(xùn)練與微調(diào)的投入,以便讓模型落地應(yīng)用。
“大模型領(lǐng)域你追我趕,領(lǐng)先周期可能只有3到6個月”,獵豹移動董事長兼CEO、獵戶星空董事長傅盛感慨大模型領(lǐng)域的激烈競爭,“大模型做成了海鮮生意,一個好的模型出來,大概3個月就會過期,因為別人總會上來,此消彼長。”
當前,大模型本身難以商業(yè)化已成國內(nèi)外投資機構(gòu)、科技企業(yè)的共識,今年以來,無論是聯(lián)想、騰訊、阿里亦或美國硅谷模型大佬OpenAI、Anthropic、谷歌,以及亞馬遜、微軟等,都紛紛斥資押注AI Agent。
當外界已把目光轉(zhuǎn)移向應(yīng)用時,梁文鋒和他的團隊仍舊保持對模型本身深度求索的定力。
此次R1更新后,騰訊部署動作迅速。5月29日晚間,騰訊發(fā)布消息,稱騰訊元寶、ima、搜狗輸入法、QQ瀏覽器等多款產(chǎn)品率先接入DeepSeek- R1-0528。
0528版本思考更深,推理更強
根據(jù)DeepSeek官網(wǎng)給出的測試結(jié)果,此次升級后的R1-0528模型能力猛增,成功超越目前國內(nèi)最強模型阿里Qwen3,并且在數(shù)學(xué)、編程等能力上接近其他國際頂尖模型,如OpenAI最新的o3與谷歌最新的Gemini-2.5-Pro。
相較于舊版R1,新版模型在復(fù)雜推理任務(wù)中的思考更深、效果更強的原因是耗費的token數(shù)量增多,舊版模型平均每題使用12K tokens,而新版模型平均每題使用23K tokens。
來源:AI生成
這符合英偉達CEO黃仁勛的預(yù)估,今年3月,英偉達CEO黃仁勛在GTC大會上預(yù)測,AgenticAI的崛起,將推動算力需求暴增至少100倍。
此外,此次DeepSeek蒸餾了DeepSeek-R1-0528的思維鏈后訓(xùn)練Qwen3-8B Base,得到了DeepSeek-R1-0528-Qwen3-8B。該8B模型在數(shù)學(xué)測試AIME 2024中僅次于DeepSeek-R1-0528,超越Qwen3-8B,準確率增加10%,與Qwen3-235B相當。
規(guī)模少了30倍,但準確率增加了10%,關(guān)鍵要素是DeepSeek-R1-0528的思維鏈,官方稱,該思維鏈對于學(xué)術(shù)界推理模型的研究和工業(yè)界針對小模型的開發(fā)將具有重要意義。
強化后訓(xùn)練后,模型的幻覺率也降低了。據(jù)DeepSeek官方稱,DeepSeek-R1-0528與舊版相比,在改寫潤色、總結(jié)摘要、閱讀理解等場景中,幻覺率降低45%~50%左右。
在此之前,R1模型讓業(yè)內(nèi)詬病最多的就是其幻覺率。國外有一家名為Vectara的機構(gòu)曾發(fā)布了一個大模型幻覺排行榜,該榜將模型幻覺數(shù)值從低到高排序,谷歌的Gemini和OpenAI的o3模型幻覺率最低,而Deepseek-R1排在第90名,幻覺率高達14.3%。
上下文(context)方面,此次R1-0528的上下文長度與舊版本保持一致,仍為64K,尚落后于OpenAI、谷歌,以及月之暗面等國內(nèi)公司最新模型的128k長度。
2023年11月,月之暗面創(chuàng)始人楊植麟曾說過,模型參數(shù)數(shù)量決定計算復(fù)雜度,而上下文長度決定模型內(nèi)存大小。
更大的上下文規(guī)模,意味著模型記憶能力的提升,是工具產(chǎn)品化的重要標準,這對于模型落地Agent,釋放能力具有重要意義。
喧鬧中的定力
梁文鋒小步快跑的同時,美國科技公司對DeepSeek的看法也正在走向分化。2月初,DeepSeek發(fā)布R1模型帶來的那場沖擊潮,正在逐漸退散,硅谷創(chuàng)業(yè)者和大公司的CEO們也已逐漸找回自信。
和DeepSeek測試更新版本前后腳,美國當?shù)貢r間5月28日,英偉達公布最新季度財報,在財報會上,英偉達CEO黃仁勛稱贊“DeepSeek-R1如ChatGPT般越思考越聰明。”
財報顯示,一季度英偉達實現(xiàn)營收441億美元,同比增69%,歸母凈利188億美元,同比增26%。到5月29日開盤,英偉達股價一度盤中上漲11%,最終收盤139美元,微漲3%。
來源:AI生成
這次更新已和R1模型發(fā)布時對英偉達股價造成的重挫不一樣了。目前,英偉達市值約為3.3萬億美元,已收復(fù)了在2月失去的萬億美元市值。AgenticAI時代的到來,又讓英偉達看到了廣闊的市場前景。
除了算力領(lǐng)域,OpenAI、Anthropic也在模型層面奮力趕上。
5月20日,OpenAICEO山姆·阿爾特曼自信地說:“我不認為DeepSeek找到了比OpenAI更高效驅(qū)動AI的方法,OpenAI每年在效率方面取得不可思議的進步。”
Anthropic的一位員工在5月23日接受媒體采訪時說,“DeepSeek發(fā)布模型的時間比Claude 3 Sonnet晚9個月,如果我們現(xiàn)在重新訓(xùn)練相同的模型,或者與DeepSeek同期訓(xùn)練,我們也可以用500萬美元或者其他人宣傳的金額,來完成訓(xùn)練,DeepSeek達到了行業(yè)頂尖水平,但并未超越,它只是利用了效率提升的紅利。”
在5月29日的官方發(fā)文中,DeepSeek承認,在某些方面,R1-0528仍與OpenAI和Anthropic的最新模型有差距,比如工具調(diào)用方面,官方介紹,“當前模型Tau-Bench測評成績?yōu)閍irline 53.5%/retail 63.9%,與OpenAI o1-high相當,但與o3-High以及Claude 4 Sonnet仍有差距。”
一位投資人預(yù)估,DeepSeek與國外公開的先進模型之間的差距可能在2個月到3個月,但實際差距可能還要多一些,但沒有代差的差距。
整個AI領(lǐng)域的競爭仍在持續(xù),但相比此前圍繞底座模型的競爭,已有所不同。
整個5月,美國科技界頗為熱鬧,先是微軟舉辦了Build 2025大會,緊接著谷歌舉辦了I/O大會,Anthropic發(fā)布Claude 4系列模型。他們發(fā)布會的重點都與Agent有關(guān)。
谷歌提出Agent的三個特點——個性化、主動性以及強大功能。微軟提出Agentic Web,并稱,這是一個和移動、云等平臺轉(zhuǎn)變期類似的巨大變革。Anthropic提出了Agent的四個協(xié)議:一是通過API連接模型上下文協(xié)議(MCP);二是Claude的網(wǎng)頁搜索功能;三是開放文件API接口;四是提示詞緩存。
“現(xiàn)在大模型的進展已經(jīng)吸引不了一級市場投資人的錢了,必須講述C端應(yīng)用的故事,比如Agent。”上述投資人說。
Agent是強化學(xué)習(xí)的產(chǎn)品體現(xiàn)。近期,一位OpenAI的科學(xué)家在AI Ascent 2025中表示:“我們所做的模型訓(xùn)練類型是RL(強化學(xué)習(xí)),我們未來可能會被強化學(xué)習(xí)計算資源完全支配。”
盡管海外科技巨頭和國內(nèi)的投資機構(gòu)都把目光移到了Agent身上,但DeepSeek仍專注模型本身,目前仍在AGI征程上“深度求索”。
2024年7月,發(fā)布DeepSeek-V2后,梁文鋒在接受《暗涌》采訪時曾說:“我們認為當下最重要的,是參與全球科技創(chuàng)新。長期以來,中國企業(yè)習(xí)慣于利用海外的技術(shù)創(chuàng)新,并通過應(yīng)用層面進行商業(yè)化,但這種模式是不可持續(xù)的。這一次,我們的目標不是快速盈利,而是推動技術(shù)前沿的發(fā)展,從根本上促進整個生態(tài)的成長。”
彼時關(guān)于應(yīng)用的話題,梁文鋒說:“從長遠來看,我們希望建立一個生態(tài)系統(tǒng),讓行業(yè)直接使用我們的技術(shù)和成果,其他公司基于我們的模型開發(fā)B2B/B2C服務(wù),而我們專注于基礎(chǔ)研究。如果產(chǎn)業(yè)鏈完整,我們無需親自做應(yīng)用。當然,如果有必要,我們完全有能力去做,但研究和創(chuàng)新始終是我們的核心優(yōu)先級。”
一位接近DeepSeek團隊的投資人告訴《中國企業(yè)家》,DeepSeek團隊約130人,大多是2002年、2003年后出生的國內(nèi)高校畢業(yè)生,2000年以前出生的在團隊內(nèi)都算是“老人”。團隊組織架構(gòu)分兩層,決策中心是梁文鋒本人,30多個核心成員直接向其匯報,100多個數(shù)據(jù)工程師負責具體執(zhí)行。他們的特點是年輕、有激情、熱愛技術(shù)。
2025年前,大模型創(chuàng)業(yè)潮起的最初幾年,初創(chuàng)公司融資后,紛紛到美國谷歌高價挖人才,從目前行業(yè)呈現(xiàn)的效果來看,這種做法并未達到預(yù)期。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.