新智元報道
編輯:英智
【新智元導讀】OpenAI的o3推理模型席卷AI界,算力暴增10倍,能力突飛猛進!但專家警告:最多一年,推理模型可能一年內撞上算力資源極限。OpenAI還能否帶來驚喜?
最多一年,推理模型就會撞上訓練算力的「天花板」。
OpenAI的o3這樣的推理模型,誕生還不到一年,能力已經突飛猛進。OpenAI的研究人員非常樂觀地認為,這種趨勢會持續下去。
但問題來了:推理模型到底還能進步到什么程度?
Epoch AI是一個獨立的AI研究團隊,專注于對大模型的發展速度、發展軌跡以及可能產生的社會影響進行前瞻性研究。
他們認為,推理模型確實還有進步空間,但想讓OpenAI或者其他頂尖AI公司實現「指數級大飛躍」,基本不太可能。
按現在的節奏,每幾個月計算能力翻10倍(就像o1到o3那樣),估計最多一年就會撞墻。
到2026年,擴展速度將會放緩,回落到每年4倍的增速水平,模型的升級速度也會跟著變慢。
如果類似o1到o3這樣的規模提升持續下去,推理計算資源增長的可能軌跡
研究的主要線索如下:
o3的訓練算力是o1的10倍,基本是指推理訓練階段,o3在o1發布4個月后就推出了。
雖然不知道o1具體用了多少算力,但DeepSeek-R1可以用來參考。
英偉達的Llama-Nemotron、微軟的Phi-4-reasoning,也透露出一些訓練細節。
Anthropic CEO Dario Amodei也發表過相關看法。
前沿推理模型得燒多少算力?
OpenAI的o3和其他推理模型,都是從傳統大語言模型發展而來的。
最開始,模型會用海量人工標注數據進行「預訓練」;然后進入強化學習階段,通過反饋優化模型解決難題的能力,這就是「推理訓練」。
從歷史上看,算力是AI發展的關鍵。
所以得搞清楚:現在推理訓練到底用了多少算力?還能增加多少,這又會怎么影響模型的能力?
雖然推理模型在AI圈火得一塌糊涂,但推理模型的推理訓練算力的公開信息卻很少。
從o1到o3:推理算力翻了十倍
OpenAI發過一張圖,對比o1和o3在AIME基準測試的表現,橫軸是推理訓練的算力。
它表明,o3的訓練算力是o1的10倍。
摘自OpenAI的o3直播發布會
為啥說橫軸不是總算力?
因為o1早期版本的算力比o3少4個數量級,但AIME得分也有25%,要是算總算力,這個成績就太離譜了。
此外,如果橫軸是總計算資源,就意味著OpenAI訓練了許多預訓練階段高度不完整的o1版本。
OpenAI研究員最近也透露,公司接下來打算重點發展強化學習,投入的計算資源會比訓練初始模型時還要多。
o3具體用了多少算力?目前沒實錘,得從其他模型和業內人士的話里找線索。
來自DeepSeek-R1的見解
大部分AI公司都把訓練細節捂得嚴嚴實實,但DeepSeek大方公開了R1的數據:
DeepSeek-R1在強化學習階段花了6×1023次浮點運算(成本約100萬美元),生成了2萬億個token,大約是基礎模型DeepSeek-V3預訓練成本的20%。
這個數據雖然有誤差,但仍然很有幫助,DeepSeek-R1和o1水平差不多,可作為基準。
不過,由于各種原因,DeepSeek-R1的推理算力可能與o1不同。兩個模型參數量、計算效率都不一樣,所以結果僅供參考。
其他推理模型的啟示
英偉達的Llama-Nemotron Ultra 253B和微軟的Phi-4-reasoning也公開過數據:
Llama-Nemotron Ultra:強化學習階段用了14萬小時H100算力(約1×1023次浮點運算),不到基礎模型預訓練成本的1%。
Phi-4-reasoning:推理階段規模更小,生成4.6億個token,計算成本不到1×102?次浮點運算,算力消耗不到預訓練的0.01%。
這兩個模型在基準測試中都取得了出色的成績,Llama-Nemotron的成績與DeepSeek-R1和o1相當。
但它們在強化學習階段之前都做了「監督微調」,用了大量其他推理模型生成的高質量推理鏈示例,和o1、o3這種前沿模型的訓練邏輯不太一樣,參考價值有限。
業內大佬怎么看?
總體而言,這些信息對于了解o1或o3的訓練算力規模幫助有限。
有一點可以確定:像Phi-4這樣的某些模型,推理訓練計算資源(至少在強化學習階段)可能相對較少。
這并不意味著o3也是用同樣少的計算資源進行訓練的,但這確實表明,僅從一個推理模型在基準測試中表現良好,很難判斷其推理算力的規模。
此外,傳統的監督微調在推理模型的開發中可能發揮著重要作用。由于訓練方法多種多樣,在沒有公開訓練細節的情況下,很難猜測推理模型的推理訓練規模。
Anthropic CEO Dario Amodei今年1月提到:
現在的強化學習訓練還在「新手村」,花100萬美元就能比花10萬美元強很多。大家都在拼命砸錢擴大訓練規模,把這個階段的投入提到數億、數十億,我們正處在一個關鍵轉折點,新范式剛起步,所以增長特別快。
無法確定10萬美元或100萬美元是否反映了他對特定模型(如o1、o3或DeepSeek-R1)的訓練成本的估計。
但能看出他覺得,目前推理模型的訓練成本,還沒到燒錢燒到飛起的程度,遠低于數億美元,即1×102?次浮點運算。
總體而言,這些估計表明,o1和o3的推理算力規模和「算力天花板」的差距可能不會達到多個數量級,畢竟已經有模型(如DeepSeek-R1和Llama-Nemotron Ultra)在推理階段用到1×1023次浮點運算以上,o1、o3用的計算資源可能更多。
推理算力增長如何影響AI進步?
推理模型目前的算力水平,對AI短期發展有重要影響。
o3靠10倍算力碾壓o1,數學、編程、寫代碼全面升級,至少在這些領域,訓練算力和模型能力掛鉤,砸越多算力,效果越明顯。
這些模型可以對問題進行更多計算,從而提高其性能,但缺點是它們完成任務所需的時間比傳統模型更長。
雖然目前還沒有像預訓練規模定律那樣關于推理訓練規模定律的嚴謹研究,但OpenAI展示的規模曲線與經典的對數線性規模定律頗為相似。
DeepSeek-R1論文中的圖表也顯示,隨著推理訓練步數的增加,準確率大致呈對數線性增長。
這表明,至少在數學和編程任務上,推理模型的性能與推理訓練之間的關系,和預訓練類似,存在一定的規模效應。
因此,在接下來的幾次規模擴展中,可能會看到模型性能出現顯著且快速的提升。
o1在AIME測試中的表現與訓練計算資源的關系
但推理算力一旦摸到天花板,增長速度可能就會從「幾個月翻10倍」掉到「每年翻4倍」。
如果推理訓練和整體前沿算力差距只有幾個數量級(如小于三個數量級),估計一年內增速就得放緩。
推理真能Scaling嗎?
現實沒那么簡單。光堆顯卡可不夠,數據才是卡脖子的關鍵。
推理訓練需要大量難題數據,但高質量的題目不是無限的,找題、編題、生成數據都不容易。
在數學、編程以外的復雜場景里,比如理解人類復雜情感,推理模型能不能同樣好用,目前還是未知數。
開發推理模型,真正花錢的可能不是訓練本身,而是大量的試錯實驗——測試不同的題目、打分規則、訓練方法,這些成本目前沒人公開。
雖然隨著技術成熟,成本可能會降下來,但這些隱藏成本可能限制模型的擴展。
對AI行業來說,任何暗示推理模型在短期內可能會觸及發展瓶頸的消息,都讓人心里一緊。
畢竟,AI行業為了開發這類模型,砸進去了大量資源。
已有研究表明,運行推理模型的成本極高,相比某些傳統模型,更容易出現幻覺。
不過也有好消息:即使算力增長放緩,模型說不定還能靠數據、算法創新接著變強。但無論如何,算力增長依然是關鍵,值得重點關注。
畢竟,OpenAI和行業大佬們都信心滿滿,o3大概率沒觸達極限,后面肯定還有驚喜!
參考資料:
https://epoch.ai/gradient-updates/how-far-can-reasoning-models-scale
https://techcrunch.com/2025/05/12/improvements-in-reasoning-ai-models-may-slow-down-soon-analysis-finds/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.