大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

o3崛起,但推理模型離「撞墻」只剩一年?

0
分享至


新智元報道

編輯:英智

【新智元導讀】OpenAI的o3推理模型席卷AI界,算力暴增10倍,能力突飛猛進!但專家警告:最多一年,推理模型可能一年內撞上算力資源極限。OpenAI還能否帶來驚喜?

最多一年,推理模型就會撞上訓練算力的「天花板」。

OpenAI的o3這樣的推理模型,誕生還不到一年,能力已經突飛猛進。OpenAI的研究人員非常樂觀地認為,這種趨勢會持續下去。

但問題來了:推理模型到底還能進步到什么程度?

Epoch AI是一個獨立的AI研究團隊,專注于對大模型的發展速度、發展軌跡以及可能產生的社會影響進行前瞻性研究。

他們認為,推理模型確實還有進步空間,但想讓OpenAI或者其他頂尖AI公司實現「指數級大飛躍」,基本不太可能。

按現在的節奏,每幾個月計算能力翻10倍(就像o1到o3那樣),估計最多一年就會撞墻。

到2026年,擴展速度將會放緩,回落到每年4倍的增速水平,模型的升級速度也會跟著變慢。


如果類似o1到o3這樣的規模提升持續下去,推理計算資源增長的可能軌跡

研究的主要線索如下:

  • o3的訓練算力是o1的10倍,基本是指推理訓練階段,o3在o1發布4個月后就推出了。

  • 雖然不知道o1具體用了多少算力,但DeepSeek-R1可以用來參考。

  • 英偉達的Llama-Nemotron、微軟的Phi-4-reasoning,也透露出一些訓練細節。

  • Anthropic CEO Dario Amodei也發表過相關看法。


前沿推理模型得燒多少算力?

OpenAI的o3和其他推理模型,都是從傳統大語言模型發展而來的。

最開始,模型會用海量人工標注數據進行「預訓練」;然后進入強化學習階段,通過反饋優化模型解決難題的能力,這就是「推理訓練」。

從歷史上看,算力是AI發展的關鍵。

所以得搞清楚:現在推理訓練到底用了多少算力?還能增加多少,這又會怎么影響模型的能力?

雖然推理模型在AI圈火得一塌糊涂,但推理模型的推理訓練算力的公開信息卻很少。

從o1到o3:推理算力翻了十倍

OpenAI發過一張圖,對比o1和o3在AIME基準測試的表現,橫軸是推理訓練的算力。

它表明,o3的訓練算力是o1的10倍。


摘自OpenAI的o3直播發布會

為啥說橫軸不是總算力?

因為o1早期版本的算力比o3少4個數量級,但AIME得分也有25%,要是算總算力,這個成績就太離譜了。

此外,如果橫軸是總計算資源,就意味著OpenAI訓練了許多預訓練階段高度不完整的o1版本。

OpenAI研究員最近也透露,公司接下來打算重點發展強化學習,投入的計算資源會比訓練初始模型時還要多。

o3具體用了多少算力?目前沒實錘,得從其他模型和業內人士的話里找線索。

來自DeepSeek-R1的見解

大部分AI公司都把訓練細節捂得嚴嚴實實,但DeepSeek大方公開了R1的數據:

DeepSeek-R1在強化學習階段花了6×1023次浮點運算(成本約100萬美元),生成了2萬億個token,大約是基礎模型DeepSeek-V3預訓練成本的20%。

這個數據雖然有誤差,但仍然很有幫助,DeepSeek-R1和o1水平差不多,可作為基準。

不過,由于各種原因,DeepSeek-R1的推理算力可能與o1不同。兩個模型參數量、計算效率都不一樣,所以結果僅供參考。

其他推理模型的啟示

英偉達的Llama-Nemotron Ultra 253B和微軟的Phi-4-reasoning也公開過數據:

  • Llama-Nemotron Ultra:強化學習階段用了14萬小時H100算力(約1×1023次浮點運算),不到基礎模型預訓練成本的1%。

  • Phi-4-reasoning:推理階段規模更小,生成4.6億個token,計算成本不到1×102?次浮點運算,算力消耗不到預訓練的0.01%。

這兩個模型在基準測試中都取得了出色的成績,Llama-Nemotron的成績與DeepSeek-R1和o1相當。

但它們在強化學習階段之前都做了「監督微調」,用了大量其他推理模型生成的高質量推理鏈示例,和o1、o3這種前沿模型的訓練邏輯不太一樣,參考價值有限。

業內大佬怎么看?

總體而言,這些信息對于了解o1或o3的訓練算力規模幫助有限。

有一點可以確定:像Phi-4這樣的某些模型,推理訓練計算資源(至少在強化學習階段)可能相對較少。

這并不意味著o3也是用同樣少的計算資源進行訓練的,但這確實表明,僅從一個推理模型在基準測試中表現良好,很難判斷其推理算力的規模。

此外,傳統的監督微調在推理模型的開發中可能發揮著重要作用。由于訓練方法多種多樣,在沒有公開訓練細節的情況下,很難猜測推理模型的推理訓練規模。

Anthropic CEO Dario Amodei今年1月提到:

現在的強化學習訓練還在「新手村」,花100萬美元就能比花10萬美元強很多。大家都在拼命砸錢擴大訓練規模,把這個階段的投入提到數億、數十億,我們正處在一個關鍵轉折點,新范式剛起步,所以增長特別快。


無法確定10萬美元或100萬美元是否反映了他對特定模型(如o1、o3或DeepSeek-R1)的訓練成本的估計。

但能看出他覺得,目前推理模型的訓練成本,還沒到燒錢燒到飛起的程度,遠低于數億美元,即1×102?次浮點運算。

總體而言,這些估計表明,o1和o3的推理算力規模和「算力天花板」的差距可能不會達到多個數量級,畢竟已經有模型(如DeepSeek-R1和Llama-Nemotron Ultra)在推理階段用到1×1023次浮點運算以上,o1、o3用的計算資源可能更多。

推理算力增長如何影響AI進步?

推理模型目前的算力水平,對AI短期發展有重要影響。

o3靠10倍算力碾壓o1,數學、編程、寫代碼全面升級,至少在這些領域,訓練算力和模型能力掛鉤,砸越多算力,效果越明顯。

這些模型可以對問題進行更多計算,從而提高其性能,但缺點是它們完成任務所需的時間比傳統模型更長。

雖然目前還沒有像預訓練規模定律那樣關于推理訓練規模定律的嚴謹研究,但OpenAI展示的規模曲線與經典的對數線性規模定律頗為相似。

DeepSeek-R1論文中的圖表也顯示,隨著推理訓練步數的增加,準確率大致呈對數線性增長。

這表明,至少在數學和編程任務上,推理模型的性能與推理訓練之間的關系,和預訓練類似,存在一定的規模效應。

因此,在接下來的幾次規模擴展中,可能會看到模型性能出現顯著且快速的提升。


o1在AIME測試中的表現與訓練計算資源的關系

但推理算力一旦摸到天花板,增長速度可能就會從「幾個月翻10倍」掉到「每年翻4倍」。

如果推理訓練和整體前沿算力差距只有幾個數量級(如小于三個數量級),估計一年內增速就得放緩。

推理真能Scaling嗎?

現實沒那么簡單。光堆顯卡可不夠,數據才是卡脖子的關鍵。

推理訓練需要大量難題數據,但高質量的題目不是無限的,找題、編題、生成數據都不容易。

在數學、編程以外的復雜場景里,比如理解人類復雜情感,推理模型能不能同樣好用,目前還是未知數。

開發推理模型,真正花錢的可能不是訓練本身,而是大量的試錯實驗——測試不同的題目、打分規則、訓練方法,這些成本目前沒人公開。

雖然隨著技術成熟,成本可能會降下來,但這些隱藏成本可能限制模型的擴展。

對AI行業來說,任何暗示推理模型在短期內可能會觸及發展瓶頸的消息,都讓人心里一緊。

畢竟,AI行業為了開發這類模型,砸進去了大量資源。

已有研究表明,運行推理模型的成本極高,相比某些傳統模型,更容易出現幻覺。

不過也有好消息:即使算力增長放緩,模型說不定還能靠數據、算法創新接著變強。但無論如何,算力增長依然是關鍵,值得重點關注。

畢竟,OpenAI和行業大佬們都信心滿滿,o3大概率沒觸達極限,后面肯定還有驚喜!

參考資料:

https://epoch.ai/gradient-updates/how-far-can-reasoning-models-scale

https://techcrunch.com/2025/05/12/improvements-in-reasoning-ai-models-may-slow-down-soon-analysis-finds/


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
遼寧艦抵近關島,美國態度變了:扣下臺島66架戰機,只收錢不發貨

遼寧艦抵近關島,美國態度變了:扣下臺島66架戰機,只收錢不發貨

紅色鑒史官
2025-06-13 19:00:03
中方衛星突然變軌到伊朗上空,接下來一幕讓以色列冷靜下來

中方衛星突然變軌到伊朗上空,接下來一幕讓以色列冷靜下來

頭條爆料007
2025-06-14 08:19:04
抽到下下簽!鄭欽文可能首輪出局,拿冠軍也難了,鮑里妮天堂好簽

抽到下下簽!鄭欽文可能首輪出局,拿冠軍也難了,鮑里妮天堂好簽

侃球熊弟
2025-06-15 00:01:50
A股:下周一,不好的消息又來了!

A股:下周一,不好的消息又來了!

虎哥閑聊
2025-06-14 16:48:27
日本游戲主機市場正被中國搶奪

日本游戲主機市場正被中國搶奪

海格講
2025-06-12 06:10:04
氛圍超贊!淮安南京比賽一側看臺坐滿觀眾,tifo“崛起江淮”矚目

氛圍超贊!淮安南京比賽一側看臺坐滿觀眾,tifo“崛起江淮”矚目

直播吧
2025-06-14 16:17:14
臺網友集體倒戈,汪小菲詮釋了什么叫“打鐵還需自身硬”

臺網友集體倒戈,汪小菲詮釋了什么叫“打鐵還需自身硬”

大笑江湖史
2025-06-14 07:54:53
長沙玉蘭路死灰復燃!網友爆料:顧客嫖娼致雞婆身亡,法醫都來了

長沙玉蘭路死灰復燃!網友爆料:顧客嫖娼致雞婆身亡,法醫都來了

社會醬
2025-06-14 18:17:14
換鞋換拍!又換衣服!鄭欽文到底輸在了哪里,賽后的數據一清二楚

換鞋換拍!又換衣服!鄭欽文到底輸在了哪里,賽后的數據一清二楚

侃球熊弟
2025-06-15 02:11:33
羅帥宇父親曾稱有人想用1500萬元封口,湖南省衛健委工作人員:馬上會有官方通報

羅帥宇父親曾稱有人想用1500萬元封口,湖南省衛健委工作人員:馬上會有官方通報

深圳晚報
2025-06-13 19:40:17
天選公主!威爾士三寶最新亮相,夏洛特優勢明顯,氣質沉穩似女王

天選公主!威爾士三寶最新亮相,夏洛特優勢明顯,氣質沉穩似女王

阿傖說事
2025-06-14 18:14:15
超巨時刻!亞歷山大末節最后4分38秒獨攬15分逆天改命!

超巨時刻!亞歷山大末節最后4分38秒獨攬15分逆天改命!

直播吧
2025-06-14 11:40:20
中超海港2-2浙江!26018人觀賽,蘇超淮安1-1南京,足協咋應對

中超海港2-2浙江!26018人觀賽,蘇超淮安1-1南京,足協咋應對

阿柒體訊
2025-06-14 21:37:20
俄羅斯一情報部門,公開稱中國為“敵人”,普京或要另謀出路?

俄羅斯一情報部門,公開稱中國為“敵人”,普京或要另謀出路?

允華說
2025-06-12 16:03:44
雷霆2-2扳平!一場丑陋的勝利,誰是贏球最大功臣?數據不會說謊

雷霆2-2扳平!一場丑陋的勝利,誰是贏球最大功臣?數據不會說謊

籃球掃地僧
2025-06-14 11:31:19
上海63歲阿姨未婚未育,尋找40年前的空軍戀人,見到他后淚流滿面

上海63歲阿姨未婚未育,尋找40年前的空軍戀人,見到他后淚流滿面

夜闌故事集
2025-06-10 14:10:02
我不會給羅帥宇唱挽歌

我不會給羅帥宇唱挽歌

關爾東
2025-06-13 16:00:30
特朗普緊急開會,美國在中東調兵!伊朗:美參與襲擊,正準備回應!伊空軍高級軍官被騙聚集開會,遭以軍打擊,司令等多人身亡

特朗普緊急開會,美國在中東調兵!伊朗:美參與襲擊,正準備回應!伊空軍高級軍官被騙聚集開會,遭以軍打擊,司令等多人身亡

每日經濟新聞
2025-06-14 00:40:08
100萬人傷亡背后俄羅斯實際已遭重創

100萬人傷亡背后俄羅斯實際已遭重創

史政先鋒
2025-06-13 10:54:49
【文體市場面面觀】農文旅融合如何“四季紅”

【文體市場面面觀】農文旅融合如何“四季紅”

經濟日報
2025-06-14 05:04:15
2025-06-15 04:31:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12876文章數 66068關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

旅游
時尚
教育
數碼
房產

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

中年女人少穿黑色和灰色,年輕色穿出減齡效果,看起來嫩十歲

教育要聞

江蘇最新消息:6月28日填報志愿!

數碼要聞

黃仁勛親筆簽名版 RTX 5090 鍍金顯卡以 24200 美元達成慈善拍賣

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲色爱免费观看视频| 国产精品无码久久av嫩草| 精品久久无码中文字幕| 久久超碰97人人做人人爱| 无码少妇一区二区| 国产精品久久婷婷六月丁香| 免免费国产aaaaa片| 久热这里只有精品99在线观看| 亚洲精品无码成人aaa片| 欧美自拍嘿咻内射在线观看| 国产精品亚洲一区二区在线观看| 国产传媒麻豆剧精品av国产| 国产在线视频一区二区三区98| 免费无码一区二区三区a片百度| 一本一道波多野结衣一区| 内射白浆一区二区在线观看| 最新的国产成人精品2020| 十八禁午夜私人在线影院| 少妇挑战三个黑人惨叫4p国语| 免费无码久久成人网站入口| 欧亚精品一区三区免费| 国产在线国偷精品免费看| 波多野无码黑人在线播放| 国产与黑人在线播放| 婷婷五月日韩av永久免费| 国产zzjjzzjj视频全免费| 久久久久成人片免费观看蜜芽| 午夜男女爽爽爽在线视频| 久久综合久久美利坚合众国| www一区二区乱码www| 女人18毛片水真多| 青青视频精品观看视频| 2020亚洲欧美国产日韩| 污污内射久久一区二区欧美日韩| 国产精品乱码人妻一区二区三区| 精品伊人久久久大香线蕉下载| 精品久久综合1区2区3区激情| 亚洲成a人v欧美综合天堂下载| 欧美饥渴少妇xxxxx性| 成人午夜福利院在线观看| ā片在线观看免费观看|