大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

o3并非獨門秘技,谷歌已發背后關鍵機制,方法更簡單、成本更低

0
分享至

小交 發自 凹非寺
量子位 | 公眾號 QbitAI

o1/o3帶火的推理計算Scaling,原來谷歌早在今年8月就曾探討過。



當時,來自斯坦福、牛津以及谷歌DeepMind的團隊提出通過重復采樣來擴展推理計算量——

結果在編碼任務中將性能最多提高40%。

他們發現小模型通過生成多種答案/樣本,其任務表現可能比一些大型模型單次嘗試還要好。

比如,DeepSeek-Coder通過重復采集5個樣本,性能優于GPT-4o,而成本卻僅為后者的三分之一。

這篇論文講了什么?

這篇論文取名Monkey,靈感來自于無限猴子定理。

一只猴子在打字機鍵盤上隨機敲擊鍵盤無限長的時間,幾乎肯定會打出任何給定的文本。



而在大模型的語境下,只要采的樣夠多,那么大模型總能找到正確解。

本文遵循的重復采樣程序,首先通過大模型中采樣,為給定的問題生成許多候選解。

其次再選擇特定領域的驗證器Verifier(比如代碼的unittests),從生成的樣本中選擇最終答案。

重復采樣的有效性取決于兩個關鍵特性。

  • 覆蓋率,隨著樣本數量的增加,我們可以利用生成的任何樣本解決多少問題。
  • 精確度,在從生成的樣本集合中選擇最終答案的情況下,我們能否識別出正確的樣本?

他們關注的是yes or no的任務,在這些任務中,答案可以直接被打分為對或者錯,主要指標是成功率——即能夠解決問題的比例。

通過重復采樣,考慮這樣一種設置,即模型在嘗試解決問題時可以生成許多候選解。

因此,成功率既受到為許多問題生成正確樣本的能力(即覆蓋率)的影響,也受到識別這些正確樣本的能力(即精確度)的影響。

基于此,確定了五種數學和編程任務:GSM8K、MATH、MiniF2F-MATH、CodeContests、SWE-benchLite。

結果顯示,在多個任務和模型中,覆蓋率隨樣本數量增加而提升,在某些情況下,重復采樣可使較弱模型超越單樣本性能更好的強模型,且成本效益更高

比如在使用Gemma-2B解決CodeContests編程問題時。隨著樣本數量的增加,覆蓋率提高了300倍以上,從一次嘗試的0.02%提高到10000次嘗試的7.1%。解決來自GSM8K和MATH的數學單詞問題時,Llama-3模型的覆蓋率在10,000個樣本的情況下增長到95%以上。

有趣的是,log(覆蓋率)與樣本數之間的關系往往遵循近似的冪律。

在Llama-3和Gemma模型中,可以觀察到覆蓋率與樣本數呈近似對數線性增長,超過幾個數量級。



在不同參數量、不同模型以及后訓練水平(基礎模型和微調模型)下,都顯示通過重復采樣Scaling推理時間計算,覆蓋率都有一致的提升。



此外,他們還證明了這種Scaling還能降本增效,以FLOPs作為成本指標,以LIama-3為例。

計算公式如下:



比較 Llama-3-8B-Instruct 和 Llama3-70B-Instruct 的成本(以推理 FLOPs 數量衡量)和覆蓋率。當FLOPs預算固定時,在 MiniF2F、GSM8K和 MATH 上,Llama-3-8B-Instruct的覆蓋率總是高于更大(更貴)的 70B 模型。然而,在 CodeContests 中,70B 模型幾乎總是更具成本效益。



對比API成本,當采樣較多時,開源 DeepSeek-Coder-V2-Instruct 模型可以達到與閉源模型GPT-4o相同的問題解決率,而價格僅為后者的三分之一。



有趣的是,他們發現對于大多數任務和模型,覆蓋率與樣本數之間的關系可以用指數冪律來模擬。



因此總結,這篇文章以重復采樣為軸心,在推理時擴展計算量,從而提高模型性能。

在一系列模型和任務中,重復采樣可以顯著提高使用任何生成樣本解決問題的比例(即覆蓋率)。當可以識別出正確的解決方案時(通過自動驗證工具或其他驗證算法),重復采樣可以在推理過程中放大模型的能力。

與使用較強、較昂貴的模型進行較少的嘗試相比,這種放大作用可使較弱的模型與大量樣本的組合更具性能和成本效益。

來自斯坦福牛津谷歌

這篇論文是來自斯坦福、牛津大學以及谷歌DeepMind團隊。TogetherAI提供計算支持。

其中可以看到有谷歌杰出科學家Quoc V. Le。



有網友表示,這有點像更簡單的靜態版o3。



o3在評價器的指導下,通過回溯動態搜索程序空間,而這種方法則依賴于靜態采樣和事后評價(投票、獎勵模型等)。兩者都能擴展推理計算,但O3的適應性更強。
o3會反復探索解決方案,不斷完善路徑,而重復采樣會并行生成輸出,沒有反饋回路。如何取舍?o3的計算密集度更高,但在需要結構化推理的任務中表現出色。這種方法在編碼/數學方面更具成本效益。

不過也有網友指出了背后的局限性。



我們不能一味地增加采樣數量來提高性能。在某些時候,模型會出現停滯,生成的樣本也會開始重復。
無論成本如何,都有一個極限,一個模型無法超越的最大思維水平。

參考鏈接:
[1]https://arxiv.org/abs/2407.21787
[2]https://x.com/_philschmid/status/1870396154241843312
[3]https://x.com/rohanpaul_ai/status/1834446350810849510

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
不信謠不傳謠,關于羅某宇之死,人民日報發布超詳細通報

不信謠不傳謠,關于羅某宇之死,人民日報發布超詳細通報

讀鬼筆記
2025-06-14 11:41:48
馬英九還沒啟程,民進黨大佬先到大陸,這一次,賴清德根本攔不住

馬英九還沒啟程,民進黨大佬先到大陸,這一次,賴清德根本攔不住

牛鍋巴小釩
2025-06-14 10:28:42
尼科在西班牙隊更衣室對巴薩球員開玩笑:兄弟們,把我帶上

尼科在西班牙隊更衣室對巴薩球員開玩笑:兄弟們,把我帶上

直播吧
2025-06-15 11:49:13
浙江一家3人確診癌癥!醫生:早期沒癥狀,發現時已嚴重耽誤

浙江一家3人確診癌癥!醫生:早期沒癥狀,發現時已嚴重耽誤

FM93浙江交通之聲
2025-06-15 06:35:36
前年牽手跑出考場情侶現狀:男生今年三戰高考,女生即將大三

前年牽手跑出考場情侶現狀:男生今年三戰高考,女生即將大三

悠閑歷史
2025-06-13 08:57:41
我月入3000,國家興衰跟我有何干?

我月入3000,國家興衰跟我有何干?

V記錄號
2025-05-26 10:45:57
剛剛確認:全面影響杭州!明天更猛

剛剛確認:全面影響杭州!明天更猛

19樓
2025-06-15 09:11:09
瑞典決定打擊俄影子艦隊,韃靼斯坦抗議征兵,吉爾吉斯斯坦拆雕像

瑞典決定打擊俄影子艦隊,韃靼斯坦抗議征兵,吉爾吉斯斯坦拆雕像

桑未落
2025-06-09 12:26:18
6月下旬,鴻運當頭,4屬相財運亨通,事業順利,日子紅紅火火!

6月下旬,鴻運當頭,4屬相財運亨通,事業順利,日子紅紅火火!

素然追光
2025-06-14 12:20:04
梁洛施有了新戀情和李澤楷無復合可能,郭嘉文這下可以放心了

梁洛施有了新戀情和李澤楷無復合可能,郭嘉文這下可以放心了

農村教育光哥
2025-06-14 10:59:34
伊朗反對派呼吁推翻德黑蘭政權

伊朗反對派呼吁推翻德黑蘭政權

一種觀點
2025-06-13 22:53:21
400億市值的新股上市7天破發,進場的股民全部被套,無一幸免

400億市值的新股上市7天破發,進場的股民全部被套,無一幸免

八百者也
2025-06-15 09:54:55
普京給伊總統打去電話,態度很明確,俄不會給伊朗提供實質性幫助

普京給伊總統打去電話,態度很明確,俄不會給伊朗提供實質性幫助

掌青說歷史
2025-06-14 10:59:57
趙麗穎20小時冷對章子怡!內娛體面規矩被當場掀翻

趙麗穎20小時冷對章子怡!內娛體面規矩被當場掀翻

心誠則靈了
2025-06-14 21:26:48
提醒!昆明主城區6個淹積水點采取臨時管制

提醒!昆明主城區6個淹積水點采取臨時管制

開屏新聞客戶端
2025-06-15 11:18:10
Labubu韓國門店大排長龍,警察出動維護秩序!泡泡瑪特決定:中止韓國線下銷售

Labubu韓國門店大排長龍,警察出動維護秩序!泡泡瑪特決定:中止韓國線下銷售

第一財經資訊
2025-06-14 17:43:31
高考后旗袍迎來“退貨潮”,汗臭難聞吊牌沒摘,網友:犯了大忌!

高考后旗袍迎來“退貨潮”,汗臭難聞吊牌沒摘,網友:犯了大忌!

涵豆說娛
2025-06-14 09:06:48
屠夫醫生劉翔峰,逼迫病人天價化療,表面救死扶傷,背地摘人器官

屠夫醫生劉翔峰,逼迫病人天價化療,表面救死扶傷,背地摘人器官

中州俠士
2025-06-14 01:34:39
飛天茅臺價格持續走低,有網友分析若到1900元,多數經銷商要賠錢

飛天茅臺價格持續走低,有網友分析若到1900元,多數經銷商要賠錢

愛看劇的阿峰
2025-06-15 00:51:33
10 元一盤、排隊 2000 桌,日本“窮鬼壽司”,爭奪北上廣

10 元一盤、排隊 2000 桌,日本“窮鬼壽司”,爭奪北上廣

每日人物
2025-06-15 10:35:10
2025-06-15 12:36:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10667文章數 176167關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

清華高顏值美女學霸走紅 本人最新發聲

頭條要聞

清華高顏值美女學霸走紅 本人最新發聲

體育要聞

裁判可以噴,但也從步行者自身找找問題?

娛樂要聞

鳳凰傳奇曾毅塌房?網友:別連累玲花

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

手機
房產
時尚
本地
游戲

手機要聞

消息稱小米 MIX Flip2、魅族 22 系列等機型 6 月-7 月發布

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

夏天最值得入手的6件單品,全在這了

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

《誅仙世界》首次回應銀價暴跌;騰訊網易紛紛做出違背祖訓的決定

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精品人妻少妇一区二区三区在线| av无码免费永久在线观看| 99久久99久久精品免费看蜜桃| 国产精品天堂avav在线| 日本高清一二三不卡区| 久久av老司机精品网站导航| 西西人体大胆午夜视频| 久久精品国产一区二区三| 国产av一区二区精品凹凸| 又湿又黄裸乳漫画无遮挡网站| 少妇白浆高潮无码免费区| 久久综合国产乱子伦精品免费| 亚洲国产精品无码专区影院| 男人吃奶摸下挵进去好爽| 亚洲国产成人精品无码区在线播放| 99久久婷婷国产综合亚洲| 国产a国产片国产| 日本不卡一区| 亚洲成av人片无码bt种子下载| 伦理片免费完整片在线观看| av天堂中av世界中文在线播放| 黑人巨茎精品欧美一区二区| 久久精品亚洲精品无码金尊| 国产欧美日韩精品专区| 亚洲精品久久久久国产| 亚洲国产精品无码久久秋霞| 久久久精品国产sm调教网站| 国产精品国产三级国产av剧情| 国产精品99久久久精品无码| 欧美又大又硬又粗bbbbb| 拍国产乱人伦偷精品视频| 免费a级毛片18禁网站免费| 日韩精品亚洲aⅴ在线影院| 日本熟妇人妻xxxxx-欢迎您| 一本色道无码道dvd在线观看| 中文在线а√天堂官网| 国产精品久久久久久久久久妞妞| 中文无码制服丝袜人妻av| 国产在线看片无码人精品| 国语对白做受xxxxx在线中国| 国产极品白嫩精品|