大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

OpenAI新模型,被曝秘密訓(xùn)練中!萬(wàn)字硬核長(zhǎng)文直指o4核心秘密

0
分享至


新智元報(bào)道

編輯:編輯部 YZHN

【新智元導(dǎo)讀】SemiAnalysis全新硬核爆料,意外揭秘了OpenAI全新模型的秘密?據(jù)悉,新模型介于GPT-4.1和GPT-4.5之間,而下一代推理模型o4將基于GPT-4.1訓(xùn)練,而背后最大功臣,就是強(qiáng)化學(xué)習(xí)。

OpenAI的o4,已經(jīng)在訓(xùn)練了?

就在最近,SemiAnalysis發(fā)表了一篇硬核長(zhǎng)文博客,爆料了不少大模型圈的內(nèi)幕消息。


其中,一些最核心的亮點(diǎn),先一睹為快:

  • OpenAI正在訓(xùn)練一個(gè)規(guī)模介于GPT-4.1和GPT-4.5之間的新模型

  • 下一代推理模型o4將基于GPT-4.1展開(kāi)RL訓(xùn)練

  • 強(qiáng)化學(xué)習(xí)改變了實(shí)驗(yàn)室結(jié)構(gòu),甚至是大廠未來(lái)研究的側(cè)重方向和優(yōu)先級(jí)

  • 定義獎(jiǎng)勵(lì)函數(shù)難上加難,往往AI鉆空子之后,漏洞才能被發(fā)現(xiàn)

  • 不犧牲LLM任何性能,不用合并權(quán)重,RL另一條路——數(shù)據(jù)混合

  • 與預(yù)訓(xùn)練不同,RL可持續(xù)更新Scaling模型能力,DeepSeek-R1是典例

  • 高質(zhì)量數(shù)據(jù)是Scaling強(qiáng)化學(xué)習(xí)的護(hù)城河

  • 訓(xùn)練小模型,蒸餾效果要比RL更好

新一輪預(yù)訓(xùn)練已開(kāi)始

首先,讓我們看看其中最硬的內(nèi)容——關(guān)于OpenAI的全新模型。

因?yàn)楝F(xiàn)在星際之門超算還未建成,所以今年OpenAI的計(jì)算集群規(guī)模不會(huì)有顯著增長(zhǎng),因此顯然無(wú)法在算力上進(jìn)一步擴(kuò)大預(yù)訓(xùn)練規(guī)模。

不過(guò),這并不意味著,OpenAI會(huì)停止預(yù)訓(xùn)練新模型。

如今,預(yù)訓(xùn)練已經(jīng)比任何時(shí)候都更為重要。在不犧牲模型智能水平的前提下,哪怕只是小幅降低推理成本,都能極大節(jié)約開(kāi)銷,加快RL的反饋循環(huán),催生更大的進(jìn)步。

多個(gè)實(shí)驗(yàn)室的研究表明,中等規(guī)模模型的RL反饋循環(huán)速度已經(jīng)超過(guò)了大型模型。

而如開(kāi)頭所提,OpenAI的新模型規(guī)模就在GPT-4.5和GPT-4/GPT-4.1之間。

隨著RL規(guī)模的持續(xù)擴(kuò)大,這些稍大的模型不僅會(huì)擁有更強(qiáng)的學(xué)習(xí)能力,MoE的稀疏度也會(huì)更高。

OpenAI o4要來(lái)了

而o4模型,就非常有望成為OpenAI在推理領(lǐng)域的下一款重磅產(chǎn)品。

可以說(shuō),o4標(biāo)志著OpenAI策略的轉(zhuǎn)變,核心原因就在于,他們更換了訓(xùn)練所用的基礎(chǔ)模型。

因?yàn)榛A(chǔ)模型決定了性能的下限,因此,用于進(jìn)行RL的基礎(chǔ)模型越好,最終效果也越好。

然而,要在模型強(qiáng)度和RL訓(xùn)練的實(shí)用性之間找到完美的平衡點(diǎn),是非常棘手的事。

因?yàn)镽L需要海量的推理計(jì)算和大量的序列采樣,如果目標(biāo)模型過(guò)于龐大,RL的成本將極其高昂。

此前,OpenAI一直在GPT-4o的基礎(chǔ)上為o1和o3模型進(jìn)行RL訓(xùn)練,但到o4時(shí),情況將發(fā)生變化。

o4系列模型將基于GPT-4.1。

GPT-4.1的推理成本很低,同時(shí)具備強(qiáng)大的基準(zhǔn)代碼性能,無(wú)疑是未來(lái)推理產(chǎn)品的理想基礎(chǔ)模型。

而且,GPT-4.1的實(shí)力顯然被嚴(yán)重低估了——它非常實(shí)用,在Cursor上得到了廣泛應(yīng)用,為許多強(qiáng)大的新產(chǎn)品開(kāi)啟了大門。

目前,Anthropic已經(jīng)在代碼能力顯出絕對(duì)優(yōu)勢(shì),OpenAI顯然也不甘落后。轉(zhuǎn)向GPT-4.1,顯然就是非常重要的一步行動(dòng)。

雖然SWE-Bench這樣的基準(zhǔn)可以衡量模型能力,但最終的商業(yè)收入,還是要取決于定價(jià)策略。

在SemiAnalysis看來(lái),Cursor的實(shí)際使用情況,才是檢驗(yàn)?zāi)P蛻?yīng)用價(jià)值的終極試金石。


推理模型大躍進(jìn),RL是最大功臣

如今,推理時(shí)Scaling的范式,正在蓬勃發(fā)展,推理模型也在快速進(jìn)步。

在衡量現(xiàn)實(shí)世界軟件工程任務(wù)(如SWE-Bench)的評(píng)估中,模型正在以更低的成本,獲得更高的分?jǐn)?shù)。

這背后的功臣,當(dāng)然就是強(qiáng)化學(xué)習(xí)。它通過(guò)生成CoT,解鎖了模型的推理能力。

此外,因?yàn)槟P同F(xiàn)在能夠維持長(zhǎng)時(shí)間的連貫思考,也就順勢(shì)解鎖了AI智能體的潛力。

它們能勝任更復(fù)雜的計(jì)算機(jī)任務(wù),比如全自動(dòng)化的遠(yuǎn)程辦公和系統(tǒng)工程/架構(gòu)設(shè)計(jì)。

不過(guò),在擴(kuò)展強(qiáng)化學(xué)習(xí)算力上,整個(gè)基礎(chǔ)設(shè)施都面臨著新的瓶頸。

在AGI到來(lái)前,RL可能是我們需要的最后一個(gè)關(guān)鍵范式。

因?yàn)樘N(yùn)含著巨大機(jī)遇,它所需的投資規(guī)模也同樣龐大。現(xiàn)在,已經(jīng)有十?dāng)?shù)億美元資金投入,未來(lái)還會(huì)有更多。

不過(guò),強(qiáng)化學(xué)習(xí)對(duì)于基礎(chǔ)設(shè)施的要求,卻是截然不同的。

我們究竟需要為此付出什么?

RL的工作原理

RL的概念很簡(jiǎn)單。

一個(gè)RL模型會(huì)從任意環(huán)境的當(dāng)前狀態(tài)中獲取信息,為選擇一個(gè)動(dòng)作生成一組概率,然后執(zhí)行該動(dòng)作。

模型的目的,是達(dá)成一個(gè)由「獎(jiǎng)勵(lì)函數(shù)」定義的目標(biāo)。

強(qiáng)化學(xué)習(xí)的過(guò)程,就是通過(guò)改變模型權(quán)重,使其更有可能生成那些能帶來(lái)更高獎(jiǎng)勵(lì)的動(dòng)作。

可以說(shuō),RL是一項(xiàng)古老的技術(shù),比LLM出現(xiàn)得更早。當(dāng)年戰(zhàn)勝圍棋與國(guó)際象棋冠軍的系統(tǒng)背后,RL都是背后支柱。

不過(guò)直到最近,RL才終于成功應(yīng)用于LLM。這對(duì)模型能力和普及,都產(chǎn)生了深遠(yuǎn)的影響。

可驗(yàn)證的獎(jiǎng)勵(lì)

在LLM中,RL在那些擁有可驗(yàn)證獎(jiǎng)勵(lì)的領(lǐng)域表現(xiàn)最佳。

這意味著,對(duì)于編碼和數(shù)學(xué)這類任務(wù),RL所必需的獎(jiǎng)勵(lì)函數(shù)有著明確的定義。而在那些獎(jiǎng)勵(lì)函數(shù)定義較為模糊的領(lǐng)域,推理模型就難以取得進(jìn)步。

當(dāng)OpenAI在GPT-4o的基礎(chǔ)上通過(guò)RL訓(xùn)練出o1時(shí),性能提升最顯著的,也正是在這些擁有可驗(yàn)證獎(jiǎng)勵(lì)的領(lǐng)域。


我們都知道,OpenAI的o3可以放大圖片,根據(jù)所見(jiàn)內(nèi)容進(jìn)行推理、計(jì)算、再次推理,最后給出答案。

因此,它識(shí)別照片拍攝地的超凡能力,驚艷了一大批網(wǎng)友。

最令人意外的是,o3模型并未針對(duì)這種任務(wù)進(jìn)行過(guò)專門訓(xùn)練。

不過(guò),跟預(yù)訓(xùn)練的投入相比,各大實(shí)驗(yàn)室投入在RL上的資金卻并不多。

在這里,SemiAnalysis就提出了關(guān)鍵問(wèn)題——

要讓RL的計(jì)算資源投入追上甚至超過(guò)預(yù)訓(xùn)練,瓶頸何在?

那些獎(jiǎng)勵(lì)不可驗(yàn)證的領(lǐng)域,未來(lái)能否被攻克?


推理開(kāi)銷巨大

通過(guò)研究一種最流行的RL算法,我們能一窺其巨大的推理開(kāi)銷。

組相對(duì)策略優(yōu)化(Group Relative Policy Optimization, GRPO)是一種常用算法,因?yàn)镈eepSeek用它來(lái)訓(xùn)練R1模型而名聲大噪。

在GRPO算法中,模型需要回答一個(gè)問(wèn)題,并針對(duì)該問(wèn)題生成多個(gè)候選答案。每個(gè)答案都可以看作一次「推演 (rollout)」,本質(zhì)上是模型在嘗試尋找解決方案。

針對(duì)每個(gè)問(wèn)題的推演次數(shù)從幾次到上百次不等,雖然沒(méi)有技術(shù)上限,但推演次數(shù)越多,占用的內(nèi)存和計(jì)算資源就越多。

由于每個(gè)問(wèn)題都要生成海量答案,這使得RL成為一種推理密集型任務(wù)。這一點(diǎn)的影響尤其重大,因此將在后續(xù)部分被反復(fù)提及。


接下來(lái),模型生成的答案會(huì)與一個(gè)標(biāo)準(zhǔn)答案進(jìn)行比對(duì)評(píng)分。在GRPO中,每個(gè)答案都會(huì)獲得一個(gè)獎(jiǎng)勵(lì)分?jǐn)?shù)。

計(jì)算出獎(jiǎng)勵(lì)分?jǐn)?shù)后,模型會(huì)通過(guò)梯度下降算法進(jìn)行更新,以提高生成那些能獲得正向獎(jiǎng)勵(lì)的答案的概率。

GRPO 是近端策略優(yōu)化(PPO)的一種變體,它不需要PPO中的評(píng)論家模型(critic model),因此內(nèi)存效率更高。

PPO和GRPO既可以采用學(xué)習(xí)出來(lái)的獎(jiǎng)勵(lì)模型,也可以使用基于規(guī)則的獎(jiǎng)勵(lì)系統(tǒng)來(lái)評(píng)判答案質(zhì)量。

由于內(nèi)存需求較低,GRPO在開(kāi)源社區(qū)被廣泛采用,但頂尖實(shí)驗(yàn)室應(yīng)該大多會(huì)繼續(xù)使用PPO的各種變體。

PPO由OpenAI 發(fā)明,其內(nèi)部使用的版本與GRPO通常對(duì)標(biāo)的公開(kāi)版本已有實(shí)質(zhì)性不同,而且這些實(shí)驗(yàn)室面臨的計(jì)算資源限制也更少。


其核心思想在于,RL通常需要一個(gè)問(wèn)題、一個(gè)用于核對(duì)的標(biāo)準(zhǔn)答案,以及一種向模型傳遞信號(hào)以指導(dǎo)其行為調(diào)整方向的機(jī)制。

模型探索答案的方式多種多樣,但都要求以多次不同推演的形式生成多個(gè)候選答案,因此對(duì)推理端的資源要求很高。

隨后,模型會(huì)被更新,以提高正確答案的出現(xiàn)概率,所以這個(gè)過(guò)程也隱含了訓(xùn)練的環(huán)節(jié)。

獎(jiǎng)勵(lì)函數(shù)難定

如前所述,強(qiáng)化學(xué)習(xí)在可驗(yàn)證獎(jiǎng)勵(lì)的領(lǐng)域已取得長(zhǎng)足進(jìn)步,原因之一在于這類任務(wù)的獎(jiǎng)勵(lì)函數(shù)很容易定義——例如,數(shù)學(xué)題的答案非對(duì)即錯(cuò)。

然而,從技術(shù)上講,獎(jiǎng)勵(lì)函數(shù)可以是用戶想要優(yōu)化的任何目標(biāo)。

從概念上講,強(qiáng)化學(xué)習(xí)模型的主要目標(biāo)是最大化總獎(jiǎng)勵(lì)。

以訓(xùn)練模型下國(guó)際象棋為例,首要目標(biāo)就是在不違規(guī)的前提下贏得比賽。模型可以通過(guò)在不同棋局中學(xué)習(xí)哪些走法有助于獲勝,來(lái)不斷提升棋力,還能從所處環(huán)境中獲得反饋。

不過(guò),如果涉及到更寬泛的任務(wù)定義獎(jiǎng)勵(lì),就更像是一門「玄學(xué)」了,因?yàn)樗鼘?shí)在難以恰到好處地把握。

即便是在目標(biāo)明確的環(huán)境中,要設(shè)定一個(gè)理想的獎(jiǎng)勵(lì)函數(shù),也需要大量的研究、測(cè)試和優(yōu)化。

芯片設(shè)計(jì)就是一個(gè)很好的例子。

谷歌為輔助芯片設(shè)計(jì)而開(kāi)發(fā)的AlphaChip模型,就采用了強(qiáng)化學(xué)習(xí)訓(xùn)練。

這個(gè)模型協(xié)助設(shè)計(jì)了谷歌的TPUv6芯片,并成功將其線長(zhǎng)(wirelength)縮短了 6.2%。在這個(gè)案例中,獎(jiǎng)勵(lì)函數(shù)被明確定義為:


這個(gè)函數(shù)引導(dǎo)模型去精確地最小化幾個(gè)關(guān)鍵因素:線長(zhǎng)、擁塞度和密度。

值得注意的是,即便是這樣一個(gè)相對(duì)簡(jiǎn)單的獎(jiǎng)勵(lì)函數(shù),其設(shè)置過(guò)程也絕非易事。擁塞度和密度都帶有一個(gè)標(biāo)量值(α和γ)來(lái)調(diào)整其權(quán)重。

這些數(shù)值是工程師們基于期望的權(quán)衡取舍,通過(guò)大量實(shí)驗(yàn)得出的最終結(jié)論,即線長(zhǎng)是首要優(yōu)化因素。

而在寫作、策略規(guī)劃這些領(lǐng)域,往往并不存在明確的標(biāo)準(zhǔn)答案,屬于不可驗(yàn)證的領(lǐng)域。

曾有人懷疑:是否有可能在這些領(lǐng)域應(yīng)用強(qiáng)化學(xué)習(xí)?SemiAnalysis認(rèn)為,這完全可行,而且已經(jīng)實(shí)現(xiàn)了。

要做到這一點(diǎn)并不難,只需要改變獎(jiǎng)勵(lì)機(jī)制:不再依賴形式化的驗(yàn)證器進(jìn)行檢查,而是利用其他模型,依據(jù)一套評(píng)分標(biāo)準(zhǔn)(rubric)來(lái)判斷答案的優(yōu)劣。

OpenAI正是使用強(qiáng)化學(xué)習(xí)來(lái)調(diào)整模型行為,這比數(shù)學(xué)問(wèn)題更為抽象。

在關(guān)于審慎對(duì)齊(deliberative alignment)的論文中,OpenAI用了一個(gè)LLM作為「評(píng)判員」,并依據(jù)一套評(píng)分標(biāo)準(zhǔn),通過(guò)強(qiáng)化學(xué)習(xí)來(lái)確保模型更安全、減少對(duì)無(wú)害請(qǐng)求的錯(cuò)誤拒絕。

并且,這個(gè)過(guò)程完全使用的合成數(shù)據(jù)。

正如前文所述,他們還發(fā)現(xiàn)此方法「在分布外的安全場(chǎng)景中展現(xiàn)出強(qiáng)大的泛化能力」。

因此,這種方法已被用于訓(xùn)練o1、o3-mini和o4-mini,還會(huì)繼續(xù)應(yīng)用于未來(lái)的推理模型。

推理能力不僅對(duì)解決數(shù)學(xué)問(wèn)題至關(guān)重要,對(duì)于那些不可驗(yàn)證的任務(wù)也大有用處。

比如在很多情況下,更強(qiáng)的推理能力能幫助模型更好地判斷何時(shí)應(yīng)該拒絕用戶的請(qǐng)求。

但不可否認(rèn),在不可驗(yàn)證領(lǐng)域,某些因素的影響會(huì)更大,比如模型的「?jìng)€(gè)性」會(huì)極大影響其寫作風(fēng)格。


此外,應(yīng)用于不可驗(yàn)證領(lǐng)域的強(qiáng)化學(xué)習(xí)也更加多變。

比如之前被熱議的GPT-4o「諂媚」行為,部分原因就是OpenAI基于用戶偏好數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí)的結(jié)果。

這就說(shuō)明,一個(gè)本意良好的獎(jiǎng)勵(lì)函數(shù),也可能會(huì)導(dǎo)致不良行為。

o3善用工具,核心在這兒

o3模型已清晰地展示了強(qiáng)化學(xué)習(xí)的有效性,尤其是對(duì)外部工具的高級(jí)運(yùn)用上。

o3的表現(xiàn)證明:擁有智能固然重要,但能夠接觸并善用工具則更為關(guān)鍵。

為了實(shí)現(xiàn)這一能力,OpenAI采取了幾個(gè)關(guān)鍵措施。

首先,要確保模型能接入工具。這可以作為更廣泛基礎(chǔ)設(shè)施的一部分來(lái)實(shí)現(xiàn)(例如,讓模型能訪問(wèn)特定環(huán)境)。

在模型層面,工具的調(diào)用可以通過(guò)特殊的Token來(lái)觸發(fā)。

例如,讓模型使用像 這樣的特殊Token來(lái)啟動(dòng)外部搜索,搜索結(jié)果以結(jié)構(gòu)化的形式返回,可直接用于其推理過(guò)程。

通過(guò)賦予模型訪問(wèn)多種不同特殊Token的能力,它便能快速便捷地接入不同的環(huán)境。


另一項(xiàng)核心挑戰(zhàn)在于,該選擇恰當(dāng)?shù)膯?wèn)題集進(jìn)行訓(xùn)練?

即便模型能訪問(wèn)工具,如果問(wèn)題本身并不需要,它也可能選擇完全不使用。

因此,為了有效地訓(xùn)練模型,需要提供足夠困難、必須借助工具才能解決的問(wèn)題,從而確保模型學(xué)會(huì)自然地利用外部資源。要把握好這個(gè)度非常困難,需要大量測(cè)試來(lái)驗(yàn)證。

同時(shí),過(guò)度使用工具也可能降低性能,使獎(jiǎng)勵(lì)信號(hào)變得復(fù)雜,從而影響整體效果。


其他關(guān)鍵因素還包括:確保每次「推演 」都有豐富的初始狀態(tài),且每個(gè)起點(diǎn)都能生成多種響應(yīng),以提升穩(wěn)定性和學(xué)習(xí)效率;對(duì)格式錯(cuò)誤的輸出施加懲罰;以及對(duì)正確使用的標(biāo)簽給予獎(jiǎng)勵(lì)。

總而言之,打造一個(gè)o3級(jí)別的模型,關(guān)鍵在于兩點(diǎn)——

一是通過(guò)特殊Token等方式,為模型提供訪問(wèn)多種工具的權(quán)限;二是在那些能「迫使」模型使用這些工具的問(wèn)題上進(jìn)行訓(xùn)練。

變相獎(jiǎng)勵(lì),o3幻覺(jué)嚴(yán)重

盡管在信息查找和研究方面能力出眾,o3卻因其嚴(yán)重的幻覺(jué)問(wèn)題而飽受詬病。

它會(huì)頻繁地?zé)o中生有,并且隨著rl計(jì)算規(guī)模的增加,這個(gè)問(wèn)題甚至變得更加嚴(yán)重。這究竟是為什么?

高級(jí)分析師認(rèn)為,這歸根結(jié)底在于這些模型的訓(xùn)練方式。

模型通常只因最終結(jié)果正確而獲得獎(jiǎng)勵(lì),其推理過(guò)程是否正確卻不被考量,這使得它們能夠通過(guò)有缺陷的邏輯「蒙混過(guò)關(guān)」,得到正確答案。

比如,一個(gè)模型即便誤解了規(guī)則,也可能在一個(gè)簡(jiǎn)單的棋盤游戲中獲勝,從而錯(cuò)誤地認(rèn)為其有缺陷的推理是可接受的。

這種機(jī)制不僅沒(méi)有懲罰模型的錯(cuò)誤思維,反而對(duì)其進(jìn)行了變相的獎(jiǎng)勵(lì)。


SemiAnalysis推測(cè),這種情況不僅限于棋盤游戲。

這無(wú)意中讓模型學(xué)會(huì)在新的、未經(jīng)訓(xùn)練的場(chǎng)景中產(chǎn)生幻覺(jué),將有缺陷的推理能力泛化到更廣泛的領(lǐng)域。

讓推理更強(qiáng)模型作為評(píng)判員,能起到一定效果,因?yàn)樗鼈兛梢约m正整個(gè)推理鏈(reasoning trace)。

其他的思路包括,設(shè)計(jì)更精細(xì)的獎(jiǎng)勵(lì)信號(hào),比如對(duì)每個(gè)輸出Token給予不同獎(jiǎng)勵(lì),從而在獎(jiǎng)勵(lì)正確答案的同時(shí),懲罰不正確的邏輯。

需要明確的是,這種不當(dāng)?shù)莫?jiǎng)勵(lì)行為也會(huì)影響到代碼生成等任務(wù)。

一個(gè)模型可能編寫出質(zhì)量很差的代碼,卻依然能通過(guò)單元測(cè)試。這更加凸顯了設(shè)計(jì)正確獎(jiǎng)勵(lì)函數(shù)的必要性。

AI自進(jìn)化,用RL優(yōu)化RL

強(qiáng)化學(xué)習(xí)不僅能提升LLM性能,還能優(yōu)化自身,形成一個(gè)良性循環(huán)。

這種「RL優(yōu)化RL」的方式,依賴于大語(yǔ)言模型評(píng)判員(LLM-Judge)和評(píng)分標(biāo)準(zhǔn)(rubric),來(lái)提供強(qiáng)化學(xué)習(xí)信號(hào)。

當(dāng)一個(gè)推理能力更強(qiáng)的模型被用作評(píng)判員時(shí),它能更好地理解評(píng)分標(biāo)準(zhǔn),并從其他模型的回答中識(shí)別出更細(xì)微的差別。

比如,OpenAI的Deep Reaearch項(xiàng)目中,展示了RL如何推動(dòng)不可驗(yàn)證領(lǐng)域的進(jìn)步,成為了一個(gè)典范。

無(wú)論是可驗(yàn)證任務(wù),還是不可驗(yàn)證的任務(wù),OpenAI都通過(guò)另一個(gè)LLM依據(jù)評(píng)分標(biāo)準(zhǔn)進(jìn)行評(píng)判。

同樣,Qwen-3也采用了類似的方法,利用海量合成數(shù)據(jù)結(jié)合LLM-Judge,在沒(méi)有參考答案的情況下提供學(xué)習(xí)信號(hào)。

SemiAnalysis認(rèn)為,「評(píng)分標(biāo)準(zhǔn)」這種模式為許多領(lǐng)域開(kāi)啟了新的可能性。

再比如,OpenAI曾邀請(qǐng)超260名醫(yī)生來(lái)編寫評(píng)估標(biāo)準(zhǔn)——HealthBench ,用于評(píng)估模型在醫(yī)療問(wèn)答任務(wù)中的表現(xiàn)。


作為公開(kāi)的評(píng)估標(biāo)準(zhǔn),HealthBench反映出LLM-Judge,在衡量那些獎(jiǎng)勵(lì)不可驗(yàn)證的任務(wù)性能方面非常強(qiáng)大。

一旦性能可以被衡量,它就可以通過(guò)強(qiáng)化學(xué)習(xí)來(lái)提升。

這突顯了RL與評(píng)估之間一種被低估了的關(guān)系——后者能夠清晰地揭示RL的訓(xùn)練進(jìn)展和效果。

「遞歸自我改進(jìn)」已經(jīng)展開(kāi)

上面提到,通過(guò)讓更強(qiáng)的模型在強(qiáng)化學(xué)習(xí)中擔(dān)任更出色的評(píng)判員,可以實(shí)現(xiàn)自我改進(jìn)。

但這里還有另一個(gè)重要維度值得考量:讓模型本身來(lái)幫助訓(xùn)練和編寫下一個(gè)模型。

Anthropic在其Claude 4的系統(tǒng)卡片中,就具體展示了頂尖實(shí)驗(yàn)室的這種思考。他們對(duì)編譯器開(kāi)發(fā)、內(nèi)核工程,甚至是一個(gè)四足機(jī)器人的強(qiáng)化學(xué)習(xí)任務(wù)都進(jìn)行了評(píng)估。


事實(shí)上,目前各大實(shí)驗(yàn)室所做的,正是那些旨在榨干硬件每一分性能的、艱難的工程工作。

編譯器、內(nèi)核、內(nèi)存管理優(yōu)化、超參數(shù)調(diào)優(yōu)等等,這些都是可以被量化和改進(jìn)的編程任務(wù),并且每一項(xiàng)都對(duì)模型的效率有著巨大影響。

「遞歸自我改進(jìn)」常常被描述成一個(gè)聽(tīng)起來(lái)充滿誘惑、前景宏大的術(shù)語(yǔ),但現(xiàn)實(shí)是,它在一定程度上已經(jīng)發(fā)生。

實(shí)驗(yàn)室還可以通過(guò)針對(duì)這些具體任務(wù)進(jìn)行強(qiáng)化學(xué)習(xí)來(lái)持續(xù)加碼,并擁有大量專攻于此的內(nèi)部模型變體。

這種自我改進(jìn)最初將主要圍繞那些不易察覺(jué)的、繁重枯燥的底層工作,然后逐步滲透到新模型架構(gòu)的研究中去。

當(dāng)前的模型還無(wú)法極大地加速開(kāi)發(fā)進(jìn)程。

但OpenAI的Codex工具已經(jīng)在幫助員工構(gòu)建下一個(gè)版本的模型。

理解自我改進(jìn)的關(guān)鍵在于,模型將讓工程師們花更少的時(shí)間在編碼上,從而能投入更多時(shí)間去思考研究和數(shù)據(jù)等核心問(wèn)題。只要模型開(kāi)發(fā)的瓶頸在于工程投入,這些瓶頸終將被化解。

不過(guò),現(xiàn)實(shí)中的模型開(kāi)發(fā)還受制于計(jì)算資源等多種因素。

真正的遞歸自我提升將顯著加速研究與數(shù)據(jù)進(jìn)程。

環(huán)境

要進(jìn)行強(qiáng)化學(xué)習(xí),就需要對(duì)某個(gè)行為或結(jié)果進(jìn)行「強(qiáng)化」。

實(shí)現(xiàn)這一點(diǎn)前提是,模型/AI智能體必須在一個(gè)「環(huán)境」中,獲得反饋,從而理解下一步該采取什么行動(dòng)。

這催生了「強(qiáng)化學(xué)習(xí)執(zhí)行反饋」(Reinforcement Learning from Execution Feedback, RLEF)的出現(xiàn),即在環(huán)境中運(yùn)行模型生成的代碼,并將執(zhí)行結(jié)果作為獎(jiǎng)勵(lì)信號(hào)。


所謂「環(huán)境」,就是模型采取行動(dòng)并接收反饋的場(chǎng)景或模擬系統(tǒng),比如國(guó)際象棋、圍棋棋盤游戲,便是環(huán)境的絕佳范例。

它們目標(biāo)明確,規(guī)則清晰。

隨著通用性的提升,AI進(jìn)入了更廣闊的領(lǐng)域,比如在電子游戲中賽車,或在生物反應(yīng)器模擬中控制一組特定參數(shù)。

在此之外,它們還會(huì)遇到數(shù)學(xué)、編程甚至瀏覽器,這樣更為開(kāi)放的環(huán)境。

環(huán)境的配置不同,可能導(dǎo)致AI智能體的行為大相徑庭。

若環(huán)境配置不當(dāng),可能使模型誤解任務(wù)或無(wú)法正確地泛化其能力,會(huì)導(dǎo)致「獎(jiǎng)勵(lì)黑客」(reward hacking)。

也就是說(shuō),模型在此學(xué)會(huì)了鉆函數(shù)的空子,并非真正去完成任務(wù)。

比如,一個(gè)注重通過(guò)單元測(cè)試的編程環(huán)境,可能導(dǎo)致模型專注于「應(yīng)付測(cè)試」,而非編寫出高質(zhì)量代碼。

因此,構(gòu)建一個(gè)穩(wěn)健的環(huán)境,并確保其獎(jiǎng)勵(lì)函數(shù)能夠精確反映預(yù)期目標(biāo),是一項(xiàng)極其困難的工程挑戰(zhàn)。

一個(gè)合格的環(huán)境需要滿足諸多要求。

延遲就是其中一個(gè)關(guān)鍵因素,延遲過(guò)高可能會(huì)導(dǎo)致資源浪費(fèi),「推演」(rollout)效率低下。

其他考量還包括:連接必須持續(xù)可靠,避免系統(tǒng)崩潰中斷進(jìn)程;同時(shí)需要設(shè)置容錯(cuò)機(jī)制和檢查點(diǎn)機(jī)制,確保故障能被平穩(wěn)處理;還必須能夠妥善處理多個(gè)并行的推演或軌跡。

除此之外,還需要一整套安全基礎(chǔ)設(shè)施作為支撐,以保護(hù)模型免遭外部滲透,或防止其試圖「逃離」環(huán)境。

模型本身的一些失誤模式也讓問(wèn)題變得復(fù)雜,比如它可能會(huì)采取耗盡機(jī)器資源的行動(dòng)。

同時(shí),環(huán)境必須能準(zhǔn)確地模擬真實(shí)場(chǎng)景,讓智能體明白該從何處改進(jìn),并且要杜絕被智能體黑客利用的可能性。

所有這些要求,使得環(huán)境的規(guī)模化變得異常困難,尤其是初次嘗試時(shí)。

盡管基礎(chǔ)設(shè)施工程看似平淡無(wú)奇,但它對(duì)強(qiáng)化學(xué)習(xí)的成功至關(guān)重要。如果推演過(guò)程耗時(shí)過(guò)長(zhǎng),用于驗(yàn)證的模型就會(huì)閑置,造成資源浪費(fèi)。

因此,如何讓這些模型在等待期間執(zhí)行其他任務(wù),比如評(píng)判另一個(gè)LLM推演結(jié)果,就成了一個(gè)重要問(wèn)題。

這些軟件層面的限制,還必須與硬件層面的約束相適配,比如多數(shù)環(huán)境在CPU而非GPU上運(yùn)行,進(jìn)一步增加了工程復(fù)雜性。

更重要的是,環(huán)境必須放置模型利用漏洞。

像o3這類模型,是基于支持多次工具調(diào)用的復(fù)雜環(huán)境,隨著工具調(diào)用增加,環(huán)境復(fù)雜度也隨之上升,帶來(lái)了一系列新挑戰(zhàn)。

獎(jiǎng)勵(lì)黑客

如前所述,設(shè)定一個(gè)恰當(dāng)?shù)莫?jiǎng)勵(lì)可能非常困難,因?yàn)槟P涂赡軙?huì)誤解目標(biāo),并以一種不理想的方式進(jìn)行優(yōu)化。

當(dāng)模型利用環(huán)境或獎(jiǎng)勵(lì)結(jié)構(gòu)中的漏洞,在并未真正完成預(yù)期任務(wù)的情況下獲得高分時(shí),就發(fā)生了「獎(jiǎng)勵(lì)黑客」(Reward Hacking)。

早在2016年,現(xiàn)Anthropic創(chuàng)始人Dario Amodei就指出了「獎(jiǎng)勵(lì)黑客」這一問(wèn)題。

舉個(gè)例子,一個(gè)機(jī)械臂的任務(wù)是將紅色積木疊在藍(lán)色積木上方,并以此獲得獎(jiǎng)勵(lì)。

但在演示中,它直接翻轉(zhuǎn)倒置了紅色積木,并非按照堆疊方式完成任務(wù),鉆了獎(jiǎng)勵(lì)的空子。

這便是因?yàn)椋?jiǎng)勵(lì)的評(píng)判標(biāo)準(zhǔn)僅僅是紅色積木底面的高度。


另一個(gè)失敗模式的例子是,在教機(jī)器人行走的物理模擬中,一個(gè)智能體發(fā)現(xiàn)了軟件漏洞——

完全不用邁步,水平移動(dòng)也可以,實(shí)屬有點(diǎn)6。


在LLM案例中,Claude 3.7 Sonnet也表現(xiàn)出了獎(jiǎng)勵(lì)黑客行為:修改測(cè)試用例,而非改進(jìn)自身代碼來(lái)通過(guò)原始測(cè)試。

Anthropic雖采取了部分緩解措施,但這種行為模式在Claude 3.7中依然存在。

盡管這些案例聽(tīng)起來(lái)有趣,但真正的問(wèn)題在于:

工程師們往往無(wú)法精確地定義獎(jiǎng)勵(lì)函數(shù),而且往往是在AI智能體已經(jīng)利用了環(huán)境中的漏洞之后,他們才能發(fā)現(xiàn)。

也就是說(shuō),許多獎(jiǎng)勵(lì)黑客的路徑,都是設(shè)計(jì)者從未設(shè)想過(guò)的。

雖然在訓(xùn)練過(guò)程中可以迭代修正,但這對(duì)于LLM來(lái)說(shuō)卻異常困難。

機(jī)器人的環(huán)境目前尚處于起步階段,調(diào)整起來(lái)相對(duì)容易,但LLM擁有巨大而復(fù)雜的行動(dòng)空間,使得防止獎(jiǎng)勵(lì)黑客變得難上加難。

因此,解決獎(jiǎng)勵(lì)黑客問(wèn)題是所有頂尖實(shí)驗(yàn)室的重中之重,這需要借鑒許多來(lái)自安全與對(duì)齊團(tuán)隊(duì)的想法。

在Claude 4中,Anthropic通過(guò)改進(jìn)環(huán)境、明確獎(jiǎng)勵(lì)信號(hào)和實(shí)施主動(dòng)監(jiān)控,顯著減少了獎(jiǎng)勵(lì)黑客行為。這絕非易事,需要大量的專業(yè)知識(shí)和實(shí)踐經(jīng)驗(yàn)。


然而,強(qiáng)化學(xué)習(xí)和獎(jiǎng)勵(lì)黑客并非唯一的瓶頸,基礎(chǔ)設(shè)施本身也是一個(gè)巨大的瓶頸。而這個(gè)瓶頸始于強(qiáng)化學(xué)習(xí)所需的數(shù)據(jù)。

數(shù)據(jù)與樣本效率

乍一看,強(qiáng)化學(xué)習(xí)的樣本效率似乎很高。

在訓(xùn)練Qwen模型的「推理強(qiáng)化學(xué)習(xí)」階段,研究者僅用了不到4000組問(wèn)答對(duì),就實(shí)現(xiàn)了相較于基礎(chǔ)模型的顯著性能提升,并因此聲稱其樣本效率極高。

然而,實(shí)際情況要復(fù)雜得多。

因?yàn)?000組問(wèn)答對(duì)中的每一組,都必須滿足極其嚴(yán)苛的條件:不能是模型冷啟動(dòng)階段已經(jīng)用過(guò)的數(shù)據(jù);必須盡可能地有挑戰(zhàn)性,覆蓋廣泛的細(xì)分領(lǐng)域,同時(shí)又要恰好在模型當(dāng)前的能力范圍之內(nèi)。

要滿足這些要求絕非易事。

生成合適的合成數(shù)據(jù),需要經(jīng)歷大量的篩選和反復(fù)的模型推理。

此外,要確保問(wèn)題「有挑戰(zhàn)性但又不過(guò)于困難」,這本身就需要通過(guò)實(shí)驗(yàn)和驗(yàn)證,以確認(rèn)問(wèn)題難度恰好落在那個(gè)狹窄的區(qū)間內(nèi)。

在某些無(wú)法通過(guò)合成數(shù)據(jù)生成的場(chǎng)景中,實(shí)驗(yàn)室甚至需要招聘STEM領(lǐng)域的博士,來(lái)專門為模型編寫足夠有挑戰(zhàn)性的問(wèn)題和答案。而他們的另一項(xiàng)工作,就是為L(zhǎng)LM評(píng)判員編寫可供參考的評(píng)分標(biāo)準(zhǔn)。

這也就是為什么,像ScaleAI、Mercor和Handshake這樣的招聘和數(shù)據(jù)服務(wù)公司,能從各大AI實(shí)驗(yàn)室獲得源源不斷的業(yè)務(wù),賺得盆滿缽滿。


此外,Qwen模型還進(jìn)行了另一階段的強(qiáng)化學(xué)習(xí),而他們沒(méi)有公布這一階段所用的樣本數(shù)量,因?yàn)檫@個(gè)數(shù)字遠(yuǎn)不止4000。

在后續(xù)階段,他們?cè)诔^(guò)20個(gè)不同領(lǐng)域進(jìn)行了強(qiáng)化學(xué)習(xí),并且同時(shí)使用了所有三種類型的獎(jiǎng)勵(lì)模型(基于規(guī)則的、有標(biāo)準(zhǔn)答案的 LLM-Judge、以及無(wú)標(biāo)準(zhǔn)答案的 LLM-Judge)。

這背后,都需要極為復(fù)雜的工程技術(shù)和計(jì)算資源支持。

長(zhǎng)遠(yuǎn)來(lái)看,SemiAnalysis預(yù)計(jì),各大實(shí)驗(yàn)室將在數(shù)百個(gè)專業(yè)領(lǐng)域上進(jìn)行強(qiáng)化學(xué)習(xí),以求大幅提升模型性能。

在此過(guò)程中,質(zhì)量比數(shù)量更重要——因?yàn)槟P蜁?huì)精確地?cái)M合其訓(xùn)練數(shù)據(jù)。

因此,盡管最終用于訓(xùn)練的樣本僅有4000個(gè),但篩選出它們的過(guò)程卻消耗了巨大的計(jì)算資源。

可以說(shuō),強(qiáng)化學(xué)習(xí)在數(shù)據(jù)層面是「樣本高效」的,但在計(jì)算層面絕對(duì)是「樣本低效」的。

這也就是為什么,與預(yù)訓(xùn)練相比,要有效地部署強(qiáng)化學(xué)習(xí)需要規(guī)模大得多的工程團(tuán)隊(duì)。

數(shù)據(jù)即護(hù)城河

總之,Qwen的案例表明:高質(zhì)量數(shù)據(jù)是規(guī)模化應(yīng)用RL的一種至關(guān)重要的資源。

高質(zhì)量數(shù)據(jù)能為模型提供足夠清晰的強(qiáng)化學(xué)習(xí)信號(hào),使其能精確地提升完成特定任務(wù)的能力,而生成這類數(shù)據(jù),往往需要海量的推理計(jì)算。

更廣義地看,普通公司或企業(yè)可以整合自身數(shù)據(jù),并利用 OpenAI 推出的強(qiáng)化微調(diào)(RFT)等服務(wù)。

RFT允許企業(yè)使用自定義的評(píng)分器,并根據(jù)評(píng)分結(jié)果或特定數(shù)據(jù)來(lái)更新模型。顯然,這個(gè)功能目前被低估了,在未來(lái)它將產(chǎn)生深遠(yuǎn)的影響。

事實(shí)上,任何能夠聚合或收集用戶行為的產(chǎn)品都極具價(jià)值,因?yàn)橛脩粜袨閿?shù)據(jù)最終構(gòu)成了最重要的數(shù)據(jù)集。

由此,就能得到一個(gè)有趣的推論:擁有用戶數(shù)據(jù)的AI初創(chuàng)公司,未來(lái)可以在不依賴龐大計(jì)算預(yù)算來(lái)合成數(shù)據(jù)的情況下,利用強(qiáng)化學(xué)習(xí)訓(xùn)練出自己的定制模型。

如果企業(yè)真能搭建起合適的強(qiáng)化學(xué)習(xí)環(huán)境,那么顯然,一個(gè)為企業(yè)深度定制模型的時(shí)代就真的到來(lái)了。

而相比于基礎(chǔ)模型勢(shì)不可擋的發(fā)展步伐,單純?yōu)槠髽I(yè)進(jìn)行微調(diào)的路線,如今基本已宣告失敗。

AI智能體持續(xù)編碼,7個(gè)月翻一番

模型現(xiàn)在能夠長(zhǎng)時(shí)間保持連貫性。

更長(zhǎng)的任務(wù)需要長(zhǎng)時(shí)間內(nèi)穩(wěn)定運(yùn)行的環(huán)境和基礎(chǔ)設(shè)施,這對(duì)工程的要求更高了。

下面的圖表顯示,獨(dú)立編碼任務(wù)的持續(xù)時(shí)間每7個(gè)月翻倍,預(yù)計(jì)非編碼任務(wù)的翻倍速度會(huì)更快。

OpenAI的深度研究是第一個(gè)能連貫工作超過(guò)幾分鐘的模型,我們預(yù)計(jì)這個(gè)能力的上限會(huì)顯著且快速提升。


這里存在一個(gè)矛盾。

智能體任務(wù)經(jīng)濟(jì)價(jià)值極高,但由于其復(fù)雜性和資源密集度,對(duì)強(qiáng)化學(xué)習(xí)(RL)提出了很高的挑戰(zhàn)。

任務(wù)持續(xù)時(shí)間延長(zhǎng)意味著每次強(qiáng)化學(xué)習(xí)迭代也需要更長(zhǎng)的時(shí)間,而這會(huì)拖慢整個(gè)訓(xùn)練過(guò)程。

以計(jì)算機(jī)使用(Computer use)為例,很好地說(shuō)明了長(zhǎng)時(shí)程任務(wù)的許多問(wèn)題。

首先,作為一種智能體任務(wù),它更接近現(xiàn)實(shí)世界的問(wèn)題和行為,這帶來(lái)了新的挑戰(zhàn)。

比如,在計(jì)算機(jī)使用中,智能體會(huì)遇到許多反機(jī)器人的網(wǎng)頁(yè)腳本、驗(yàn)證碼,以及復(fù)雜的Cloudflare保護(hù)功能。

這些問(wèn)題會(huì)時(shí)不時(shí)就會(huì)出現(xiàn)。這樣的細(xì)節(jié)給環(huán)境調(diào)試增加了之前不存在的復(fù)雜性。

此外,計(jì)算機(jī)使用需要大量的虛擬機(jī)(VM)和瀏覽器連接等基礎(chǔ)設(shè)施,這些基礎(chǔ)設(shè)施不僅要長(zhǎng)時(shí)間穩(wěn)定運(yùn)行,還要滿足之前提到的環(huán)境工程要求。

計(jì)算機(jī)使用任務(wù)通常會(huì)持續(xù)數(shù)小時(shí)。這意味著任務(wù)的執(zhí)行時(shí)間變長(zhǎng),獎(jiǎng)勵(lì)變得稀疏。

換句話說(shuō),智能體可能多走十倍的步驟,但只有最后一步才會(huì)獲得獎(jiǎng)勵(lì),這使得強(qiáng)化學(xué)習(xí)的信號(hào)變得更弱。

不僅如此,計(jì)算機(jī)使用還依靠圖像和視頻來(lái)向模型展示正在發(fā)生的事情。

雖然有人嘗試通過(guò)傳輸HTML文件或者設(shè)置網(wǎng)頁(yè)的文本表示來(lái)實(shí)現(xiàn)計(jì)算機(jī)使用,但在這種情況下,模型不能理解圖像的含義。

如果能讓文本表示正常工作,將會(huì)大大降低計(jì)算機(jī)使用的內(nèi)存需求。

環(huán)境計(jì)算也要斥巨資

SemiAnalysis認(rèn)為,在環(huán)境計(jì)算上投入資金而不是僅僅專注于強(qiáng)化學(xué)習(xí)會(huì)有巨大的潛力。

一個(gè)例子是高度真實(shí)且難以獲得獎(jiǎng)勵(lì)的黑客環(huán)境,它利用數(shù)十或數(shù)百個(gè)CPU協(xié)同工作。

這是一個(gè)全新的領(lǐng)域,非常適合擴(kuò)展。這種真實(shí)性可以因?yàn)榧儍舻男盘?hào)而帶來(lái)令人難以置信的性能提升。

未來(lái),這些環(huán)境也會(huì)運(yùn)行在GPU上,模擬真實(shí)世界的數(shù)字孿生。

值得注意的是,這些GPU需要具備圖形渲染能力,比如RTX Pro GPU或消費(fèi)級(jí)GPU。而專門為AI設(shè)計(jì)的GPU和ASIC芯片(如H100、B200、TPU、Trainium等)在圖形渲染方面明顯不足。

因此,大量資源正被投入到為強(qiáng)化學(xué)習(xí)(RL)環(huán)境構(gòu)建的AI世界模型上,而非其他提及的常規(guī)RL環(huán)境。

這將簡(jiǎn)化擴(kuò)展過(guò)程,否則面對(duì)眾多軟硬件,環(huán)境復(fù)雜度會(huì)急劇上升。

可靠、可擴(kuò)展、易于實(shí)現(xiàn)的環(huán)境將會(huì)有極大需求,預(yù)計(jì)這會(huì)成為初創(chuàng)公司蓬勃發(fā)展的領(lǐng)域,已經(jīng)有一些公司開(kāi)始涉足了。

目前的瓶頸不在于模型的能力——像Grok 3已經(jīng)足夠聰明,能處理大部分任務(wù)——而在于與現(xiàn)實(shí)世界互動(dòng)并獲取上下文語(yǔ)境的能力。

SemiAnalysis認(rèn)為這對(duì)AI在科學(xué)領(lǐng)域的應(yīng)用尤其令人興奮。

比如,可以構(gòu)建與實(shí)驗(yàn)室中任何可測(cè)量事物相連的環(huán)境。這種設(shè)置能讓AI智能體控制現(xiàn)實(shí)世界,根據(jù)環(huán)境的反饋來(lái)調(diào)整和改變各種因素。在某些情況下,比如控制爐子的溫度,反饋循環(huán)可能很快,模型可以快速迭代。

然而,在其他高價(jià)值的任務(wù)中,如果實(shí)驗(yàn)耗時(shí)很長(zhǎng),模型就需要有相應(yīng)的長(zhǎng)時(shí)間連貫性。加上需要多次試驗(yàn),這種設(shè)置可能在計(jì)算和物理上都非常苛刻。

在生物學(xué)、半導(dǎo)體制造和材料科學(xué)等領(lǐng)域,考慮模型運(yùn)行和測(cè)試的反饋循環(huán)(比如試驗(yàn)和消融研究)非常重要。這些生物、制造和工業(yè)過(guò)程的速度和驗(yàn)證都有其極限。

某些領(lǐng)域?qū)?qiáng)化學(xué)習(xí)計(jì)算的影響需要更長(zhǎng)的時(shí)間,其他領(lǐng)域則由于可以快速反饋而迅速變化。

物理AI的反饋回路比數(shù)字世界慢,因此需要真正強(qiáng)大的數(shù)字孿生環(huán)境。

一個(gè)關(guān)于「評(píng)估」的類比

打個(gè)粗略的比方:即便是概念上相對(duì)簡(jiǎn)單的模型評(píng)估,實(shí)際運(yùn)行起來(lái)也困難重重。

Docker鏡像會(huì)頻繁崩潰;選擇題中一個(gè)簡(jiǎn)單的格式變動(dòng)(比如將選項(xiàng)從A改為1),就可能讓模型的評(píng)估分?jǐn)?shù)產(chǎn)生高達(dá)5%的波動(dòng)。

在評(píng)估基礎(chǔ)設(shè)施規(guī)模化的初期,Anthropic就曾公開(kāi)討論過(guò)其背后巨大的工程挑戰(zhàn)。

GPQA是一個(gè)常用的評(píng)估基準(zhǔn),用于測(cè)試模型在物理、化學(xué)和生物學(xué)領(lǐng)域研究生水平的問(wèn)題,但它似乎存在一個(gè)「噪聲上限」——盡管它顯示出模型的性能已停滯不前,但由于數(shù)據(jù)集中存在錯(cuò)誤標(biāo)注的答案,模型實(shí)際上不可能達(dá)到100%的準(zhǔn)確率。


隨著智能體任務(wù)的周期越來(lái)越長(zhǎng),問(wèn)題在很多方面都變得愈發(fā)嚴(yán)峻。

模型的行動(dòng)空間(action space)已大幅增加,其行為的連貫時(shí)間(coherence time)也在變長(zhǎng),而要?jiǎng)?chuàng)建能夠衡量這種長(zhǎng)周期能力的評(píng)估方法,本身就極具挑戰(zhàn),同時(shí)也使得評(píng)估的成本顯著升高。

總而言之,評(píng)估基礎(chǔ)設(shè)施的建設(shè),雖然概念不新且看似簡(jiǎn)單,但其過(guò)程中的繁瑣細(xì)節(jié)足以讓人崩潰。

而搭建并擴(kuò)展大規(guī)模的強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施,其難度則要高出幾個(gè)數(shù)量級(jí),面臨的瑣碎問(wèn)題只多不少。

超算GPU配置,RL一并優(yōu)化了

英偉達(dá)為GB200和GB300設(shè)計(jì)的NVL72系統(tǒng),為推理領(lǐng)域帶來(lái)了關(guān)鍵性的進(jìn)步。

其更強(qiáng)的計(jì)算能力可以在更低的延遲下實(shí)現(xiàn)更高的吞吐量,而共享內(nèi)存則為KV緩存提供了更大的擴(kuò)展空間。這不僅讓推理模型在推理階段能進(jìn)行更高效的批處理,也對(duì)強(qiáng)化學(xué)習(xí)產(chǎn)生了深遠(yuǎn)影響。

對(duì)于強(qiáng)化學(xué)習(xí)而言,增加的內(nèi)存帶來(lái)了多方面的能力提升。

首先,它允許針對(duì)一個(gè)給定的問(wèn)題進(jìn)行更多輪次的推演。

其次,它能更好地處理長(zhǎng)周期智能體任務(wù)(long horizon agentic tasks)。

再次,它能支持更大、推理能力更強(qiáng)的模型來(lái)?yè)?dān)任評(píng)判員,這對(duì)于那些結(jié)果難以直接驗(yàn)證的領(lǐng)域尤其有幫助。

最后,強(qiáng)化學(xué)習(xí)這種新范式高度依賴合成數(shù)據(jù)的生成和篩選,而這又離不開(kāi)海量的推理計(jì)算,NVL72系統(tǒng)在這方面表現(xiàn)極為出色。

然而,在實(shí)踐中,算力未被充分利用是一個(gè)難題。


例如在線強(qiáng)化學(xué)習(xí)中,不同采樣副本之間難以做到完美的負(fù)載均衡。

當(dāng)最后一個(gè)推演任務(wù)完成時(shí),第一個(gè)可能早已結(jié)束,造成時(shí)間差和資源閑置。

此外,由于不同的采樣器和訓(xùn)練器可能采用不同的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),權(quán)重的廣播也可能導(dǎo)致顯著的算力閑置。

強(qiáng)化學(xué)習(xí)的各個(gè)階段都需要推理,但與預(yù)訓(xùn)練時(shí)代不同,這些推理任務(wù)不必集中進(jìn)行。

雖然強(qiáng)化學(xué)習(xí)需要大量計(jì)算,但這些計(jì)算任務(wù)不必部署在同一地點(diǎn)。

例如,一個(gè)領(lǐng)域的合成數(shù)據(jù)可以在一個(gè)數(shù)據(jù)中心生成和驗(yàn)證,而模型的訓(xùn)練過(guò)程則可以在另一個(gè)完全不同的數(shù)據(jù)中心進(jìn)行。

隨著強(qiáng)化學(xué)習(xí)在總計(jì)算量中的占比越來(lái)越大,可能會(huì)看到數(shù)據(jù)中心建設(shè)格局的轉(zhuǎn)變。盡管最大規(guī)模的、數(shù)千兆瓦級(jí)的超大型數(shù)據(jù)中心對(duì)于預(yù)訓(xùn)練的規(guī)模化擴(kuò)展仍然是必需的,但強(qiáng)化學(xué)習(xí)究竟能在多大程度上實(shí)現(xiàn)去中心化,目前尚無(wú)定論。

預(yù)訓(xùn)練一次性可能占用數(shù)萬(wàn)塊GPU,但用于強(qiáng)化學(xué)習(xí)的推理算力卻可以根據(jù)可用容量靈活調(diào)配。

這意味著,實(shí)驗(yàn)室現(xiàn)在可以利用非高峰時(shí)段的閑置GPU,來(lái)執(zhí)行其強(qiáng)化學(xué)習(xí)流程中的合成數(shù)據(jù)生成等任務(wù)。

事實(shí)上,SemiAnalysis了解到至少有一家實(shí)驗(yàn)室正在利用其閑置的推理集群來(lái)運(yùn)行這一流程,通過(guò)生成合成數(shù)據(jù),相當(dāng)于為模型訓(xùn)練免費(fèi)提供計(jì)算資源。

未來(lái),推理和訓(xùn)練之間的界限將在各大實(shí)驗(yàn)室中變得越來(lái)越模糊,這將使得除大型訓(xùn)練集群之外的更多計(jì)算資源,也能夠被用于模型能力的提升。

這些閑置算力之所以能「免費(fèi)」地服務(wù)于訓(xùn)練,根本原因在于推理集群的建設(shè)必須按照峰值需求進(jìn)行配置。

Prime Intellect公司的Intellect-2模型就展示了強(qiáng)化學(xué)習(xí)的這種去中心化特性,這是一個(gè)全球分布式運(yùn)行的推理模型。


從硬件設(shè)計(jì)的角度看,日益增長(zhǎng)的推理需求和長(zhǎng)周期智能體任務(wù)使得內(nèi)存變得愈發(fā)重要。

強(qiáng)化學(xué)習(xí)所消耗的浮點(diǎn)運(yùn)算(FLOPs)次數(shù)雖少于預(yù)訓(xùn)練,但其內(nèi)存負(fù)載卻依然很高。

長(zhǎng)遠(yuǎn)來(lái)看,硬件發(fā)展將進(jìn)行調(diào)整以適應(yīng)這一變化,這其中也包括對(duì)網(wǎng)絡(luò)拓?fù)涞纫蛩氐目剂俊?/p>

SemiAnalysis看到,強(qiáng)化學(xué)習(xí)帶來(lái)的改變已遠(yuǎn)不止硬件設(shè)計(jì),它同樣在重塑研究的組織與協(xié)同方式。

AI實(shí)驗(yàn)室重組,RL造成的

語(yǔ)言模型的強(qiáng)化學(xué)習(xí)中,推理(inference)首次與訓(xùn)練過(guò)程發(fā)生了深度的融合。

現(xiàn)在,推理的性能直接影響著訓(xùn)練的速度。

這意味著,生產(chǎn)級(jí)別的推理能力(即快速、高效、低成本的推理)已成為模型訓(xùn)練過(guò)程中不可或缺的一環(huán)。

以往,每個(gè)實(shí)驗(yàn)室都明確區(qū)分「面向產(chǎn)品服務(wù)的推理」和「內(nèi)部推理」(例如,用于模型評(píng)估)。

然而,正因?yàn)閺?qiáng)化學(xué)習(xí)需要進(jìn)行海量的推理計(jì)算,將一個(gè)高度優(yōu)化的推理堆棧直接內(nèi)置于訓(xùn)練堆棧之中,變得至關(guān)重要。

這一趨勢(shì)也體現(xiàn)在了公司的組織架構(gòu)調(diào)整上。

OpenAI 為此合并了其研究團(tuán)隊(duì)與應(yīng)用研究推理團(tuán)隊(duì)。同樣,Anthropic和谷歌也因此對(duì)其產(chǎn)品團(tuán)隊(duì)和內(nèi)部研究團(tuán)隊(duì)進(jìn)行了重大的組織架構(gòu)調(diào)整。

RL讓模型不斷「換血」

預(yù)訓(xùn)練時(shí)代與當(dāng)前模式的一個(gè)顯著區(qū)別在于,強(qiáng)化學(xué)習(xí)可以在模型發(fā)布后持續(xù)進(jìn)行。

這意味著模型可以先發(fā)布,然后通過(guò)持續(xù)的強(qiáng)化學(xué)習(xí)來(lái)擴(kuò)展其能力,并在此基礎(chǔ)上進(jìn)行版本更新。

這種迭代式的開(kāi)發(fā)方法可以為現(xiàn)有模型不斷增添新功能。新版DeepSeek R1的發(fā)布正是如此。

實(shí)際上,這種發(fā)布后的持續(xù)優(yōu)化已是常態(tài)——例如,當(dāng)前的GPT-4o就已經(jīng)歷了多次更新,早已不是最初發(fā)布的版本了。

SemiAnalysis預(yù)計(jì),在這種新范式下,Anthropic將會(huì)對(duì)Claude模型進(jìn)行遠(yuǎn)比以往更頻繁的更新。

不用犧牲編碼,數(shù)據(jù)混合是種解

一種常見(jiàn)的「RL訓(xùn)練」方法是:以一個(gè)目標(biāo)模型為基礎(chǔ),創(chuàng)建多個(gè)副本,分別在特定領(lǐng)域進(jìn)行 RL,最后再合并這些副本的權(quán)重。

盡管這一方法受到多數(shù)人質(zhì)疑,但在Cohere的Command-A模型中得到了應(yīng)用。

通過(guò)這種方式,不同團(tuán)隊(duì)可以按各自的節(jié)奏并行工作,從而加快開(kāi)發(fā)進(jìn)程并簡(jiǎn)化整體流程。

然而挑戰(zhàn)在于,權(quán)重合并后可能導(dǎo)致模型在某些領(lǐng)域的能力,不同程度的下降。

比如,Cohere的模型在合并后,RAG和通用性保持穩(wěn)定,但編碼能力卻有所減弱。

這便帶來(lái)了一個(gè)核心問(wèn)題:是否值得為了提升RAG性能,犧牲編碼能力呢?

為了解決此問(wèn)題,另一種方法是利用批處理(batching)技術(shù)。

它將來(lái)自不同環(huán)境的數(shù)據(jù)混合在一起進(jìn)行訓(xùn)練,因此無(wú)需進(jìn)行模型合并。

這種多環(huán)境批處理方法并非一次只專注于一個(gè)環(huán)境,而是通過(guò)構(gòu)建包含所有領(lǐng)域(如數(shù)學(xué)、代碼、搜索等)混合樣本的訓(xùn)練批,在多個(gè)不同的RL環(huán)境中同步訓(xùn)練單一模型。

它的優(yōu)勢(shì)顯而易見(jiàn),無(wú)需合并模型,并保留了模型的編碼等領(lǐng)域的能力。

不過(guò),這一方法對(duì)團(tuán)隊(duì)協(xié)作和基礎(chǔ)設(shè)施的要求也更高。


RL訓(xùn)練,大廠站在了分岔口

與預(yù)訓(xùn)練相比,RL階段技術(shù)路徑更為復(fù)雜。

在預(yù)訓(xùn)練階段,行業(yè)的技術(shù)路徑相對(duì)清晰,主要是通過(guò)提升參數(shù)規(guī)模和算法效率推動(dòng)LLM性能提升。

然而,RL階段的戰(zhàn)略選擇,直接體現(xiàn)了各家公司權(quán)衡取舍的優(yōu)先級(jí)。

比如,Cohere非常看重RAG,并為了保住這一優(yōu)勢(shì)而做出相應(yīng)選擇。

OpenAI、Anthropic、谷歌的激勵(lì)機(jī)制與目標(biāo)各不相同,這直接影響了他們的數(shù)據(jù)組合策略、RL投入的方式。

這也意味著,在scaling模型路徑上,整個(gè)AI圈百家爭(zhēng)鳴。

過(guò)去,預(yù)訓(xùn)練的競(jìng)賽重點(diǎn)在于如何最快地提升模型規(guī)模,并通過(guò)算法創(chuàng)新來(lái)提高計(jì)算效率。


但在RL領(lǐng)域,規(guī)模化的方式遠(yuǎn)不止擴(kuò)大算力這一種。例如,可以專注于擴(kuò)大某一特定領(lǐng)域的數(shù)據(jù)量。

舉個(gè)例子,Anthropic明顯將重心完全放在代碼性能上。

其他實(shí)驗(yàn)室則將資源投向了不同領(lǐng)域——OpenAI在推出其代碼工具Codex之前,優(yōu)先發(fā)布了Deep Research。

隨著這一范式不斷演進(jìn),各家實(shí)驗(yàn)室的真實(shí)側(cè)重點(diǎn)將變得愈發(fā)清晰,而這些差異在預(yù)訓(xùn)練階段往往難以察覺(jué)的。

Thinking Machines的核心主張之所以引人注目,正是因?yàn)樗麄兊年P(guān)注點(diǎn)與其他實(shí)驗(yàn)室截然不同。


小模型,更適合蒸餾

對(duì)于小模型而言,強(qiáng)化學(xué)習(xí)并非是最佳選擇。

Qwen的實(shí)踐表明,在開(kāi)發(fā)小模型時(shí),蒸餾的效果極其顯著。

具體來(lái)說(shuō),蒸餾是指通過(guò)比較對(duì)同一問(wèn)題的回答,讓小模型(學(xué)生模型)的概率分布向教師模型的概率分布靠攏。

蒸餾通常不像RL那樣,需要進(jìn)行「推演」,這意味著它的資源利用效率要高得多。

Qwen發(fā)現(xiàn),通過(guò)蒸餾,他們能用更少的GPU取得更好的效果。

同樣,OpenAI近期發(fā)布的mini系列模型,也采用了這種方法。

然而,這類小模型的一個(gè)缺點(diǎn)是性能「參差不齊」,或呈現(xiàn)「尖峰效應(yīng)」,即在某些方面表現(xiàn)極其出色,而在其他方面則不然。

相比之下,像GPT-4o這樣的大模型則表現(xiàn)得更為全面。

當(dāng)然,蒸餾的成功離不開(kāi)一個(gè)強(qiáng)大的「教師」模型,這一點(diǎn)是必不可少的。


參考資料:

https://semianalysis.com/2025/06/08/scaling-reinforcement-learning-environments-reward-hacking-agents-scaling-data/

https://x.com/Prashant_1722/status/1932244771436929492


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中超海港2-2浙江!26018人觀賽,蘇超淮安1-1南京,足協(xié)咋應(yīng)對(duì)

中超海港2-2浙江!26018人觀賽,蘇超淮安1-1南京,足協(xié)咋應(yīng)對(duì)

阿柒體訊
2025-06-14 21:37:20
新華社快訊:伊朗從德黑蘭向以色列發(fā)射導(dǎo)彈

新華社快訊:伊朗從德黑蘭向以色列發(fā)射導(dǎo)彈

新華社
2025-06-15 04:21:08
伊朗高層家屬乘私人飛機(jī)逃離德黑蘭前往俄羅斯,內(nèi)塔尼亞胡證實(shí)

伊朗高層家屬乘私人飛機(jī)逃離德黑蘭前往俄羅斯,內(nèi)塔尼亞胡證實(shí)

環(huán)球熱點(diǎn)快評(píng)
2025-06-15 10:02:56
4位廳干(擬)履新,卸任省級(jí)政府副秘書長(zhǎng)后,他轉(zhuǎn)任省廳

4位廳干(擬)履新,卸任省級(jí)政府副秘書長(zhǎng)后,他轉(zhuǎn)任省廳

魯中晨報(bào)
2025-06-14 21:54:05
德黑蘭行動(dòng):現(xiàn)實(shí)比美劇更殘酷

德黑蘭行動(dòng):現(xiàn)實(shí)比美劇更殘酷

Wilsonhe8
2025-06-14 01:37:50
看看溫網(wǎng)的獎(jiǎng)金方案,瞬間覺(jué)得鄭欽文WTA500倫敦賽晉級(jí)四強(qiáng)不香了

看看溫網(wǎng)的獎(jiǎng)金方案,瞬間覺(jué)得鄭欽文WTA500倫敦賽晉級(jí)四強(qiáng)不香了

星光看娛樂(lè)
2025-06-14 14:57:57
夜場(chǎng)女孩和大哥廝混嗎?網(wǎng)友:污了我的眼睛,不純潔了感覺(jué)

夜場(chǎng)女孩和大哥廝混嗎?網(wǎng)友:污了我的眼睛,不純潔了感覺(jué)

解讀熱點(diǎn)事件
2025-06-14 00:05:03
國(guó)務(wù)院原副總理耿飚長(zhǎng)女,所有資產(chǎn)一夜被封后,撂下狠話出走美國(guó)

國(guó)務(wù)院原副總理耿飚長(zhǎng)女,所有資產(chǎn)一夜被封后,撂下狠話出走美國(guó)

曉徙歷史
2024-12-12 16:00:23
7月起,我國(guó)將明令禁止收取這5種物業(yè)費(fèi),業(yè)主們還需早知道!

7月起,我國(guó)將明令禁止收取這5種物業(yè)費(fèi),業(yè)主們還需早知道!

詩(shī)詞中國(guó)
2025-06-14 14:09:57
哈梅內(nèi)伊聲明:要徹底摧毀以色列政權(quán)!伊朗向以方向發(fā)射約150枚導(dǎo)彈!伊軍稱擊落以戰(zhàn)機(jī)并逮捕飛行員

哈梅內(nèi)伊聲明:要徹底摧毀以色列政權(quán)!伊朗向以方向發(fā)射約150枚導(dǎo)彈!伊軍稱擊落以戰(zhàn)機(jī)并逮捕飛行員

每日經(jīng)濟(jì)新聞
2025-06-14 06:41:13
湖人隊(duì)勒布朗·詹姆斯在社交媒體上發(fā)布神秘帖子,暗示即將退役

湖人隊(duì)勒布朗·詹姆斯在社交媒體上發(fā)布神秘帖子,暗示即將退役

好火子
2025-06-15 02:09:38
上海金融精英淪為階下囚!他毀掉了很多家庭,被判無(wú)期徒刑...“這種痛,永遠(yuǎn)讓我窒息”

上海金融精英淪為階下囚!他毀掉了很多家庭,被判無(wú)期徒刑...“這種痛,永遠(yuǎn)讓我窒息”

上觀新聞
2025-06-14 22:33:49
已證實(shí):雙雙遭襲身亡

已證實(shí):雙雙遭襲身亡

FM93浙江交通之聲
2025-06-14 18:20:55
女包公任長(zhǎng)霞:掃黑3年04年意外殉職,卻在司機(jī)身上搜出60萬(wàn)支票

女包公任長(zhǎng)霞:掃黑3年04年意外殉職,卻在司機(jī)身上搜出60萬(wàn)支票

紅史
2025-06-09 13:48:18
湖北27歲大學(xué)生因“無(wú)暫住證”被抓遭毆打致死,護(hù)工:死于心臟病

湖北27歲大學(xué)生因“無(wú)暫住證”被抓遭毆打致死,護(hù)工:死于心臟病

坦然風(fēng)云
2025-06-08 20:30:35
麥迪談火箭經(jīng)歷:09年是唯一有機(jī)會(huì)奪冠的 無(wú)我無(wú)姚都和湖人搶七

麥迪談火箭經(jīng)歷:09年是唯一有機(jī)會(huì)奪冠的 無(wú)我無(wú)姚都和湖人搶七

直播吧
2025-06-14 11:40:21
我國(guó)最大燃機(jī)完成吊裝 計(jì)劃2025年底投產(chǎn)

我國(guó)最大燃機(jī)完成吊裝 計(jì)劃2025年底投產(chǎn)

財(cái)聯(lián)社
2025-06-14 17:31:08
中國(guó)為什么越來(lái)越強(qiáng)硬了?

中國(guó)為什么越來(lái)越強(qiáng)硬了?

寒叔說(shuō)國(guó)際
2025-05-27 08:43:19
348萬(wàn)房產(chǎn)跌至121萬(wàn),女子斷供“送”銀行反欠百萬(wàn)!抵押≠抵債!

348萬(wàn)房產(chǎn)跌至121萬(wàn),女子斷供“送”銀行反欠百萬(wàn)!抵押≠抵債!

一絲不茍的法律人
2025-06-15 07:30:30
江蘇養(yǎng)老金調(diào)整預(yù)測(cè),工齡15年、25年、40年,養(yǎng)老金相差多少?

江蘇養(yǎng)老金調(diào)整預(yù)測(cè),工齡15年、25年、40年,養(yǎng)老金相差多少?

錘不倒的拖油瓶
2025-06-15 06:22:04
2025-06-15 11:43:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
12877文章數(shù) 66068關(guān)注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴(yán)重缺貨

頭條要聞

清華高顏值美女學(xué)霸走紅 本人最新發(fā)聲

頭條要聞

清華高顏值美女學(xué)霸走紅 本人最新發(fā)聲

體育要聞

裁判可以噴,但也從步行者自身找找問(wèn)題?

娛樂(lè)要聞

鳳凰傳奇曾毅塌房?網(wǎng)友:別連累玲花

財(cái)經(jīng)要聞

以伊沖突持續(xù)升級(jí),對(duì)全球市場(chǎng)影響多大

汽車要聞

長(zhǎng)城為了拿環(huán)塔冠軍有多拼?魏建軍在下一盤大棋!

態(tài)度原創(chuàng)

教育
親子
游戲
時(shí)尚
健康

教育要聞

今日上午8點(diǎn)半開(kāi)始,成都百余所高中在王府井科華店等你來(lái)咨詢

親子要聞

幼兒園取消寒暑假?多地教育局回應(yīng)

《誅仙世界》首次回應(yīng)銀價(jià)暴跌;騰訊網(wǎng)易紛紛做出違背祖訓(xùn)的決定

夏天最值得入手的6件單品,全在這了

呼吸科專家破解呼吸道九大謠言!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 色欲网天天无码av| 狠狠综合久久久久综合网站| 57pao成人国产永久免费视频| 无码精品人妻一区二区三区中| 免费看国产曰批40分钟| 麻豆av一区二区三区| 一品道高清一区二区| 亚洲制服另类无码专区| 国产山东熟女48嗷嗷叫| 狠狠色丁香婷婷久久综合| 久热中文字幕无码视频| 亚洲精品国产自在久久| 国产成人无码区免费网站| 国产偷国产偷亚洲高清日韩| 色国产精品一区在线观看| 久久精品欧美日韩精品| 在线观看特色大片免费网站| 久久国产欧美日韩精品图片| 18禁黄久久久aaa片广濑美月| 国内精品久久人妻无码不卡| 精品人伦一区二区三区蜜桃免费| 美国人性欧美xxxx| 成人爽a毛片在线视频| 精产国品一二三产区m553麻豆| 亚洲综合另类小说色区一| 少妇极品熟妇人妻200片| 亚洲av鲁丝一区二区三区黄| 在线高清亚洲精品二区| 国产精品久久福利网站| 精品国产高清毛片a片看| 欧洲亚洲色视频综合在线| 一本精品99久久精品77| 亚洲中文久久精品无码1| 中文字幕 制服 亚洲 另类| 午夜福利一区二区三区在线观看| 四虎精品免费永久免费视频| 久久久久久久99精品国产片| 久久不见久久见www免费| 女人高潮抽搐喷液30分钟视频| 亚洲乱码国产乱码精华| 18禁成人黄网站免费观看|