大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

成本不到150元!李飛飛等26分鐘訓(xùn)出推理模型媲美R1,秘訣:蒸餾

0
分享至

衡宇 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

成本不到150元,訓(xùn)練出一個媲美DeepSeek-R1和OpenAI o1的推理模型?!

這不是洋蔥新聞,而是AI教母李飛飛、斯坦福大學(xué)、華盛頓大學(xué)、艾倫人工智能實(shí)驗(yàn)室等攜手推出的最新杰作:s1

在數(shù)學(xué)和編程能力的評測集上,s1的表現(xiàn)比肩DeepSeek-R1和o1。



而訓(xùn)一個這樣性能的模型,團(tuán)隊(duì)僅僅用了16個英偉達(dá)H100,訓(xùn)練耗時26分鐘。

據(jù)TechCrunch,這個訓(xùn)練過程消耗了不到50美元的云計算成本,約合人民幣364.61元;而s1模型作者之一表示,訓(xùn)練s1所需的計算資源,在當(dāng)下約花20美元(約145.844元)就能租到

怎么做到的???

s1團(tuán)隊(duì)表示,秘訣只有一個:蒸餾

簡單來說,團(tuán)隊(duì)以阿里通義團(tuán)隊(duì)的Qwen2.5- 32B-Instruct作為基礎(chǔ)模型,通過蒸餾谷歌DeepMind的推理模型Gemini 2.0 Flash Thinking實(shí)驗(yàn)版,最終得到了s1模型。

為了訓(xùn)練s1,研究團(tuán)隊(duì)創(chuàng)建了一個包含1000個問題(精心挑選那種)的數(shù)據(jù)集,且每個問題都附有答案,以及Gemini 2.0 Flash Thinking實(shí)驗(yàn)版的思考過程。

目前,項(xiàng)目論文《s1: Simple test-time scaling》已經(jīng)掛上arXiv,模型s1也已在GitHub上開源,研究團(tuán)隊(duì)提供了訓(xùn)練它的數(shù)據(jù)和代碼。

150元成本,訓(xùn)練26分鐘

s1團(tuán)隊(duì)搞這個花活,起因是OpenAI o1展現(xiàn)了Test-time Scaling的能力。

即「在推理階段通過增加計算資源或時間,來提升大模型的性能」,這是原本預(yù)訓(xùn)練Scaling Law達(dá)到瓶頸后的一種新Scaling。

但OpenAI并未公開是如何實(shí)現(xiàn)這一點(diǎn)的。

在復(fù)現(xiàn)狂潮之下,s1團(tuán)隊(duì)的目標(biāo)是尋找到Test-time Scaling的簡單方法



過程中,研究人員先構(gòu)建了一個1000個樣本的數(shù)據(jù)集,名為s1K

起初,在遵循質(zhì)量、難度、多樣性原則的基礎(chǔ)上,這個數(shù)據(jù)集收集了來自MATH、AGIEval等諸多來源的59029個問題。



經(jīng)去重、去噪后,通過質(zhì)量篩選、基于模型性能和推理痕跡長度的難度篩選,以及基于數(shù)學(xué)學(xué)科分類的多樣性篩選,最終留下了一個涵蓋1000個精心挑選過的問題的數(shù)據(jù)集

且每個問題都附有答案,以及谷歌Gemini 2.0 Flash Thinking實(shí)驗(yàn)版的模型思考過程。

這就是最終的s1K。



研究人員表示,Test-time Scaling有2種。

第1種,順序Scaling,較晚的計算取決于焦躁的計算(如較長的推理軌跡)。

第2種,并行Scaling,be like計算獨(dú)立運(yùn)行(如多數(shù)投票任務(wù))。

s1團(tuán)隊(duì)專注于順序這部分,原因是團(tuán)隊(duì)“從直覺上”認(rèn)為它可以起到更好的Scaling——因?yàn)楹竺娴挠嬎憧梢砸灾虚g結(jié)果為基礎(chǔ),從而允許更深入的推理和迭代細(xì)化。

基于此,s1團(tuán)隊(duì)提出了新的順序Scaling方法,以及對應(yīng)的Benchmark。



研究過程中,團(tuán)隊(duì)提出了一種簡單的解碼時間干預(yù)方法budget forcing,在測試時強(qiáng)制設(shè)定最大和/或最小的思考token數(shù)量。

具體來說,研究者使用了一種很簡單的辦法:

直接添加“end-of-thinking token分隔符”和“Final Answer”,來強(qiáng)制設(shè)定思考token數(shù)量上限,從而讓模型提前結(jié)束思考階段,并促使它提供當(dāng)前思考過程中的最佳答案。

為了強(qiáng)制設(shè)定思考過程的token數(shù)量下限,團(tuán)隊(duì)又禁止模型生成“end-of-thinking token分隔符”,并可以選擇在模型當(dāng)前推理軌跡中添加“wait”這個詞,鼓勵它多想想,反思反思當(dāng)前的思考結(jié)果,引導(dǎo)最佳答案。

以下是budget forcing這個辦法的一個實(shí)操示例:



團(tuán)隊(duì)還為budget forcing提供了baseline。

一是條件長度控制方法(Conditional length-control methods),該方法依賴于,在提示中告訴模型它應(yīng)該花費(fèi)多長時間來生成輸出。

團(tuán)隊(duì)按顆粒度將它們分為Token-conditional控制、步驟條件控制和類條件控制。

  • Token-conditional控制:在提示詞中,指定Thinking Tokens的上限;
  • 步驟條件控制:指定一個思考步驟的上限。其中每個步驟約100個tokens;
  • 類條件控制:編寫兩個通用提示,告訴模型思考短時間或長時間。

二是拒絕抽樣(rejection sampling)。

即在抽樣過程中,若某一生成內(nèi)容符合預(yù)先設(shè)定的計算預(yù)算,就停止計算。

該算法通過其長度來捕捉響應(yīng)的后驗(yàn)分布。



而s1模型的整個訓(xùn)練過程,只用了不到半個小時——

團(tuán)隊(duì)在論文中表示,他們使用Qwen2.532B-Instruct模型在s1K數(shù)據(jù)集上進(jìn)行SFT,使用16個英偉達(dá)H100,訓(xùn)練耗時26分鐘

s1研究團(tuán)隊(duì)的Niklas Muennighoff(斯坦福大學(xué)研究員)告訴TechCrunch,訓(xùn)練s1所需的計算資源,在當(dāng)下約花20美元就能租到。

研究新發(fā)現(xiàn):頻繁抑制思考會導(dǎo)致死循環(huán)

訓(xùn)出模型后,團(tuán)隊(duì)選用3個推理基準(zhǔn)測試,把s1-32B和OpenAI o1系列、DeepSeek-R1系列、阿里通義Qwen2.5系列/QWQ、昆侖萬維Sky系列、Gemini 2.0 Flash Thinking實(shí)驗(yàn)版等多個模型進(jìn)行對比。

3個推理基準(zhǔn)測試如下:

  • AIME24:2024年美國數(shù)學(xué)邀請考試中使用的30個問題
  • MATH500:不同難度的競賽數(shù)學(xué)問題的基準(zhǔn)
  • GPQA Diamond:生物、化學(xué)和物理領(lǐng)域的198個博士級問題



整體來說,采用了budget forcing的s1-32B擴(kuò)展了更多的test-time compute。

評測數(shù)據(jù)顯示,s1-32B在MATH500上拿到了93.0的成績,超過o1-mini,媲美o1和DeepSeek-R1

不過,如下圖所示,團(tuán)隊(duì)發(fā)現(xiàn),雖然可以用budget forcing和更多的test-time compute來提高s1在AIME24上的性能,在AIME24上比 o1-preview最高提升27%。

但曲線最終在性能提升6倍后趨于平緩。

由此,團(tuán)隊(duì)在論文中寫道:

過于頻繁地抑制思考結(jié)束標(biāo)記分隔符,會導(dǎo)致模型進(jìn)入重復(fù)循環(huán),而不是繼續(xù)推理。



而如下圖所示,在s1K上訓(xùn)練Qwen2.5-32B-Instruct來得到s1-32B,并為它配備了簡單的budget forcing后,它采用了不同的scaling范式。

具體來說,通過多數(shù)投票在基礎(chǔ)模型上對test-time compute進(jìn)行Scale的方法,訓(xùn)出的模型無法趕上s1-32B的性能。

這就驗(yàn)證了團(tuán)隊(duì)之前的“直覺”,即順序Scaling比并行Scaling更有效



此外,團(tuán)隊(duì)提到,s1-32B僅僅使用了1000個樣本訓(xùn)練,在AIME24上的成績就能接近Gemini 2.0 Thinking,是“樣本效率最高的開源數(shù)據(jù)推理模型”。

研究人員還表示,Budget forcing在控制、縮放和性能指標(biāo)上表現(xiàn)最佳。

而其它方法,如Token-conditional控制、步驟條件控制、類條件控制等,均存在各種問題。

One More Thing

s1模型,是在一個1000個精挑細(xì)選的小樣本數(shù)據(jù)集上,通過SFT,讓小模型能力在數(shù)學(xué)等評測集上性能飆升的研究。

但結(jié)合近期刷爆全網(wǎng)的DeepSeek-R1——以1/50成本比肩o1性能——背后的故事,可以窺見模型推理技術(shù)的更多值得挖掘之處。

模型蒸餾技術(shù)加持下,DeepSeek-R1的訓(xùn)練成本震撼硅谷。

現(xiàn)在,AI教母李飛飛等,又一次運(yùn)用「蒸餾」,花費(fèi)低到令人咋舌的訓(xùn)練成本,做出了一個能媲美頂尖推理模型的32B推理模型。

一起期待大模型技術(shù)更精彩的2025年吧~

arXiv:

https://arxiv.org/pdf/2501.19393

GitHub:

https://github.com/simplescaling/s1

https://techcrunch.com/2025/02/05/researchers-created-an-open-rival-to-openais-o1-reasoning-model-for-under-50/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
保險公司Ategrity紐交所上市:募資1億美元 市值11億美元

保險公司Ategrity紐交所上市:募資1億美元 市值11億美元

雷遞
2025-06-14 19:59:09
史上最嚴(yán)禁酒令來了,公務(wù)員全天禁酒,對哪些行業(yè)影響最大?

史上最嚴(yán)禁酒令來了,公務(wù)員全天禁酒,對哪些行業(yè)影響最大?

小人物看盡人間百態(tài)
2025-06-15 09:35:07
突發(fā)!江蘇鹽城一村干部工作日聚餐飲酒被人舉報,網(wǎng)友:小題大做

突發(fā)!江蘇鹽城一村干部工作日聚餐飲酒被人舉報,網(wǎng)友:小題大做

故衣談歷史
2025-06-15 11:35:08
俄美總統(tǒng)再次通話 普京透露俄準(zhǔn)備調(diào)解伊以沖突 特朗普說他與普京都認(rèn)為以伊沖突應(yīng)該結(jié)束

俄美總統(tǒng)再次通話 普京透露俄準(zhǔn)備調(diào)解伊以沖突 特朗普說他與普京都認(rèn)為以伊沖突應(yīng)該結(jié)束

每日經(jīng)濟(jì)新聞
2025-06-15 10:43:21
讀懂IPO|東莞證券第一大股東債務(wù)危機(jī)致股權(quán)凍結(jié),業(yè)績回升而高層人事頻變

讀懂IPO|東莞證券第一大股東債務(wù)危機(jī)致股權(quán)凍結(jié),業(yè)績回升而高層人事頻變

時代投研
2025-06-13 21:51:27
威少帶妻子度假,甜蜜合影很幸福,拒絕346萬合同,試水自由市場

威少帶妻子度假,甜蜜合影很幸福,拒絕346萬合同,試水自由市場

大西體育
2025-06-14 15:17:33
“踩生”并不是迷信,產(chǎn)科醫(yī)生:第一個抱孩子的人很重要,別不相信

“踩生”并不是迷信,產(chǎn)科醫(yī)生:第一個抱孩子的人很重要,別不相信

等風(fēng)來育兒聯(lián)盟
2025-06-15 09:39:57
毀損海纜被正式判刑!大陸船長認(rèn)罪:不是故意的

毀損海纜被正式判刑!大陸船長認(rèn)罪:不是故意的

國際船舶網(wǎng)
2025-06-14 14:46:46
7國加入戰(zhàn)場,伊朗要被群毆?局勢變成5對2,中方不再靜觀其變

7國加入戰(zhàn)場,伊朗要被群毆?局勢變成5對2,中方不再靜觀其變

阿傖說事
2025-06-14 23:10:38
楊冪劉德華紅毯挽手引尖叫!楊冪:感謝導(dǎo)演給機(jī)會,電影想看就看

楊冪劉德華紅毯挽手引尖叫!楊冪:感謝導(dǎo)演給機(jī)會,電影想看就看

未曾青梅
2025-06-15 09:03:19
美媒爆料:以色列針對伊朗的軍事行動預(yù)計持續(xù)“數(shù)周而非數(shù)日”,該行動獲得美方默許

美媒爆料:以色列針對伊朗的軍事行動預(yù)計持續(xù)“數(shù)周而非數(shù)日”,該行動獲得美方默許

環(huán)球網(wǎng)資訊
2025-06-15 13:56:14
挖2棵以上就定罪!2024年廣東男子挖13萬斤,每斤賣8毛

挖2棵以上就定罪!2024年廣東男子挖13萬斤,每斤賣8毛

萬象硬核本尊
2025-06-13 11:37:17
《醬園弄》上海首映章子怡造型翻車!“蛋糕裙、微商頭”撞臉向太

《醬園弄》上海首映章子怡造型翻車!“蛋糕裙、微商頭”撞臉向太

小娛樂悠悠
2025-06-15 10:12:31
洪秀柱揭秘大陸按兵不動的真相!大陸不會打臺灣,是基于同胞關(guān)系

洪秀柱揭秘大陸按兵不動的真相!大陸不會打臺灣,是基于同胞關(guān)系

談史論天地
2025-06-15 10:55:03
用料最奢侈的一種國標(biāo)木材,天然優(yōu)勢,品質(zhì)無敵

用料最奢侈的一種國標(biāo)木材,天然優(yōu)勢,品質(zhì)無敵

追古談木
2025-06-14 13:02:51
曾毅那塊表,到底惡心了誰!21字的回應(yīng)加了把火!趙又廷慘遭牽連

曾毅那塊表,到底惡心了誰!21字的回應(yīng)加了把火!趙又廷慘遭牽連

小娛樂悠悠
2025-06-15 10:35:24
湖北一縣政協(xié)主席任上被查!曾任紀(jì)委書記

湖北一縣政協(xié)主席任上被查!曾任紀(jì)委書記

瀟湘晨報
2025-06-15 09:52:10
伊朗稱若再受到襲擊將會封鎖霍爾木茲海峽 外交部回應(yīng)

伊朗稱若再受到襲擊將會封鎖霍爾木茲海峽 外交部回應(yīng)

新京報
2025-06-13 16:30:27
伊朗軍頭被一鍋端的真相

伊朗軍頭被一鍋端的真相

難得君
2025-06-14 12:00:08
馬刺媒體發(fā)問:萬一文班亞馬真的退役去當(dāng)一名和尚怎么辦?

馬刺媒體發(fā)問:萬一文班亞馬真的退役去當(dāng)一名和尚怎么辦?

直播吧
2025-06-14 19:50:20
2025-06-15 15:24:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10670文章數(shù) 176168關(guān)注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴(yán)重缺貨

頭條要聞

以色列空襲胡塞武裝高層秘密會議 現(xiàn)場大約有10具尸體

頭條要聞

以色列空襲胡塞武裝高層秘密會議 現(xiàn)場大約有10具尸體

體育要聞

裁判可以噴,但也從步行者自身找找問題?

娛樂要聞

鳳凰傳奇曾毅塌房?網(wǎng)友:別連累玲花

財經(jīng)要聞

以伊沖突持續(xù)升級,對全球市場影響多大

汽車要聞

長城為了拿環(huán)塔冠軍有多拼?魏建軍在下一盤大棋!

態(tài)度原創(chuàng)

本地
家居
親子
數(shù)碼
藝術(shù)

本地新聞

最近的打工人,都在熬夜看這劇逐幀學(xué)習(xí)職場小技巧

家居要聞

森林幾何 極簡灰調(diào)原木風(fēng)

親子要聞

我的爸呀,節(jié)日快樂!還得是我爸

數(shù)碼要聞

全球獨(dú)此一份!黃仁勛簽名RTX 5090黃金版拍出17萬元天價

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 少妇内射高潮福利炮| 欧美交换配乱吟粗大| 妇女bbbbb撒尿正面视频| 国产网曝门亚洲综合在线| 欧美极品色午夜在线视频| 亚洲国产精品自在拍在线播放蜜臀| 亚洲男同志网站| 午夜性色福利在线观看视频| 亚洲区综合区小说区激情区| 国产免费的又黄又爽又色| 四虎影视永久无码精品| 色婷婷综合久色aⅴ五区最新| 国产精品国产高清国产av| 亚洲 暴爽 av人人爽日日碰| 国产精品视频色拍在线视频| 亚洲人和日本人jzz视频| 久久www成人免费网站| 国偷自产一区二区免费视频| 野花香社区在线视频观看播放| h动漫无遮挡成本人h视频| 狠狠色综合网久久久久久| 国产在线线精品宅男网址| 成人啪啪一区二区三区| 人妻少妇被猛烈进入中文字幕| 国产精品久久久久7777按摩| 欧美gv在线观看| 蜜桃视频无码区在线观看| 国产精品熟女视频一区二区| 国产成人+亚洲欧洲+综合| 国产一三四2021不卡| 一二三四在线视频社区3| 中国大陆精品视频xxxx| 人妻体验按摩到忍不住哀求继续| 亚洲人成色777777老人头| 国产日韩综合一区在线观看| 亚洲一区二区三区成人网站| 国产精品99精品久久免费| 少妇人妻无码专区视频免费| 少妇下面好紧好多水真爽播放| 欧洲熟妇色xxxx欧美老妇性| 黑人猛挺进小莹的体内视频|