大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

字節Seed新作:模型合并如何改變大模型預訓練范式

0
分享至



字節跳動 Seed 團隊近期在 arXiv 上發表的論文得到了 ViT 作者,前 Google Brain 最近跳去 OpenAI 的 Lucas Beyer 的親自解讀,Lucas 直言:「這是一篇簡潔的論文,不知怎的讓我回憶起美好的在 Google Brain 的舊時光。(This is a neat paper that somehow made me reminisce good old Brain times. )」



Seed 團隊在這篇論文提出的預訓練模型平均(PMA)技術,通過合并訓練過程中的檢查點(Checkpoint),不僅實現了模型性能的顯著提升,還能精準預測學習率衰減階段的性能表現。這一成果被視為大模型訓練領域的重要突破,甚至可能改變未來大模型開發的范式。





  • 論文標題:Model Merging in Pre-training of Large Language Models
  • 論文地址:https://arxiv.org/pdf/2505.12082

模型合并:從「后訓練」到「預訓練」的跨越

后訓練合并:任務能力的「拼圖游戲」

模型合并并非全新概念,此前主要應用于后訓練階段,即通過合并多個領域微調模型的權重,構建一個多任務能力更強的統一模型。例如,DARE 方法將 WizardLM(通用對話模型)與 WizardMath(數學推理模型)合并后,在 GSM8K 數學推理基準上的得分從 2.2 躍升至 66.3,展現了任務能力融合的強大潛力。

相比之下,預訓練階段的模型合并研究仍較為匱乏。此類預訓練合并通常涉及合并單一訓練軌跡中的檢查點,如 LAWA 中通過模型合并加速 LLM 訓練的探索。然而,隨著模型規模和數據量的急劇增長,社區研究者難以評估模型合并對大規模模型的影響,主要原因在于難以獲取大規模預訓練過程中的中間檢查點。盡管 DeepSeek 和 LLaMA 均表明其在模型開發中使用了模型合并技術,但這些技術的詳細信息尚未公開披露。

預訓練合并:訓練效率的「時光機」

字節跳動的研究將模型合并引入預訓練階段,提出了Pre-trained Model Averaging(PMA)框架。簡單來說,PMA 就是在預訓練過程中,定期將不同訓練階段的模型權重進行平均,生成一個「合并模型」。這是因為:預訓練后期的模型權重往往在參數空間中探索了不同的局部最優解,通過平均化可以抵消單個模型的偏差,逼近更優的全局解。例如,在穩定訓練階段(Constant LR Phase)合并 10 個檢查點后,Seed-MoE-10B/100B 模型在 HumanEval 代碼生成任務上的得分從 54.3 提升至 61.6,漲幅超過 13%。

PMA 技術的三大核心發現

合并時機:穩定期合并效果最佳

研究團隊通過實驗發現,在學習率穩定階段(Warmup-Stable-Decay 中的 Stable Phase)進行模型合并效果最佳。此時模型處于「高效學習期」,權重更新尚未進入衰減階段,不同檢查點之間的參數差異既能保證多樣性,又不會因過度震蕩導致合并后性能下降。



有趣的是,即使在學習率余弦衰減階段(Cosine Decay Phase)的早期進行合并,PMA 模型的性能也能媲美甚至超越自然衰減到末期的模型。例如,Seed-MoE-15B/150B 模型在衰減初期合并后,其性能與訓練至末期的模型相差無幾。



合并策略:簡單平均(SMA)勝過復雜加權

在合并策略的對比實驗中,研究團隊測試了三種主流方法:

  • 簡單移動平均(SMA):所有模型權重等比例平均
  • 指數移動平均(EMA):近期模型權重占比更高
  • 加權移動平均(WMA):按訓練步數線性加權



實驗結果表明,在訓練初期,EMA 和 WMA 因更關注近期權重而表現略好,但隨著訓練推進,三者性能差異逐漸消失。考慮到 SMA 的計算簡單性和穩定性,團隊最終選擇其作為默認策略。這一發現打破了「復雜加權必然更優」的固有認知,為工程落地提供了便利。

超參數規律:模型規模決定合并間隔

合并間隔(V)與模型規模正相關:小模型(如 1.3B 參數的 MoE)適合較小的合并間隔(8B tokens),而大模型(如 100B 參數的 MoE)則可采用更大的間隔(80B tokens)。這與大模型通常使用更大批次訓練的特性一致。

合并數量(N)越多越好:當訓練完成時,合并 15 個檢查點的模型性能比合并 3 個的高近 1 個百分點。但需平衡計算成本,團隊建議實際應用中取 N=10 作為折中方案。



PMA 的「隱藏技能」:訓練穩定性與初始化優化

PMA-init:讓訓練「起死回生」

在大模型訓練中,「損失激增」(Loss Spike)是令人頭疼的問題——硬件故障、參數震蕩等因素可能導致訓練崩潰,不得不從頭再來。PMA 為此提供了一種「急救方案」:當損失激增發生時,合并故障前的 N 個檢查點作為初始化權重(PMA-init),可使訓練恢復穩定。

實驗中,團隊故意用過高的學習率(6e-3)訓練一個 330M 參數的 MoE 模型,導致其損失劇烈震蕩。此時采用 PMA-init 合并 3 個故障前檢查點,訓練曲線迅速恢復平滑,避免了從頭訓練的巨大浪費。



下游階段的「熱身優勢」

在持續訓練(CT)和監督微調(SFT)階段,使用 PMA 合并后的模型作為初始化權重(PMA-init),能顯著改善訓練動態。例如,在 CT 階段,PMA-init 模型的 GradNorm 曲線更加平穩,早期訓練中的 MMLU 得分比基線模型高 1-2 個百分點。盡管最終性能與基線持平,但其「熱身優勢」可加速下游任務的收斂,尤其適合數據敏感型場景。





數學原理:為什么合并能「化平凡為神奇」?



可視化實驗也印證了這一點:在 Seed-MoE-1.3B/13B 模型的某層參數空間中,單個檢查點的權重分布在 MMLU 得分等高線的不同位置,而合并后的權重位置往往更靠近高分區。



挑戰與未來方向

未解決的問題

  • 學習率的影響:當前實驗默認使用縮放定律(Scaling Law)推薦的最優學習率,未深入探索高學習率下 PMA 的表現。理論上,高學習率可能增加參數探索的多樣性,進一步提升合并效果,但受限于算力成本,尚未量化分析。
  • 強化學習階段的應用:論文主要聚焦預訓練,而 RLHF(強化學習從人類反饋中學習)作為大模型訓練的關鍵環節,其檢查點合并的潛力尚未挖掘。這將是未來研究的重要方向。

行業啟示

對于大模型開發者而言,PMA 帶來的不僅是成本節省,更是一種「模擬退火」的思維革命——通過合并穩定期的檢查點,可快速預測衰減階段的性能,避免盲目延長訓練周期。對于中小型企業,這意味著用更少的資源實現 comparable 性能,甚至可能顛覆「大公司壟斷算力」的格局。

結語:開啟高效訓練的新時代

從「暴力堆算力」到「智能優化訓練流程」,大模型的發展正從粗放式增長轉向精細化運營。字節跳動的這項研究,以模型合并為切入點,揭示了預訓練過程中被忽視的「檢查點價值」,為學術界和工業界提供了一條低成本、高效能的新路徑。

正如論文結語所言:「PMA 不僅是一種技術,更是一個監視器——它讓預訓練過程變得可預測、可優化。」隨著更多類似研究的涌現,我們有理由相信,大模型訓練將逐步擺脫「燒錢游戲」的標簽,走向更可持續、更普惠的未來。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
《紐約時報》:特朗普對中國玩過頭了,中國證明其處在強大的地位

《紐約時報》:特朗普對中國玩過頭了,中國證明其處在強大的地位

小鬼頭體育
2025-06-14 16:29:19
阿西莫娃2-1鄭欽文,賽后媒體:熟悉的配方,賽會第一輸得不冤

阿西莫娃2-1鄭欽文,賽后媒體:熟悉的配方,賽會第一輸得不冤

阿覽
2025-06-15 01:53:33
10歲男孩竟在臺風天,獨自一人在海上劃槳板漂流5小時,目前已獲救上岸回家

10歲男孩竟在臺風天,獨自一人在海上劃槳板漂流5小時,目前已獲救上岸回家

魯中晨報
2025-06-14 16:10:13
印度空難有新說法?機長生前留下3字,消息一出,美不許停飛波音

印度空難有新說法?機長生前留下3字,消息一出,美不許停飛波音

嘆知
2025-06-14 21:53:14
梁植誠任廣西壯族自治區紀委監委駐自治區發改委紀檢監察組組長

梁植誠任廣西壯族自治區紀委監委駐自治區發改委紀檢監察組組長

汲古知新
2025-06-15 01:55:04
6月14日俄烏:美反對G7降低俄石油上限,俄軍戰機擊落自家飛機

6月14日俄烏:美反對G7降低俄石油上限,俄軍戰機擊落自家飛機

山河路口
2025-06-14 18:19:12
蘭州一地突發塌陷,天然氣管道受損

蘭州一地突發塌陷,天然氣管道受損

澎湃新聞
2025-06-15 00:28:09
明明自己半瓶水,這幾位還“冒充”歌手開演唱會,難怪被官媒點名

明明自己半瓶水,這幾位還“冒充”歌手開演唱會,難怪被官媒點名

溫讀史
2025-06-12 14:19:44
風仍在吹:內伊說要終結以色列政權,但結果即便神權保住也···

風仍在吹:內伊說要終結以色列政權,但結果即便神權保住也···

邵旭峰域
2025-06-14 12:12:16
F-35被伊朗擊落!女飛行員跳傘后被活捉,以色列淪為第二個印度

F-35被伊朗擊落!女飛行員跳傘后被活捉,以色列淪為第二個印度

大道無形我有型
2025-06-14 11:30:28
30歲男子相親相到初中的班花,自卑得轉身就走:我哪里配得上她

30歲男子相親相到初中的班花,自卑得轉身就走:我哪里配得上她

唐小糖說情感
2025-06-12 08:54:25
視頻丨伊朗開始對以色列發動新一輪導彈襲擊

視頻丨伊朗開始對以色列發動新一輪導彈襲擊

環球網資訊
2025-06-15 07:15:04
上海女子不上班,但卻住豪宅開豪車,警察:她家現金堆成山了

上海女子不上班,但卻住豪宅開豪車,警察:她家現金堆成山了

懸案解密檔案
2025-05-09 18:00:29
以軍稱空襲伊朗國防部總部、核計劃總部及多處石油設施

以軍稱空襲伊朗國防部總部、核計劃總部及多處石油設施

新京報
2025-06-15 07:38:03
巴鐵空軍馳援伊朗,殲-10C掛霹靂-15迎戰F-35?

巴鐵空軍馳援伊朗,殲-10C掛霹靂-15迎戰F-35?

頭條爆料007
2025-06-14 15:21:04
原三鎮股東:因股改階段個別記者不實報道,集團決心退出足球

原三鎮股東:因股改階段個別記者不實報道,集團決心退出足球

懂球帝
2025-06-14 18:09:17
兢兢業業的利物浦老臣,即將告別安菲爾德:為科爾克茲轉會讓路

兢兢業業的利物浦老臣,即將告別安菲爾德:為科爾克茲轉會讓路

里芃芃體育
2025-06-15 08:14:44
街頭的烤鴨能不能吃,為何比活鴨價格便宜這么多?愛吃的快看

街頭的烤鴨能不能吃,為何比活鴨價格便宜這么多?愛吃的快看

農夫也瘋狂
2025-06-10 11:21:09
妥妥的黑店!22歲帝星開口就要1億歐,3家英超豪門恐直接被嚇退

妥妥的黑店!22歲帝星開口就要1億歐,3家英超豪門恐直接被嚇退

零度眼看球
2025-06-15 07:22:47
江西16歲女生約房東在賓館見面,4小時后將其扔進臭水溝

江西16歲女生約房東在賓館見面,4小時后將其扔進臭水溝

風到腰彎
2025-06-13 22:00:22
2025-06-15 08:32:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10640文章數 142338關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

伊朗數小時內或再襲擊 以色列進入"前所未有緊急狀態"

頭條要聞

伊朗數小時內或再襲擊 以色列進入"前所未有緊急狀態"

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

房產
本地
藝術
健康
公開課

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

呼吸科專家破解呼吸道九大謠言!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品美女久久久久| 人妻熟妇乱又伦精品视频中文字幕| 少妇高清一区二区免费看| 欧美日韩一区二区三区在线观看视频| 欧美性xxxx极品少妇| 精品午夜中文字幕熟女人妻在线| 后入内射无码人妻一区| 好紧好湿太硬了我太爽了视频| 国产欧美久久久精品影院| 亚洲精品乱码久久久久久日本蜜臀| 日产乱码一二三区别免费麻豆| 国产欧美日韩一区二区三区在线| 极品熟妇大蝴蝶20p| 国产裸体美女视频全黄扒开| 国产三级aⅴ在在线观看| 99国精品午夜福利视频不卡| 亚洲日韩精品无码专区网址| 亚洲综合无码一区二区| 亚洲精品国产第一区二区尤物| 老太脱裤让老头玩ⅹxxxx| 色一情一乱一伦一区二区三欧美| 波多野结衣乱码中文字幕| 成人免费毛片aaaaaa片| 天天做天天添av国产亚洲| av无码中文一区二区三区四区| 亚洲暴爽av人人爽日日碰| 中国孕妇变态孕交xxxx| 国产老熟妇精品观看| 久久www成人免费网站| 久久久久人妻精品一区蜜桃| 色婷婷香蕉在线一区二区| 丝袜一区二区三区在线播放| 强行糟蹋人妻hd中文| 亚洲理论在线a中文字幕| 国产亚洲精品aaaa片在线播放| 国精品人妻无码一区二区三区性色| 精品国产一区二区三区色欲| 欧美成人高清视频a在线看| 日日碰狠狠添天天爽超碰97久久| 日韩久久无码免费毛片软件| 人妻 日韩精品 中文字幕|