大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

RL后訓(xùn)練步入超節(jié)點時代!華為黑科技榨干算力,一張卡干倆活

0
分享至


新智元報道

編輯:KingHZ 桃子

【新智元導(dǎo)讀】RL后訓(xùn)練已成為大模型性能突破的「殺手锏」,而算力浪費和集群效率低成為一大難題。這次,華為團隊祭出兩大黑科技直接破局。不僅在CloudMatrix 384超節(jié)點實現(xiàn)MoE大模型訓(xùn)推共卡,資源利用率翻倍,還打破了同步算法限制,讓訓(xùn)練速度再提升50%。

在大模型競賽白熱化的當(dāng)下,「強化學(xué)習(xí)后訓(xùn)練」已成為突破LLM性能天花板的核心路徑。

爆火出圈的OpenAI o1、DeepSeek-R1等模型,背后都是依靠RL后訓(xùn)練點石成金。

相較于預(yù)訓(xùn)練階段的「廣撒網(wǎng)」式知識獲取,RL 后訓(xùn)練通過驅(qū)動模型與外部環(huán)境進行動態(tài)交互,直接塑造了LLM在復(fù)雜任務(wù)中的推理效能。

當(dāng)前,RL后訓(xùn)練階段已經(jīng)吃掉了訓(xùn)練全流程20%的算力,未來會飆升到50%,直接影響模型的性能和成本。

在傳統(tǒng)RL后訓(xùn)練中,訓(xùn)練和推理得排隊干活,也就說大量算力都在「摸魚」。

對此,華為團隊拿出「RL Fusion訓(xùn)推共卡」和「StaleSync準(zhǔn)異步并行」兩大黑科技,把訓(xùn)練效率和資源利用率拉滿。

· RL Fusion: 讓一張卡同時兼顧訓(xùn)練和推理兩件事,資源利用率和吞吐翻倍。

· StaleSync:打破了同步限制,讓集群擴展效率超90%,訓(xùn)練吞吐再提50%。

CloudMatrix超節(jié)點,就像大模型的「超級加速器」,讓百億、甚至千億級模型訓(xùn)練更快更省。

至此,大模型強化學(xué)習(xí)訓(xùn)練正式邁入超節(jié)點時代!

RL后訓(xùn)練「算力黑洞」

如今,強化學(xué)習(xí),已成為激活大模型推理思考能力的關(guān)鍵buff。

不論是語言模型的對話優(yōu)化,還是多模態(tài)模型的復(fù)雜任務(wù)適配,RL后訓(xùn)練都在提升模型精度、泛化性、用戶體驗方面,發(fā)揮著不可替代的作用。

然而,這種性能提升的代價是巨大的算力需求。

尤其是在現(xiàn)有主流On-Policy算法下,訓(xùn)練與推理的嚴格交替導(dǎo)致了資源利用率低下。

總的來說,RL后訓(xùn)練作為大模型訓(xùn)練最后沖刺階段,面臨著兩大不容忽視的挑戰(zhàn)。

  • On-Policy算法的同步枷鎖

在大模型后訓(xùn)練過程中,Actor模型的訓(xùn)練與推理(生成)過程構(gòu)成主要負載。

在傳統(tǒng)「訓(xùn)推分離」架構(gòu)下,主流的On-Policy策略要求訓(xùn)練和推理任務(wù)交替執(zhí)行,互相等待,導(dǎo)致大量計算資源處于閑置狀態(tài)。

這種「輪流休息」的模式,在小規(guī)模集群場景下已然造成顯著浪費,若在千卡/萬卡集群中更是放大為「算力黑洞」,推高了LLM后訓(xùn)練成本。

因此,訓(xùn)推共卡技術(shù),成為提升集群資源利用率的核心突破口。

  • 大規(guī)模集群的擴展困境

另一方面,隨著MoE模型普及,專家并行(EP)、張量并行(TP)、數(shù)據(jù)并行(DP)等多模型異構(gòu)并行策略組合,使得任務(wù)調(diào)度復(fù)雜度呈指數(shù)級增長。

而現(xiàn)有框架在大規(guī)模集群中,難以讓其實現(xiàn)高效協(xié)同,進而導(dǎo)致了擴展效率顯著下降。

如何通過軟硬協(xié)同打破資源瓶頸,釋放潛在的紅利,成為華為團隊聚焦突破的關(guān)鍵方向。

RL Fusion

一卡干倆活,利用率吞吐翻倍

針對RL后訓(xùn)練資源利用率低的問題,華為團隊深入剖析異構(gòu)模型和多任務(wù)場景的負載特點,提出了創(chuàng)新性的RL Fusion訓(xùn)推共卡技術(shù)

簡單來說,就是讓一張卡既做訓(xùn)練又做推理,效率直接翻倍。

RL Fusion支持訓(xùn)練推理共卡、全共卡等多種靈活部署模式(如圖1),可實現(xiàn)推理階段資源調(diào)度的精細化可控管理。

它還支持張量并行(TP)、數(shù)據(jù)并行(DP)、流水線并行(PP)等多維并行策略的動態(tài)無縫切換,實現(xiàn)計算資源「一箭雙雕」,即在同一計算資源上執(zhí)行Actor模型生成和訓(xùn)練2個任務(wù)。


圖1:訓(xùn)推分離、訓(xùn)推共卡、全共卡部署計算資源利用情況示意圖

值得一提的是,在小規(guī)模場景下,RL Fusion還能把Reference及Reward模型的資源「榨干」,進一步實現(xiàn)「一箭四雕」,效率直接拉滿。

此外,針對大規(guī)模高稀疏比MoE模型,華為通過對訓(xùn)推態(tài)內(nèi)存進行極致分析,首次提出了訓(xùn)推內(nèi)存0冗余切換實現(xiàn)訓(xùn)推EP動態(tài)切換如圖2所示。


圖2:MoE大模型訓(xùn)推EP動態(tài)變化示意圖

在訓(xùn)練態(tài)及推理態(tài)切換過程中,通過「分桶」管理參數(shù),可消除由于EP變化造成的冗余內(nèi)存。

同時,推理時把訓(xùn)練的優(yōu)化器及梯度,完全卸載到主機側(cè),盡可能將NPU內(nèi)存留給推理態(tài),保證長序列下推理階段吞吐(如圖3所示)。


圖3:MoE大模型訓(xùn)推訓(xùn)推內(nèi)存0冗余切換技術(shù)示意圖

不僅如此,通過對訓(xùn)推共卡中權(quán)重通信、內(nèi)存加卸載進行系統(tǒng)性優(yōu)化后,訓(xùn)推切換過程優(yōu)化到秒級,快如閃電。

由此,RL Fusion能讓強化學(xué)習(xí)后訓(xùn)練集群利用率倍增,成本省一大截。

StaleSync

水平擴展效率超90%,訓(xùn)練吞吐再提50%

針對大規(guī)模集群擴展性低的問題華為團隊摒棄全同步迭代方式,設(shè)計了準(zhǔn)異步機制StaleSync(如圖4所示)。

StaleSync機制能容忍梯度「陳舊性」,讓不同RL階段的任務(wù)在「陳舊度閾值」內(nèi)并行執(zhí)行。

這使得CloudMatrix 384超節(jié)點的水平擴展效率超90%。


圖4:StaleSync準(zhǔn)異步并行技術(shù)示意圖

這一創(chuàng)新得益于對RL計算任務(wù)的細致分析。

在RL訓(xùn)練中,研究團隊發(fā)現(xiàn),不同計算任務(wù)的算力需求各異。

基于這一特點,新的后訓(xùn)練系統(tǒng)結(jié)合了共置和分離架構(gòu)的優(yōu)勢,平衡了各個RL計算任務(wù)的資源需求,從而提高了整體硬件資源的利用率。


圖5:共置/分離架構(gòu)下同策訓(xùn)練方案示意圖和缺點

此外,在Actor Rollout過程中,長尾樣本的存在導(dǎo)致了效率的降低。

為了解決此問題,新系統(tǒng)引入了準(zhǔn)異步調(diào)度機制:

當(dāng)生成結(jié)束的樣本達到一定閾值時,數(shù)據(jù)立刻流向下一階段的計算任務(wù),允許未完成的推理樣本的訓(xùn)練存在一定滯后性,從而提高了整體后訓(xùn)練吞吐。

在保證模型精度的前提下,StaleSync方案使系統(tǒng)整體訓(xùn)練吞吐量提升了50%。

背后功臣:數(shù)據(jù)隊列DistQueue

為了滿足StaleSync的數(shù)據(jù)調(diào)度與管理要求,研究團隊專門設(shè)計了分布式數(shù)據(jù)隊列DistQueue。

DistQueue實現(xiàn)了不同計算任務(wù)之間數(shù)據(jù)的拆分、緩存與動態(tài)讀取。

為了提高通信效率,DistQueue采取了分層數(shù)據(jù)傳輸零冗余通信兩項技術(shù),緩解了數(shù)據(jù)系統(tǒng)壓力。

以Pangu 718B-MoE訓(xùn)練并行策略為例(TP8,EP4,PP16),引入分層數(shù)據(jù)傳輸可將DistQueue的負載降低為1/128,從而支持后訓(xùn)練規(guī)模的進一步擴展。


圖6:分層數(shù)據(jù)傳輸技術(shù)示意圖

在后訓(xùn)練中,傳統(tǒng)的樣本Padding補齊方案存在大量冗余通信,降低了通信效率。

對此,研究者引入零冗余通信技術(shù),如圖7所示:

首先將各個樣本在序列維度進行拼接;

在各個進程收到數(shù)據(jù)后,再根據(jù)原始序列長度進行恢復(fù)。

這避免了Padding帶來的額外通信,大大提升了通信效率。

在盤古長序列訓(xùn)練集實測,研究團隊發(fā)現(xiàn)上述優(yōu)化可降低80%以上的通信量,有效支撐大規(guī)模集群訓(xùn)練的擴展效率。


圖7:DistQueue零冗余數(shù)據(jù)傳輸

實測

昇騰超節(jié)點見證效率躍升

RL Fusion與StaleSync的協(xié)同優(yōu)化,形成了「資源復(fù)用+任務(wù)并行」的雙重保障體系,顯著提升了效率。

在RL后訓(xùn)練中,下表1展示了不同加速配置方案對整體性能提升情況。

RL Fusion訓(xùn)推共卡,能夠消除RL后訓(xùn)練中模型級空泡,提高資源利用率,單個超節(jié)點吞吐提升了78.5%。

再結(jié)合StaleSync準(zhǔn)異步技術(shù),可以實現(xiàn)35k token/s吞吐效率,整體可提升1.5倍性能。


表1:單超節(jié)點RL后訓(xùn)練性能分析

表2展示了StaleSync對集群擴展性的提升。

當(dāng)集群規(guī)模從1個超節(jié)點擴展至4個超節(jié)點時,StaleSync 的吞吐從35k tokens/s提升至127k tokens/s,擴展線性度達91%;而全同步方案在同等規(guī)模下吞吐僅從25k tokens/s 增至 85k tokens/s,線性度約為85%。


表2:RL后訓(xùn)練性能分析

結(jié)語

在AI風(fēng)起云涌的當(dāng)下,RL后訓(xùn)練正成為大模型突圍的關(guān)鍵,而效率是決勝的王牌。

昇騰超節(jié)點以RL Fusion和StaleSync兩大殺招,攻克算力浪費和集群擴展的瓶頸,帶來了高效、高擴展、高通用性的集群調(diào)度與融合方案。

一張卡干倆活、流水線永不停,單節(jié)點速度狂飆2.5倍,集群擴展效率突破90%。

它如同一臺「加速引擎」,正為百億、千億級大模型的后訓(xùn)練注入強勁動力,點燃下一代AI效率革命的火花。


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
父親臨終說出大陸有妻兒,女兒跨海尋找哥哥,看到哥哥后愣住了

父親臨終說出大陸有妻兒,女兒跨海尋找哥哥,看到哥哥后愣住了

秋風(fēng)專欄
2025-06-11 16:13:50
是無心,還是有意,廣州地鐵最新線路圖驚現(xiàn)25號線,會成黑馬線嗎

是無心,還是有意,廣州地鐵最新線路圖驚現(xiàn)25號線,會成黑馬線嗎

戶外小阿隋
2025-06-15 10:00:43
潛伏我國30年美國辣醬巨頭,年入450億擊敗老干媽,被誤認是國貨

潛伏我國30年美國辣醬巨頭,年入450億擊敗老干媽,被誤認是國貨

南權(quán)先生
2025-06-12 16:40:46
毛主席幸好在1949年打完解放戰(zhàn)爭:一年后 “五虎將” 三人相繼病

毛主席幸好在1949年打完解放戰(zhàn)爭:一年后 “五虎將” 三人相繼病

近史談
2025-06-14 22:58:10
寧波樓市捷雷不及掩耳,寧波樓市鄞州區(qū)房價從24000元跌至23000元

寧波樓市捷雷不及掩耳,寧波樓市鄞州區(qū)房價從24000元跌至23000元

有事問彭叔
2025-06-13 21:48:39
深圳將迎暴雨局部大暴雨

深圳將迎暴雨局部大暴雨

金臺資訊
2025-06-15 10:55:04
開售即“秒空”!華為Pura 80系列首銷火熱,有消費者冒雨搶購→

開售即“秒空”!華為Pura 80系列首銷火熱,有消費者冒雨搶購→

中國商報
2025-06-14 16:50:14
巴基斯坦買空警-500,把俄羅斯民眾惹急了,質(zhì)問為何不能買20架?

巴基斯坦買空警-500,把俄羅斯民眾惹急了,質(zhì)問為何不能買20架?

現(xiàn)代春秋
2025-06-11 21:59:27
維秘內(nèi)衣女模后臺玩騎大馬疊羅漢動圖流出:評論區(qū)被這群大洋馬饞壞了哈哈

維秘內(nèi)衣女模后臺玩騎大馬疊羅漢動圖流出:評論區(qū)被這群大洋馬饞壞了哈哈

經(jīng)典段子
2025-06-09 23:02:32
新一代機皇!新機官宣:7月份,即將發(fā)布!

新一代機皇!新機官宣:7月份,即將發(fā)布!

Q科技基地
2025-06-15 13:17:24
伊朗擊落以色列F-35戰(zhàn)機?以色列國防軍:假的!

伊朗擊落以色列F-35戰(zhàn)機?以色列國防軍:假的!

政知新媒體
2025-06-14 13:18:33
三石向徐瑤示好,叫爸叫媽了

三石向徐瑤示好,叫爸叫媽了

書中自有顏如玉
2025-06-15 09:52:02
真的惡心!辦公室有同事尿尿長期不沖廁,其他人忍無可忍貼告示了

真的惡心!辦公室有同事尿尿長期不沖廁,其他人忍無可忍貼告示了

火山詩話
2025-06-14 10:47:06
運-20“頭戴大紅花”?總師也來了?

運-20“頭戴大紅花”?總師也來了?

環(huán)球網(wǎng)資訊
2025-06-15 14:39:42
“大尺度”女星的瓜!

“大尺度”女星的瓜!

文刀萬
2025-05-23 06:05:02
越扒越有!那爾那茜和母親玩私人定制,多人合照曝光,關(guān)系網(wǎng)強大

越扒越有!那爾那茜和母親玩私人定制,多人合照曝光,關(guān)系網(wǎng)強大

白面書誏
2025-06-13 17:50:30
伊拉克軍方發(fā)言人:拒絕侵犯伊拉克領(lǐng)空

伊拉克軍方發(fā)言人:拒絕侵犯伊拉克領(lǐng)空

界面新聞
2025-06-15 09:26:34
一個人有沒有官相,一眼便知:當(dāng)官的人,往往都有這5個明顯特征

一個人有沒有官相,一眼便知:當(dāng)官的人,往往都有這5個明顯特征

博覽歷史
2025-06-12 17:23:30
曝清華博士后出軌多名女性,女方高顏值照流出,事發(fā)全過程披露

曝清華博士后出軌多名女性,女方高顏值照流出,事發(fā)全過程披露

博士觀察
2025-06-14 19:54:04
菲律賓做夢也想不到,自己安排的“仁愛礁”破船,對中國幫助很大

菲律賓做夢也想不到,自己安排的“仁愛礁”破船,對中國幫助很大

今墨緣
2025-06-14 18:19:52
2025-06-15 15:35:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
12880文章數(shù) 66068關(guān)注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

以色列空襲胡塞武裝高層秘密會議 現(xiàn)場大約有10具尸體

頭條要聞

以色列空襲胡塞武裝高層秘密會議 現(xiàn)場大約有10具尸體

體育要聞

裁判可以噴,但也從步行者自身找找問題?

娛樂要聞

鳳凰傳奇曾毅塌房?網(wǎng)友:別連累玲花

財經(jīng)要聞

以伊沖突持續(xù)升級,對全球市場影響多大

汽車要聞

長城為了拿環(huán)塔冠軍有多拼?魏建軍在下一盤大棋!

態(tài)度原創(chuàng)

教育
時尚
親子
旅游
房產(chǎn)

教育要聞

新高考“3+1+2”賦分制下,最“吃虧”的3類學(xué)生,建議提前了解

裙子里別穿“安全褲”了!今夏流行這樣穿!

親子要聞

我的爸呀,節(jié)日快樂!還得是我爸

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

房產(chǎn)要聞

又一城購房補貼!買房就發(fā)錢,正在海南樓市瘋狂擴散!

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 亚洲成人色| 中文字幕日产乱码一区| 极品少妇xxxx| 国产精品毛片va一区二区三区| 九九热在线视频精品店| 男女18禁啪啪无遮挡| 午夜爽爽爽男女免费观看hd| 一本之道高清无码视频| 99久久婷婷国产综合精品电影| 欧美、另类亚洲日本一区二区| 亚洲欧美另类激情综合区| 少妇特黄a片一区二区三区| 夜夜躁狠狠躁日日躁视频| 国产不卡精品视频男人的天堂| 98国产精品综合一区二区三区| 精品第一国产综合精品aⅴ| 国模无码一区二区三区不卡| 久久精品国产精品亚洲色婷婷| 老熟女 露脸 嗷嗷叫| 国产精品美女www爽爽爽视频| 99久久国产综合精品swag| 日韩精品无码久久一区二区三| 精品国产一区二区三区国产区| 国产精品一区波多野结衣| 大地资源网第二页免费观看| 日日摸夜夜添无码无码av| 国产裸体歌舞一区二区| 日本精品无码一区二区三区久久久| 色悠久久久久久久综合网| 人妻丰满av无码久久不卡| 丰满人妻熟妇乱又伦精品视| 成人无码精品1区2区3区免费看| 国产精品videossex久久发布| 播放灌醉水嫩大学生国内精品| 国产性夜夜春夜夜爽1a片| 人成午夜免费视频在线观看| 国产精品久久午夜夜伦鲁鲁| 国产成人精品怡红院在线观看| 欧洲熟妇色xxxxx欧美| 无码avav无码中文字幕| 在线播放亚洲人成电影|