大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

每2秒吃透一道高數大題!華為終于揭秘準萬億MoE訓練系統全流程

0
分享至

金磊 發自 凹非寺
量子位 | 公眾號 QbitAI

現在,請大家一起數一下“1”、“2”

OK,短短2秒鐘時間,一個準萬億MoE大模型就已經吃透如何解一道高等數學大題了!

而且啊,這個大模型還是不用GPU來訓練,全流程都是大寫的“國產”的那種。



這,就是華為通過“昇騰+Pangu Ultra MoE”這套組合拳解鎖的效果——

不僅實現了國產算力與國產模型全流程自主可控的訓練閉環,更是在集群訓練系統性能方面達到行業領先水平。

有多領先?來看一組數據:

  • 預訓練階段:昇騰Atlas 800T A2萬卡集群MFU提升至41%
  • 后訓練階段:單CloudMatrix 384超節點吞吐達35K Tokens/s

值得一提的是,華為還首次把背后的一大秘籍給亮了出來。

具體來說,華為在這次發布的技術報告中,披露了在昇騰CloudMatrix 384超節點上,高效打通大稀疏比MoE強化學習后訓練框架的關鍵技術。

此舉可以說是讓以強化學習(RL)為核心機制的后訓練,進入到了超節點集群時代。

不用GPU的“煉”出準萬億大模型方法

在深入華為Pangu Ultra MoE訓練系統全流程之前,老規矩,我們還是先來了解一下此前的技術痛點。

整體來看,在當前的MoE預訓練和強化學習后訓練過程中所存在的挑戰可以歸結為六點:

  • 并行策略配置困難
  • 面對數據并行、張量并行、專家并行、流水線并行和序列并行等多種策略的組合選擇,加上稀疏激活導致的負載不平衡因素,很難通過人工經驗找到最優的并行配置方案。
  • All-to-All通信瓶頸
  • 專家并行架構需要進行大規模的token路由交換,這不僅占用大量網絡帶寬資源,還會造成計算資源長時間空閑等待,嚴重影響整體訓練效率。
  • 系統負載分布不均
  • 從注意力機制中序列長度的差異,到專家激活頻率的不平衡,再到流水線并行中各階段的負載分配問題,這些多層次的不均衡現象拖累了整個集群的性能表現。
  • 算子調度開銷過大
  • 動態路由機制引入了大量高頻率的小規模算子操作,增加了系統調度負擔,降低了核心矩陣計算的比重,從而顯著影響NPU的有效利用率。
  • 訓練流程管理復雜
  • 強化學習后訓練涉及多個模型實例和多種訓練任務,包括MoE大模型的訓練和推理階段,整個流程的復雜性給資源分配和系統調度帶來巨大挑戰。
  • 大規模擴展受限
  • 強化學習過程中,訓練與推理階段的參數重新映射機制,以及各計算任務間復雜的數據通信流程,成為制約后訓練大規模部署的主要瓶頸。

即使挑戰如此之多,華為在這段技術報告中依舊是給出了一套完整的端到端全流程解法。

第一招:提升訓練集群利用率

超大規模訓練集群的高效部署是提升預訓練系統性能的關鍵所在。

為此,華為團隊通過并行策略智能選擇、計算通信深度融合、全局動態負載平衡等技術創新,顯著提升了集群整體訓練效率。

首先是建模仿真驅動的智能并行優化。

華為團隊采用如下圖所示的系統建模仿真框架,將原本需要大量人工試錯的并行策略選擇問題轉化為精確的自動化搜索過程。

基于昇騰800T A2訓練集群的硬件特性和約束條件,為Pangu Ultra MoE 718B模型確定了最優部署配置:

  • 16路流水線并行(Pipeline Parallelism)進行模型層間切分
  • 8路張量并行(Tensor Parallelism)專門處理注意力計算
  • 32路專家并行(Expert Parallelism)實現專家模塊分布式計算
  • 2路虛擬流水線并行(Virtual Pipeline Parallelism)提升流水線效率

最終實現了與昇騰架構深度適配的最優化部署方案。



△訓練系統建模仿真流程

其次是Adaptive Pipe前反向通算掩蓋。

為了突破并行擴展中的通信瓶頸問題,華為團隊創新設計了昇騰網絡拓撲適配的分層All-to-All通信去冗余機制,結合細粒度前反向計算重疊編排,成功將大規模MoE訓練中的專家并行通信開銷降至接近零暴露(<2%)

  1. 層次化專家并行通信:華為給出了與昇騰訓練集群拓撲深度適配的多級通信策略。首先在節點間進行去冗余的token收集操作,避免相同token在低帶寬的跨節點鏈路上重復傳輸;隨后利用節點內高帶寬優勢,通過All-to-All通信實現token的冗余分發。這一分層設計顯著提升了專家并行的整體通信效率。
  2. 自適應細粒度前反向掩蓋:針對分層專家并行通信特點,設計了基于虛擬流水線并行(VPP)的細粒度前反向重疊掩蓋策略。相比業界DualPipe掩蓋方案,該策略將權重內存占用減少一半。通過進一步拆解MLP模塊計算流程,充分利用分層專家并行通信中各級帶寬相對獨立的特性,實現算子執行順序的自適應調優,最終將專家并行通信幾乎完全隱藏(未掩蓋比例僅為2%)。

最后是EDP Balance 全局動態負載均衡。

對于MoE模型,模型規模和集群規模的增長會導致專家計算、注意力計算以及各層間的負載不均衡問題相互疊加并被顯著放大。當多種性能瓶頸同時出現時,通信同步等待會在系統中傳播擴散,造成整體性能的嚴重惡化。

華為團隊采用系統性的分析方法,深入剖析專家并行(EP)、數據并行(DP)、流水線并行(PP)各通信域中潛在的負載均衡挑戰,提出了EDP全局負載均衡優化策略。

這個策略不僅通過專家負載預測和動態調節機制(如下圖)實現設備間計算負載的精確平衡,還通過注意力數據重排技術進一步優化了數據并行域間的負載分布效果。

此外,團隊將虛擬流水線并行(VPP)機制與硬件規格特點相結合,設計了最優混合并行架構,有效緩解了模型各層間計算負載分布不均的問題,大幅提升了整體訓練效率。



△基于專家動態遷移的EP間負載均衡整體框架圖

第二招:釋放昇騰單節點算力

在昇騰超大規模集群優化實現突破性進展后,華為團隊將優化焦點轉向底層算子計算效率的深度挖掘。

這個階段的核心工作圍繞昇騰架構深度適配的訓練算子加速展開,通過緩解Host資源瓶頸以及內存優化策略雙重手段,成功將微批處理規模(MBS)提升至原來的兩倍。

同時團隊還對算子調度下發鏈路進行協同優化,最終實現了昇騰單節點算力的全面釋放。

華為團隊的“第二招”,同樣包含三個細分內容;首先就是昇騰親和的訓練算子加速

在大模型訓練計算過程中,FlashAttention、MatMul以及Permute/Unpermute等向量操作算子的執行時間占據了算子總計算耗時的四分之三以上。

針對這些關鍵算子類型,華為團隊充分利用昇騰微架構特性,通過算子流水線排布優化和數學等價冗余計算消除等核心技術手段,實現了訓練算子性能的顯著躍升。

其次是Host-Device協同的算子下發優化

針對同步型間歇性Host-Bound和系統性持續性Host-Bound問題,華為團隊充分發揮昇騰+鯤鵬異構系統協同優勢,構建了分層優化體系來實現高效算子調度:

對于同步型Host-Bound問題,不僅有效消除了同步操作引發的Host資源瓶頸,在無法完全規避同步的場景下,還通過優化鯤鵬處理器的算子下發與調度策略,顯著降低了同步后的Host-Bound開銷。

對于系統性Host-Bound問題,則采用增大微批處理規模(MBS)、鯤鵬CPU NUMA親和性優化等多維度協同手段,大幅提升算子下發效率。

通過算法與系統的深度協同優化,華為團隊成功將MoE模型訓練中的Host-Bound占比控制在2%以下,為超大規模模型訓練探索出了全新的技術范式。

最后是Selective R/S-精準的內存手術方案

華為團隊構建了一個精密的內存優化框架:以豐富多樣的通用化重計算策略和Swap機制作為“精密工具庫”,涵蓋從模塊級到張量級的細粒度優化選項;配合精心設計的自適應內存管理機制作為“智能調度平臺”。

這個框架針對Pangu Ultra MoE 718B模型訓練需求,實現了多維度、定制化的內存資源精確調配。

通過構建最優內存優化策略組合,以精準的資源管理手段最大化釋放內存空間,成功實現了超過70%的激活值內存節省。

即使在微批處理規模(MBS)翻倍帶來的內存壓力挑戰下,這個方案依然為模型的長期穩定訓練提供了可靠保障。

第三招:首次披露高性能可擴展RL后訓練關鍵技術

華為團隊針對強化學習訓練中異構模型和多任務場景導致的資源利用率偏低問題,通過深入的系統分析和創新設計,提出了RL Fusion訓推共卡技術。

這一技術支持訓練推理共卡、全共卡等多種靈活部署模式(如下圖),實現推理階段資源調度的精細化可控管理,支持張量并行(TP)、數據并行(DP)、專家并行(EP)、流水線并行(PP)等多維并行策略的動態無縫切換。

可在秒級時間內完成訓推狀態轉換,最終實現了RL后訓練集群利用率翻倍的顯著提升。



△分離部署、訓推共卡部署、全共卡部署資源利用率示意圖

除此之外,華為團隊還展示了面向大規模集群高效可擴展的后訓練框架

  1. 摒棄全同步迭代方式,設計容忍梯度“陳舊性”的準異步機制StaleSync(如下圖),讓不同RL階段的不同任務在“陳舊度閾值”內并行執行。在保證模型精度的前提下,系統整體訓練吞吐提升50%。
  2. 針對RL階段多任務的處理需求,設計了分布式數據隊列DistQueue,實現不同計算任務之間數據的拆分、緩存與動態讀取。DistQueue對整個后訓練過程中的數據進行管理,有效緩解不同計算任務之間的數據阻塞,為后訓練任務高效調度提供數據支持。



2秒就能讓大模型吃透一道高數大題

通過預訓練和RL后訓練加速技術,華為團隊基于MindSpeed、Megatron以及vLLM框架,打造了昇騰全流程高效訓練系統。

這個系統可支持超大規模集群和超大規模MoE模型,并在Pangu Ultra MoE模型訓練中實現了端到端的流暢訓練。

Pangu Ultra MoE模型擁有7180億參數量,具有大稀疏比和高綜合性能的顯著特點。

其架構包含61層Transformer,前3層為稠密層,后58層為MoE層。模型隱層維度達7680,配備256個路由專家和1個共享專家,專家隱層維度為2048。

在預訓練階段,華為團隊使用6K - 10K卡的昇騰800T A2集群對Pangu Ultra MoE進行訓練。在序列長度為8K、萬卡訓練集群的條件下,模型算力利用率(MFU)創下新高,達到了41%。上述訓練系統具有很強的泛化性,可高效擴展至更大規模參數模型和更大規模卡數集群,同時如果配合昇騰CloudMatrix 384超節點的高速互聯特性,預計可支撐訓練集群MFU > 50%,相關技術迭代實踐結果也將在日后技術報告中發布。

而在RL后訓練階段,于Pangu Ultra MoE昇騰CloudMatrix 384超節點集群的后訓練中,采用訓練推理混合并行策略(訓練:PP16/VPP2/EP32/TP8,推理:PP1/EP64/TP1),并結合異步RL算法與訓練框架系統的協同創新,實現了每超節點35K Tokens/s的高吞吐能力。

同時支持高效擴展超過4K卡的集群,這一效率相當于每2秒就能吃透一道高等數學大題,實現了昇騰超節點吞吐的新突破。

以上便是華為Pangu Ultra MoE訓練系統全流程的深度揭秘了。



感興趣的小伙伴可以再通過完整的技術報告深入了解:
https://gitcode.com/ascend-tribe/ascend-training-system/blob/main/Overview/%E6%98%87%E8%85%BE%E8%B6%85%E5%A4%A7%E8%A7%84%E6%A8%A1Pangu%20MoE%E6%A8%A1%E5%9E%8B%E5%85%A8%E6%B5%81%E7%A8%8B%E9%AB%98%E6%95%88%E8%AE%AD%E7%BB%83%E5%AE%9E%E8%B7%B5.pdf

技術博客地址:
https://gitcode.com/ascend-tribe/ascend-training-system/blob/main/Overview/ascend-training-system-overview.md

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
澤連斯基對華發出邀請后,美國不干了,對烏提要求:不許中國進入

澤連斯基對華發出邀請后,美國不干了,對烏提要求:不許中國進入

任紀煙
2025-06-14 19:23:10
唐玄宗唯一真跡在臺北故宮展出,這字非人臣能寫出,網友:“大唐雄風”!

唐玄宗唯一真跡在臺北故宮展出,這字非人臣能寫出,網友:“大唐雄風”!

書畫博學
2025-06-02 09:24:27
封神2女主被爆高考移民!父親在央視工作,人民日報刪除宣傳視頻

封神2女主被爆高考移民!父親在央視工作,人民日報刪除宣傳視頻

葉公子
2025-06-08 22:23:54
兩名男子偷換男湯/女湯標識牌,導致20多歲女子裸身誤入男浴區

兩名男子偷換男湯/女湯標識牌,導致20多歲女子裸身誤入男浴區

隨波蕩漾的漂流瓶
2025-06-13 16:22:27
伊朗確認巴蓋里喪生,這一輪打擊怎么回事?

伊朗確認巴蓋里喪生,這一輪打擊怎么回事?

新民周刊
2025-06-13 19:52:12
中華人民共和國戶口居民身份證管理工作規范(試行)| 公通字〔2021〕12號

中華人民共和國戶口居民身份證管理工作規范(試行)| 公通字〔2021〕12號

創作者_cLg1
2025-06-13 10:18:38
豐田新一代RAV4內飾首次曝光!照搬凱美瑞,明年首發亮相

豐田新一代RAV4內飾首次曝光!照搬凱美瑞,明年首發亮相

汽車指南針
2025-06-14 11:16:59
關鍵時刻,中俄力挺伊朗,中國代表拿出十年前的協議,硬剛19國

關鍵時刻,中俄力挺伊朗,中國代表拿出十年前的協議,硬剛19國

博覽歷史
2025-06-14 06:20:03
風仍在吹:內伊說要終結以色列政權,但結果即便神權保住也···

風仍在吹:內伊說要終結以色列政權,但結果即便神權保住也···

邵旭峰域
2025-06-14 12:12:16
網傳五糧液10萬噸基地被堵門!此前有報道稱,該項目調減6000多萬

網傳五糧液10萬噸基地被堵門!此前有報道稱,該項目調減6000多萬

火山詩話
2025-06-14 08:15:51
3類牙膏被列入致癌“黑名單”,長期用或有致癌風險?告訴你真相

3類牙膏被列入致癌“黑名單”,長期用或有致癌風險?告訴你真相

DrX說
2025-06-13 12:49:12
挑戰來臨,中國不得不面對!40年來從未出現的3種情況已經到來

挑戰來臨,中國不得不面對!40年來從未出現的3種情況已經到來

山丘樓評
2025-05-23 08:56:36
蒯紀聞來了!第69分鐘,蒯紀聞替換下萊昂納多,迎第6次中超登場

蒯紀聞來了!第69分鐘,蒯紀聞替換下萊昂納多,迎第6次中超登場

直播吧
2025-06-14 17:10:20
英媒:熱刺與姆貝莫的傳聞只是抬價把戲;記者:曼聯為安東尼設置5000萬歐的價格

英媒:熱刺與姆貝莫的傳聞只是抬價把戲;記者:曼聯為安東尼設置5000萬歐的價格

MUREDS
2025-06-14 23:13:41
“我真的跑路了”!又一公司高調暴雷,創始人稱錢早就洗干凈了

“我真的跑路了”!又一公司高調暴雷,創始人稱錢早就洗干凈了

毒sir財經
2025-06-08 23:26:38
菲律賓和廣東同為1億多人口,菲律賓創造3.3萬億,廣東是多少?

菲律賓和廣東同為1億多人口,菲律賓創造3.3萬億,廣東是多少?

快看張同學
2025-06-13 12:40:02
一位上海財經女博士坦言:如果手里有二十萬,建議死啃美人肩戰法

一位上海財經女博士坦言:如果手里有二十萬,建議死啃美人肩戰法

股經縱橫談
2025-05-23 20:53:22
閏土歌手在外養情人了

閏土歌手在外養情人了

毒舌扒姨太
2025-06-13 22:41:57
日本首相確認每人發2萬補助!一家四口最多可領12萬!卻遭國民吐槽:不如減稅!

日本首相確認每人發2萬補助!一家四口最多可領12萬!卻遭國民吐槽:不如減稅!

東京新青年
2025-06-14 18:07:53
揚州賽前5架飛機應援!領隊機長:正好路過順便加油 我就是揚州人

揚州賽前5架飛機應援!領隊機長:正好路過順便加油 我就是揚州人

直播吧
2025-06-14 20:23:12
2025-06-15 03:43:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10666文章數 176166關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

藝術
本地
游戲
時尚
公開課

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

死掉的“賽博初戀”,有誰能夠打贏復活賽?

中年女人少穿黑色和灰色,年輕色穿出減齡效果,看起來嫩十歲

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日韩a∨无码中文无码电影| 亚洲精品一区二区成人| 亚洲精品成人片在线观看| 精品亚洲aⅴ在线无码播放| 中文无码一区二区视频在线播放量| 欧美亚洲人成网站在线观看| 老子影院午夜精品无码| 无码av最新高清无码专区| 亚洲天堂男人| 产精品无码久久_亚洲国产精| 99久久精品国产波多野结衣| 日韩精品人妻系列无码专区| 又黄又爽又色的视频| 人妻无码中文字幕免费视频蜜桃| 日本大乳高潮视频在线观看| 久久精品亚洲精品无码白云tv| 亚洲精品夜夜夜妓女网| 国产人妻xxxx精品hd| 久久精品人人爽人人爽| 日韩午夜精品免费理论片| 丁香婷婷无码不卡在线| 在线观看国产亚洲视频免费| 精品久久久久久亚洲精品| 99热精国产这里只有精品| 久久婷婷五月综合色丁香| 亚洲日韩电影久久| 亚洲成av人片无码迅雷下载| 色欲欲www成人网站| 韩国精品久久久久久无码| 亚洲av成人精品一区二区三区| 在线观看片免费人成视频播放| 九九综合va免费看| 纯肉无遮挡h肉动漫在线观看国产| 国产精成a品人v在线播放| 色欲av巨乳无码一区二区| 18精品久久久无码午夜福利| av无码免费一区二区三区| 在办公室被c到呻吟的动态图| 色欧美片视频在线观看| 在线播放亚洲人成电影| 国产成人av一区二区三区在线|