三分之一個(gè)世紀(jì)前,加拿大學(xué)者們提出了經(jīng)典的MoE模型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在人類探索AI的「石器時(shí)代」中,為后世留下了變革的火種。
近十年前,美國(guó)硅谷的互聯(lián)網(wǎng)巨擎在理論和工程等方面,突破了MoE模型的原始架構(gòu),讓這個(gè)原本被置于學(xué)術(shù)高閣的理念,化身成為了隨后AI競(jìng)爭(zhēng)的導(dǎo)火索。
如今,后發(fā)優(yōu)勢(shì)再一次來(lái)到了大洋此岸,以華為為代表的中國(guó)科技企業(yè),紛紛提出對(duì)MoE架構(gòu)的優(yōu)化重組方案。尤其是華為的MoGE架構(gòu),不僅克服了MoE負(fù)載不均衡及效率瓶頸的弊病,還能夠降本增效,便于訓(xùn)練和部署。
AI之戰(zhàn)遠(yuǎn)未終結(jié),但正如在其他領(lǐng)域中「多快好省」的中國(guó)產(chǎn)業(yè)底色一樣,大模型這棵生于西方長(zhǎng)于彼岸的科技樹(shù),也同樣會(huì)被東方智慧經(jīng)手后,進(jìn)化為更加普適和親切的工具。
近期,虎嗅將打造《華為技術(shù)披露集》系列內(nèi)容,通過(guò)一連串的技術(shù)報(bào)告,首次全面披露相關(guān)的技術(shù)細(xì)節(jié)。
希望本系列內(nèi)容能為業(yè)界起到參考價(jià)值,也希望更多人能與華為一起,共同打造長(zhǎng)期持續(xù)的開(kāi)放協(xié)作生態(tài)環(huán)境,讓昇騰生態(tài)在中國(guó)茁壯成長(zhǎng)。
《華為技術(shù)披露集》系列 VOL.6 :MoGE架構(gòu)
近日,華為盤(pán)古團(tuán)隊(duì)提出了分組混合專家模型(Mixture of Grouped Experts, MoGE)。
基于 MoGE 架構(gòu)構(gòu)建的盤(pán)古 Pro MoE 大模型(72B 總參數(shù)、16B 激活參數(shù))在昇騰 300I Duo 和 800I A2 可實(shí)現(xiàn)更優(yōu)的專家負(fù)載分布與計(jì)算效率(321 tokens/s 和 1528 tokens/s)。
在模型能力方面,盤(pán)古 Pro MoE 在最新一期業(yè)界權(quán)威大模型榜單 SuperCLUE 上交出了超能打的成績(jī),實(shí)現(xiàn)了綜合能力的領(lǐng)先。
具體來(lái)說(shuō),和其他動(dòng)輒千億以上的大模型(如 DeepSeek-R1 具有 671B 參數(shù))相比,盤(pán)古 Pro MoE 以 72B 總參數(shù)量達(dá)到了 59 分,千億參數(shù)量以內(nèi)大模型排行并列國(guó)內(nèi)第一。并且,16B 激活參數(shù)量可以媲美其他廠商更大規(guī)模的模型。
中文技術(shù)報(bào)告:https://gitcode.com/ascend-tribe/pangu-pro-moe/tree/main
英文技術(shù)報(bào)告:https://arxiv.org/pdf/2505.21411
圖源:https://www.superclueai.com/
他們是怎么做到的?
序言
混合專家模型已成為大型語(yǔ)言模型領(lǐng)域的革新范式 —— 近年來(lái),模型與數(shù)據(jù)集規(guī)模呈指數(shù)級(jí)增長(zhǎng),而 MoE 通過(guò)稀疏激活機(jī)制(僅針對(duì)每個(gè) token 激活部分專家子集),在維持高表達(dá)能力的同時(shí)降低計(jì)算開(kāi)銷(xiāo),使其在大規(guī)模應(yīng)用中極具吸引力。
然而,傳統(tǒng) MoE 架構(gòu)面臨的核心挑戰(zhàn)是專家負(fù)載不均衡:當(dāng)部分專家因過(guò)度專業(yè)化或 token 分配過(guò)載時(shí),其他專家則處于低效利用狀態(tài)。由于專家通常分布于多設(shè)備并行執(zhí)行,MoE 模塊的整體時(shí)延往往由承載最多 token 的設(shè)備決定,這種不均衡會(huì)嚴(yán)重?fù)p害計(jì)算效率與系統(tǒng)吞吐量。
針對(duì)這一行業(yè)難題,華為盤(pán)古團(tuán)隊(duì)(以下簡(jiǎn)稱團(tuán)隊(duì))推出全新盤(pán)古 Pro MoE 大模型。
該模型創(chuàng)新性提出分組均衡路由技術(shù),通過(guò)硬約束的負(fù)載均衡策略,確保每個(gè) token 在預(yù)定義的專家分組內(nèi)激活等量專家,這樣就天然的確保了跨設(shè)備的專家負(fù)載均衡;結(jié)合仿真優(yōu)化算法,從層數(shù)、寬度、專家數(shù)等多維度優(yōu)化資源分配,構(gòu)建出昇騰親和的盤(pán)古 Pro MoE 架構(gòu)。同時(shí),深度融合昇騰 300I Duo/800I A2 硬件加速架構(gòu)的并行計(jì)算特性與算子級(jí)編譯優(yōu)化技術(shù),實(shí)現(xiàn)從算法設(shè)計(jì)到系統(tǒng)落地的全棧創(chuàng)新。
實(shí)驗(yàn)表明,盤(pán)古 Pro MoE 在同等算力條件下推理延遲更低,和業(yè)界同規(guī)模大模型相比,通用和復(fù)雜推理綜合精度領(lǐng)先,為超大規(guī)模模型的工業(yè)化部署提供新范式。
接下來(lái),將系統(tǒng)性解析盤(pán)古 Pro MoE 的核心技術(shù)原理與工程實(shí)現(xiàn)路徑。
昇騰原生的 MoGE 新架構(gòu)
從「無(wú)序激活」到「精準(zhǔn)協(xié)同」
傳統(tǒng) Top-K 路由存在無(wú)序激活的缺陷,也就是說(shuō),專家激活無(wú)限制,導(dǎo)致某些專家并行(EP)組負(fù)載過(guò)高(如某些組激活 4 個(gè)專家,某些組專家無(wú)激活),引發(fā)計(jì)算瓶頸和端到端延遲上升。
如下圖所示,子圖 (a) 展示了在專家并行度 (EP)=4 時(shí),從 24 個(gè)專家池中選取 8 個(gè)專家的激活專家分布對(duì)比;子圖 (b) 則呈現(xiàn)了傳統(tǒng) MoE 和本文所提 MoGE 兩種路由機(jī)制下估計(jì)的不平衡分?jǐn)?shù)分布,其中分布估計(jì)的參數(shù)設(shè)定為 N=64(總專家數(shù))、K=8(單 token 選擇專家數(shù))、M=8(組數(shù))、∣X∣=16(輸入序列長(zhǎng)度)。
通過(guò)可視化可觀察到,傳統(tǒng) Top-K 路由易導(dǎo)致專家負(fù)載傾斜。這是基于 MoE 的大模型的行業(yè)痛點(diǎn),負(fù)載不均衡導(dǎo)致硬件資源利用率低下,推理速度無(wú)法線性擴(kuò)展,尤其在分布式訓(xùn)練和推理場(chǎng)景中問(wèn)題加劇。
分組均衡路由
為了解決傳統(tǒng) Top-K 路由無(wú)序激活的問(wèn)題,團(tuán)隊(duì)提出分組均衡路由的設(shè)計(jì)思想:強(qiáng)制每個(gè) Token 在每個(gè)專家組內(nèi)激活相同數(shù)量的專家(如每組激活 1 個(gè)專家,總激活數(shù) = 組數(shù) × 每組激活數(shù)),確保計(jì)算負(fù)載均勻分布。實(shí)現(xiàn)細(xì)節(jié)如下:
· 專家均勻劃分為 M 組(如 64 專家→8 組,每組 8 專家);每組內(nèi)獨(dú)立進(jìn)行 Top-K 路由(如每組 Top-2),全局激活數(shù) = 組數(shù) × 每組激活數(shù)。
· 分組均衡路由的優(yōu)勢(shì)包括:1)吞吐友好: 組間負(fù)載差異為 0,避免跨組通信瓶頸;2)動(dòng)態(tài)擴(kuò)展性:Batch Size 變化時(shí)負(fù)載均衡性穩(wěn)定。
均衡輔助損失
團(tuán)隊(duì)采用 Batch 級(jí)輔助均衡輔助損失函數(shù),其形式定義為:
其中超參數(shù) α 控制輔助損失的強(qiáng)度。此處,f_i 表示批次 B 中被路由到專家 i 的 token 占比,p_i 則代表該專家在整個(gè)批次內(nèi)的平均專家權(quán)重:式中 I {?} 為指示函數(shù),s_i,t 表示 token t 對(duì)專家 i 的門(mén)控得分。
架構(gòu)仿真
基于分組均衡路由的 MoGE 模塊,團(tuán)隊(duì)繼續(xù)通過(guò)仿真設(shè)計(jì)出昇騰親和的模型架構(gòu)。在模型設(shè)計(jì)過(guò)程中,采用分層策略,通過(guò)從粗粒度到細(xì)粒度的漸進(jìn)式調(diào)優(yōu),平衡昇騰 300I Duo 和 800I A2 平臺(tái)上的精度與推理效率。
該策略包含三個(gè)階段:首先,通過(guò)粗粒度篩選依據(jù)單服務(wù)器內(nèi)存帶寬和時(shí)延約束確定參數(shù)范圍;其次,基于領(lǐng)域知識(shí)對(duì)潛在模型進(jìn)行候選集縮減,縮小設(shè)計(jì)空間;最后,利用算子級(jí)仿真器評(píng)估候選模型性能。該仿真器關(guān)聯(lián)系統(tǒng)硬件參數(shù)(如 TFLOPS、內(nèi)存訪問(wèn)帶寬、內(nèi)存容量及互連拓?fù)洌⒆詣?dòng)搜索最優(yōu)并行策略。
通過(guò)分層策略與細(xì)粒度仿真,下圖中標(biāo)橘黃色星的模型在指定條件下展現(xiàn)出對(duì)昇騰 300I Duo 和 800I A2 平臺(tái)的最佳親和性,本文即采用該組超參數(shù)配置。
推理性能
盤(pán)古 Pro MoE 在昇騰平臺(tái)上實(shí)現(xiàn)了混合并行與通信優(yōu)化等軟硬協(xié)同的系統(tǒng)優(yōu)化、量化壓縮等算法優(yōu)化、MulAttention 和 SwiftGMM 等高性能算子優(yōu)化,在一系列模型和系統(tǒng)聯(lián)合優(yōu)化的推理加速技術(shù)加持下,顯著提升了模型的推理效率。
在昇騰 300I Duo 平臺(tái)的支持下,盤(pán)古 Pro MoE 單卡吞吐可達(dá) 201 tokens/s,并通過(guò)引入 MTP 解碼和多 token 優(yōu)化可進(jìn)一步提升至 321 tokens/s,展現(xiàn)出百億級(jí)大模型推理的極致性價(jià)比。
基于昇騰 800I A2 平臺(tái),在低并發(fā)場(chǎng)景下模型可實(shí)現(xiàn)毫秒級(jí)響應(yīng);在高并發(fā)條件下單卡吞吐可達(dá) 1148 tokens/s,結(jié)合 MTP 解碼等聯(lián)合優(yōu)化可提升至 1528 tokens/s,性能大幅領(lǐng)先于同等規(guī)模的 320 億和 720 億參數(shù)稠密模型。
盤(pán)古 Pro MoE 全面賦能業(yè)務(wù)高效落地與大規(guī)模部署,助力各類應(yīng)用場(chǎng)景實(shí)現(xiàn)高性能推理體驗(yàn)。
模型能力
根據(jù)業(yè)界公開(kāi)測(cè)評(píng),盤(pán)古 Pro MoE 基礎(chǔ)模型在跨語(yǔ)言多領(lǐng)域基準(zhǔn)測(cè)試中展現(xiàn)出色性能:英語(yǔ)能力涵蓋通用推理、閱讀理解及常識(shí)推理;邏輯推理能力覆蓋代碼生成和中英雙語(yǔ)數(shù)學(xué)問(wèn)題等;中文評(píng)估則包含知識(shí)問(wèn)答和閱讀理解等,全面驗(yàn)證模型在復(fù)雜認(rèn)知任務(wù)上的通用性與領(lǐng)域適應(yīng)性。
在監(jiān)督微調(diào)與強(qiáng)化學(xué)習(xí)的雙重優(yōu)化下,盤(pán)古 Pro MoE 展現(xiàn)出卓越的復(fù)雜推理能力。
模型在多領(lǐng)域評(píng)測(cè)體系進(jìn)行測(cè)試:通用能力涵蓋英語(yǔ)與中文,代碼能力依托 LiveCodeBench 實(shí)時(shí)編程及 MBPP+,數(shù)學(xué)推理則通過(guò) AIME 競(jìng)賽題、MATH-500 難題及中國(guó)數(shù)學(xué)奧林匹克 (CNMO) 驗(yàn)證。
對(duì)比基線選取同規(guī)模前沿模型,包括開(kāi)源的稠密模型 Qwen3-32B、GLM4-Z1-32B)及 MoE 模型(Llama4 Scout),盤(pán)古 Pro MoE 在復(fù)雜推理任務(wù)上展示出同規(guī)模最優(yōu)的性能。
硬件效率革命
MoE 架構(gòu)中的專家負(fù)載均衡與資源效率提升及模型行為穩(wěn)定性增強(qiáng)相關(guān)。為探究此問(wèn)題,本文對(duì)比分析了主流開(kāi)源 MoE 模型 DeepSeek-V2 和盤(pán)古 Pro MoE 的專家負(fù)載分布。
如下圖所示,DeepSeek-V2 存在顯著失衡,負(fù)載最高的專家處理高達(dá) 30% 的總 token 量;呈現(xiàn)高度集中現(xiàn)象。相比之下,盤(pán)古 Pro MoE 展現(xiàn)出近乎均勻的分布特性,各專家處理 token 占比均約 12.5%,與理論理想值高度吻合。
這種均衡激活模式表明盤(pán)古 Pro MoE 對(duì)專家容量的高效利用,負(fù)載均衡對(duì)大規(guī)模 MoE 模型有助于實(shí)現(xiàn)高效可擴(kuò)展性能。
讓「大模型」回歸實(shí)用場(chǎng)景
盤(pán)古 Pro MoE 的誕生,標(biāo)志著大模型從「參數(shù)軍備競(jìng)賽」轉(zhuǎn)向「實(shí)效主義」:在企業(yè)級(jí)應(yīng)用中,其動(dòng)態(tài)負(fù)載均衡技術(shù)有效降低云端推理成本,支撐高并發(fā)實(shí)時(shí)場(chǎng)景;同時(shí)通過(guò)輕量化推理引擎適配華為昇騰系列芯片,賦能廣大客戶運(yùn)行百億級(jí)模型,為 AI 產(chǎn)業(yè)應(yīng)用領(lǐng)域開(kāi)辟新藍(lán)海。
華為以硬核創(chuàng)新重新定義大模型的價(jià)值。盤(pán)古 Pro MoE 的發(fā)布,不僅是 AI 領(lǐng)域的一次范式革命,更將為全球企業(yè)提供「高效、普惠」的智能底座。即刻體驗(yàn)技術(shù)突破,攜手華為共啟智能新時(shí)代。
本內(nèi)容為作者獨(dú)立觀點(diǎn),不代表虎嗅立場(chǎng)。未經(jīng)允許不得轉(zhuǎn)載,授權(quán)事宜請(qǐng)聯(lián)系 hezuo@huxiu.com
本文來(lái)自虎嗅,原文鏈接:https://www.huxiu.com/article/4401424.html?f=wyxwapp
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.