金磊 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
就在剛剛,華為首次亮相了一套“虛”的技術——
數(shù)字化風洞,一個在正式訓推復雜AI模型之前,可以在電腦中“彩排”的虛擬環(huán)境平臺。
這套有種《黑客帝國》意味般的技術(都是通過虛擬世界預演現(xiàn)實),是由華為馬爾科夫建模仿真團隊構建,可以小時級預演萬卡集群方案。
而之所以要在真槍實彈訓推復雜AI模型之前來這么一個步驟,是因為華為研究團隊發(fā)現(xiàn),超過60%的算力浪費在硬件資源錯配與系統(tǒng)耦合上。
于是,就像汽車設計師用風洞測試新車性能一樣,華為通過這個平臺在電腦里模擬AI大模型訓練和推理的過程,便提前發(fā)現(xiàn)問題并優(yōu)化配置。
一言蔽之,為的就是避免浪費時間和算力。
更具體來看,如果把運行大模型類比成開一輛高性能賽車,那么當下的痛點就主要集中在三點:
- 訓練階段:類似猛踩油門,但算力、內(nèi)存、通信如果搭配不當,效率會暴跌;
- 推理階段:任務差異極大,既要短問答(像城市超跑),又要長文本生成(像越野耐力賽),硬件很難同時滿足;
- 萬卡集群:好比管理一個龐大車隊,要避免“堵車”、“故障”,確保長時間穩(wěn)定運行。
而數(shù)字化風洞在這個過程中起到的作用,就像是一位讓AI算力“少踩坑、跑得更快更穩(wěn)”的智能調(diào)度專家。
并且是對上述三大痛點逐一擊破的那種。
Sim2Train:小時級自動尋優(yōu)
訓練大模型這件事可以說是越來越復雜,例如由于參數(shù)量越發(fā)龐大,就會對硬件提出更高的要求,傳統(tǒng)的調(diào)度策略沒法充分發(fā)揮它們的潛力。
因此,華為團隊提出了一個叫做Sim2Train的仿真平臺,用來模擬訓練過程,找到最優(yōu)的硬件配置和訓練策略,讓昇騰設備跑得更快、更高效。
這個平臺主要的發(fā)力點在兩個方面。
首先是模擬訓練過程。
具體的方法叫做動靜態(tài)融合的大規(guī)模訓練集群建模仿真,可以通過模塊化拼裝AI任務流程,像搭積木一樣靈活構建復雜模型,快速分析計算、內(nèi)存和通信的資源消耗。
再結(jié)合對昇騰硬件的深度適配能力,靜態(tài)規(guī)劃與動態(tài)調(diào)優(yōu)雙管齊下,精準提升大規(guī)模訓練集群的運行效率。
其次是自動尋找最優(yōu)方案。
它可以實現(xiàn)面向昇騰平臺的模型結(jié)構智能搜索與優(yōu)化,做到模型性能與功能能力的最優(yōu)均衡。
面對CloudMatrix昇騰超節(jié)點復雜拓撲結(jié)構,Sim2Train還可以做到芯片級、拓撲級與負載級的全棧架構建模與策略聯(lián)合優(yōu)化。
并且基于實時數(shù)據(jù)采集與自動反饋校準機制,完成對硬件的細粒度抽象建模,全面支撐昇騰集群在多樣化負載場景下的高效部署策略自動求解與智能生成。
△Sim2Train訓練仿真系統(tǒng)框架
Sim2Infer:分鐘級動態(tài)加速
除了訓練階段,華為在仿真推理過程中也有妙招——Sim2Infer,讓端到端推理性能提升30%。
它是一個多層級的推理系統(tǒng)建模仿真,核心能力可以分為五點:
- 模擬負載特征:把不同模型和輸入數(shù)據(jù)的計算、內(nèi)存訪問、通信需求用數(shù)學模型表示出來。比如,MoE 模型中,不同專家被激活的頻率、數(shù)據(jù)在不同設備間的傳輸量等。
- 分析硬件架構:從芯片微架構(如3D Cube張量加速引擎)到整個集群的網(wǎng)絡拓撲(如多臺服務器怎么互聯(lián)),全方位模擬硬件性能。
- 描述部署策略:支持配置各種推理策略,比如數(shù)據(jù)并行(多個設備處理不同數(shù)據(jù))、張量并行(拆分計算任務)等,看哪種策略在昇騰上效率最高。
- 驅(qū)動仿真運行:用 “離散事件” 模擬推理過程,比如某個算子何時開始計算、數(shù)據(jù)何時傳輸,精確計算整個推理流程的耗時。
- 自動搜索優(yōu)化:給定約束條件(如延遲不超過20ms),自動搜索最優(yōu)的模型結(jié)構、部署策略和硬件配置。
除此之外,Sim2Infer還通過軟硬協(xié)同的建模仿真驅(qū)動一系列的推理系統(tǒng)創(chuàng)新優(yōu)化。包括:
- 建模分析系統(tǒng)參數(shù)與模型設計因素的關聯(lián)關系,提出昇騰推理親和的MoE模型結(jié)構建議。
- 大EP場景MoE模型的最佳推理部署方案尋優(yōu)。
- 通過多維代價模型建模,從訪存優(yōu)化、負載均衡、計算通信掩蓋、算子融合等多維度實現(xiàn)基于昇騰平臺的軟硬件協(xié)同推理加速創(chuàng)新。
△Sim2Infer推理仿真系統(tǒng)框架
Sim2Availability:秒級故障定位
除了訓推之外,如何保證大模型在諸如萬卡集群上穩(wěn)定、有效運行,也是一個關鍵問題——高可用。
為此,同樣是以仿真的形式,華為的解法便是Sim2Availability。
就像用電腦模擬天氣一樣,這個框架通過建立馬爾科夫模型,在計算機里 “虛擬” 出一個集群,模擬各種故障發(fā)生,檢測及后續(xù)影響和恢復的過程,從而分析如何提升可用度。
Sim2Availability在做模擬的關鍵環(huán)節(jié)包括:
- 故障 “生成器”:模擬各種硬件故障,比如NPU出錯、內(nèi)存錯誤、光模塊閃斷等,還能模擬多種故障同時發(fā)生的情況。
- 故障 “探測器”:模擬如何檢測這些故障,比如通過算法判斷網(wǎng)絡是否變慢、硬件是否異常,檢測的準確性會影響恢復效率。
- 故障 “影響分析”:比如NPU故障會讓訓練中斷,需要重啟;光模塊故障會讓網(wǎng)絡傳輸變慢,導致訓練速度下降。
- 恢復 “策略庫”:針對不同故障設計不同恢復方法,比如 “Step級回滾”(只回退一步訓練數(shù)據(jù))、“進程級恢復”(只重啟有問題的進程)、“全量恢復”(整個作業(yè)重啟)等。
這些環(huán)節(jié)可以高效精準構建集群系統(tǒng)對計算、存儲、網(wǎng)絡的“狀態(tài)監(jiān)控”,通過馬爾科夫鏈刻畫系統(tǒng)的隨機行為,將系統(tǒng)離散化為有限狀態(tài)(如“健康”、“亞健康”、“故障”等),并基于事件驅(qū)動構建狀態(tài)轉(zhuǎn)移模型,從宏觀視角掌控全局硬件系統(tǒng)狀態(tài)。
△Sim2Availability高可用仿真系統(tǒng)框架
以上便是關于華為“數(shù)字化風洞”的大致內(nèi)容,更多詳情可戳。
技術報告地址:
https://gitcode.com/ascend-tribe/ascend-cluster-infra/blob/main/SystemSim/ascend-cluster-infra-sim.md
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.