智東西
編譯 王涵
編輯 漠影
智東西5月27日消息,據(jù)華為官方信息,近日在華為昇騰AI開發(fā)者峰會(huì)上,華為昇騰計(jì)算業(yè)務(wù)總裁張迪煊介紹了基于昇騰人工智能(AI)處理器的高性能計(jì)算架構(gòu)“昇騰384超節(jié)點(diǎn)”,該架構(gòu)號(hào)稱可媲美美國半導(dǎo)體公司英偉達(dá)NVL72系統(tǒng)的架構(gòu),能有效緩解數(shù)據(jù)中心瓶頸問題。
“隨著并行處理規(guī)模擴(kuò)大,傳統(tǒng)服務(wù)器架構(gòu)的跨機(jī)帶寬已成為訓(xùn)練關(guān)鍵瓶頸。”張迪煊在會(huì)上說。他提到,滿足未來訓(xùn)練需求需要昇騰384超節(jié)點(diǎn)等創(chuàng)新計(jì)算架構(gòu)。
一、摒棄馮諾依曼架構(gòu),昇騰384超節(jié)點(diǎn)架構(gòu)可連接數(shù)萬顆處理器
華為的超節(jié)點(diǎn)架構(gòu)構(gòu)成其此前公布的CloudMatrix 384系統(tǒng)基礎(chǔ),該集群包含384顆昇騰AI處理器,由12個(gè)計(jì)算柜和4個(gè)總線柜組成,最大算力可達(dá)300 PFLOPS,48TB高速內(nèi)存,(注:1 petaflop=每秒1千萬億次運(yùn)算)。
基于超節(jié)點(diǎn)架構(gòu),華為打造了業(yè)界最大規(guī)模的昇騰384卡超節(jié)點(diǎn),并已在安徽、內(nèi)蒙古和貴州的數(shù)據(jù)中心部署。
華為稱,多個(gè)昇騰384超節(jié)點(diǎn)可以組成十萬卡級(jí)的Atlas 900 SuperCluster超節(jié)點(diǎn)集群,以支持更大規(guī)模的模型訓(xùn)練需求,幫助更多行業(yè)更快實(shí)現(xiàn)智能化和高效化。
華為補(bǔ)充,超節(jié)點(diǎn)打破了以CPU為中心的馮諾依曼架構(gòu),創(chuàng)新提出了對(duì)等計(jì)算架構(gòu)。在超節(jié)點(diǎn)范圍內(nèi),用高速總線互聯(lián)替代傳統(tǒng)以太,通信帶寬提升了15倍,單跳通信時(shí)延也從2微秒做到200納秒,降低了10倍。
▲華為昇騰計(jì)算業(yè)務(wù)總裁張迪軒在昇騰AI開發(fā)者峰會(huì)上演講
二、最適合MoE模型,單卡性能達(dá)到600至750TPS
目前,Mixture-of-Experts(MoE)模型憑借其模型效果成為了主要模型結(jié)構(gòu),然而MoE卻涉及最復(fù)雜的混合并行策略。其中,TP、SP、EP的通信量高達(dá)百GB的級(jí)別,且通常無法掩蓋。隨著并行規(guī)模的增長,傳統(tǒng)服務(wù)器的跨機(jī)帶寬成為訓(xùn)練核心瓶頸,需要通過計(jì)算架構(gòu)的創(chuàng)新,滿足未來訓(xùn)練的需求。
據(jù)華為介紹,昇騰384超節(jié)點(diǎn)架構(gòu)最適合MoE AI模型。華為公布的基準(zhǔn)測(cè)試結(jié)果顯示,超節(jié)點(diǎn)384在處理Meta的LLama 3等密集型AI模型時(shí),單卡性能達(dá)到132 tokens/秒(TPS),是傳統(tǒng)集群的2.5倍。對(duì)于Qwen以及DeepSeek等通信密集型多模態(tài)及MoE模型,華為架構(gòu)的單卡性能達(dá)到600至750 TPS,可以達(dá)到3倍以上的提升。
雖然華為尚未確認(rèn)其新計(jì)算架構(gòu)下部署的是哪款昇騰芯片變體,但SemiAnalysis的一份報(bào)告稱CloudMatrix 384使用了最新的昇騰910C AI處理器,該處理器依靠規(guī)模優(yōu)勢(shì)來抵消單個(gè)芯片性能較弱的不足。
結(jié)語:突破西方封鎖,華為或?qū)⒅厮蹵I訓(xùn)練底層邏輯
除了昇騰384超節(jié)點(diǎn)的技術(shù)分享外,華為在其昇騰AI開發(fā)者峰會(huì)上,還分享了CATLASS算子模板庫、MindIE Motor推理服務(wù)加速庫、持續(xù)升級(jí)分層開放CANN的能力等等內(nèi)容。這一系列舉措旨在為開發(fā)者提供更便捷的開發(fā)環(huán)境,提升模型訓(xùn)練與推理效率,從而推動(dòng)產(chǎn)業(yè)生態(tài)共建。
“華為在芯片上落后一代,但其擴(kuò)展解決方案可以說比英偉達(dá)和超微半導(dǎo)體(AMD)的當(dāng)前市場(chǎng)產(chǎn)品領(lǐng)先一代。”SemiAnalysis報(bào)告稱。
隨著全球AI算力競賽進(jìn)入“白熱化”,華為的創(chuàng)新不僅為數(shù)據(jù)中心瓶頸問題提供了中國方案,更可能重塑下一代AI模型訓(xùn)練的底層邏輯,在算力規(guī)模與能效比之間找到新的平衡點(diǎn),推動(dòng)AI技術(shù)從實(shí)驗(yàn)室走向更廣泛的產(chǎn)業(yè)應(yīng)用。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.