AMD今日正式發(fā)布CDNA 4架構(gòu)及Instinct MI350系列GPU,新架構(gòu)在計(jì)算密度、能效比和內(nèi)存帶寬方面相比上代產(chǎn)品有顯著的優(yōu)化,同時(shí)支持靈活的硬件分區(qū)和開放 的生態(tài)系統(tǒng),為生成式AI和大語言模型訓(xùn)練與推理帶來突破性的性能提升。
AMD表示,CDNA 4架構(gòu)的優(yōu)點(diǎn)可以總結(jié)為4個(gè)部分,首先是針對生成式AI (GenAI) 和大型語言模型 (LLM) 配置的增強(qiáng)型矩陣引擎,同時(shí)為實(shí)現(xiàn)混合精度運(yùn)算帶來了新數(shù)據(jù)格式的支持,增強(qiáng)的Infinity Fabric總線以及先進(jìn)的封裝互連技術(shù)則為性能提升打下堅(jiān)實(shí)的基礎(chǔ),在這三點(diǎn)基礎(chǔ)上還實(shí)現(xiàn)了能效的進(jìn)一步提升。
AMD Instinct MI350系列GPU
基于CDNA 4架構(gòu)打造的Instinct MI350系列GPU就是這四個(gè)有點(diǎn)的最佳體現(xiàn),其基于迭代升級(jí)后的芯片堆疊封裝工藝打造,采用N3P工藝的加速器復(fù)合核心(XCD)通過COWOS-S封裝技術(shù)堆疊在采用N6工藝的I/O核心(IOD) 之上,3D混合架構(gòu)為帶來了高性能密度和高能效比,IOD-IOD互連以及HBM3E顯存的集成則給予2.5D架構(gòu)打造。
AMD Instinct MI350系列GPU包含有8個(gè)XCD模塊,每個(gè)XCD模塊32組計(jì)算單元,共計(jì)256組,1024個(gè)矩陣核心,每個(gè)XCD配置2MB L2緩存;IOD基于2個(gè)N6工藝核心構(gòu)成,提供有128通道HBM3E顯存接口與256MB容量的AMD Infinity緩存;2個(gè)HBM3E顯存采用8堆棧結(jié)構(gòu),每個(gè)堆棧為12層堆疊的36GB,數(shù)據(jù)頻率為8Gbps,可提供8TB/s的顯存帶寬;內(nèi)部所用的Infinity Fabric AP互聯(lián)帶寬達(dá)到5.5TB/s,外部連接則基于1075GB/s帶寬的第四代Infinity Fabric總線與128GB/s帶寬的PCI-E 5.0接口。
Instinct MI350系列GPU架構(gòu)示意圖
Instinct MI350系列可以支持多達(dá)8個(gè)空間分區(qū),以實(shí)現(xiàn)GPU利用率的最大化,在SPX+NPS1模式下可以運(yùn)行最高520B規(guī)模的AI模型,在CPX+NPS2模式下則支持8組Llama 3.1 70B模型實(shí)例。
8堆棧的HBM3E顯存為Instinct MI350系列GPU帶來了288GB的高容量與8TB/s的高讀取帶寬,可以在對顯存帶寬敏感的應(yīng)用中,帶來明顯的使用體驗(yàn)提升。與上一代的Instinct MI300系列GPU相比,Instinct MI350系列GPU在每瓦HBM顯存讀取帶寬性能上,最高可達(dá)前者的1.3倍。
每CU的HBM讀取帶寬相是前代產(chǎn)品的1.5倍
Instinct MI350系列GPU在數(shù)據(jù)格式支持與性能上相比前代產(chǎn)品有穩(wěn)步提升,首先是實(shí)現(xiàn)了FP6與FP4的支持,這是Instinct MI300系列GPU無法實(shí)現(xiàn)的,F(xiàn)P6與FP4的每CU運(yùn)算速率是FP8的2倍;在FP16/BF16/FP8/FP8/INT8/INT4的運(yùn)行速度上相比上代產(chǎn)品也是有明顯的提升,其中FP16/BF16數(shù)據(jù)吞吐量達(dá)到4K FLOPS/每時(shí)鐘/每CU,F(xiàn)P8數(shù)據(jù)吞吐量則達(dá)到8K FLOPs/每時(shí)鐘/每CU,可以達(dá)到相當(dāng)于前代產(chǎn)品1.9倍的理論運(yùn)算峰值。
基于8個(gè)GPU模塊組成的Instinct MI350系列平臺(tái)的架構(gòu)示意圖
專為AI運(yùn)算的GPU大都是以機(jī)架陣列的形式登場,Instinct MI350系列自然不會(huì)例外。采用第五代EPYC系列處理器、Instinct MI350系列GPU以及AMD Pollara NIC網(wǎng)卡的機(jī)架式陣列系統(tǒng)完全基于開放式標(biāo)準(zhǔn)打造,提供有DLC液冷方案與AC風(fēng)冷方案可選,可滿足不同使用需求的客戶。
基于DLC液冷的MI355X方案整合有128個(gè)Instinct MI355X GPU,擁有36TB HBM3E顯存,可提供644FP FP16/BF16、1.28EF FP8、2.57EF FP6/FP4運(yùn)算性能;基于AC風(fēng)冷的MI350X方案整合有64個(gè)Instinct MI355X GPU,擁有18TB HBM3E顯存,可提供295FP FP16/BF16、590PF FP8、1.18EF FP6/FP4運(yùn)算性能。
AMD ROCm 7平臺(tái)
AMD不僅僅為AI運(yùn)算帶來了硬件上的性能提升,實(shí)際上他們一直致力于為開發(fā)者和用戶帶來全方位的生態(tài)系統(tǒng),這邊是AMD ROCm平臺(tái)所需要實(shí)現(xiàn)的目標(biāo)。在Instinct MI350系列GPU發(fā)布的同時(shí),AMD也帶來了ROCm 7平臺(tái),進(jìn)一步深化生態(tài)系統(tǒng)的協(xié)作。
AMD ROCm 7平臺(tái)不僅加入MI350系列GPU支持,同時(shí)對最新的AI算法與模型的使用也進(jìn)行了深度的適配,為規(guī)?;疉I帶來了更多的先進(jìn)功能,進(jìn)一步提升了集群管理能力以及企業(yè)應(yīng)用的兼容性。
ROCm 7帶來的AI推理能力增強(qiáng)
ROCm 7可以在推理性能帶來明顯的提升,與ROCm 6平臺(tái)相比在Llama 3.1 70B上是后者3.2倍,Qwen2-72B為3.4倍,DeepSeek R1為3.8倍,統(tǒng)計(jì)下為平均3.5倍,可以說性能提升是非常顯著的。
與對手的B200相比,MI355X在DeepSeek R1的FP8吞吐量可以達(dá)到1.3倍
ROCm 7帶來的訓(xùn)練能力增強(qiáng)
在訓(xùn)練能力方面,ROCm 7相比與ROCm 6相比也是有顯著的提升,Llama 2 70B上是后者3倍,Llama 3.1 8B為3倍,Qwen 1.5 7B為3.1倍,統(tǒng)計(jì)下為平均3倍,可以說是全方面位領(lǐng)先于ROCm 6平臺(tái)。
ROCm 7還降低了生成Token的成本
ROCm 7可以利用開放式系統(tǒng)實(shí)現(xiàn)規(guī)模化的分布式推理
ROCm 7可以稱之為“企業(yè)Ready”型平臺(tái),因?yàn)槠湓诙说蕉私鉀Q方案、安全數(shù)據(jù)集成以及便于部署等三個(gè)方面都進(jìn)行了充分的優(yōu)化。
ROCm 7平臺(tái)在企業(yè)AI應(yīng)用中的作用示意圖
AMD ROCm 7平臺(tái)還有一個(gè)重要的特性,那就是其實(shí)現(xiàn)了完整的Windows平臺(tái)支持
AMD致力于為所有需要AI系統(tǒng)的用戶提供合適的解決方案
AMD Pensando Pollara 400 AI NIC網(wǎng)卡
制約AI能力的不僅僅系統(tǒng)陣列本身的性能,對于規(guī)模化的AI陣列而言,陣列之間的互聯(lián)速率往往會(huì)深度影響AI的推理與學(xué)習(xí)能力,總結(jié)下來可以說是有5大制約因素,分別是GPU到GPU的通訊能力,陣列互聯(lián)網(wǎng)絡(luò)的穩(wěn)定性、陣列規(guī)?;y度、運(yùn)維難度以及整體組建成本。
為了可以更好地減少這些制約因素的影響,AMD推出了業(yè)內(nèi)首款基于超以太網(wǎng)絡(luò)協(xié)議打造的AI NIC網(wǎng)卡Pensando Pollara 400,其具有完全可編程的傳輸層,可靈活支持各種網(wǎng)絡(luò)協(xié)議,同時(shí)可以有效降低CPU負(fù)載,PCI-E 5.0接口實(shí)現(xiàn)了高速率的系統(tǒng)連接,無需專用網(wǎng)絡(luò)結(jié)構(gòu)即可輕松擴(kuò)展。
Pensando Pollara AI NIC架構(gòu)示意圖
在RCCL(ROCm集合通訊庫)吞吐量上,Pollara 400 AI NIC的速率是NVIDIA CX7的1.1倍,是博通Thor2的1.2倍,領(lǐng)先于直接的競爭對手。
Pollara 400 AI NIC網(wǎng)卡是UEC Ready產(chǎn)品,其基準(zhǔn)性能方面是RoCEv2產(chǎn)品的1.25倍
AMD可以提供靈活的CPU+GPU+NIC解決方案組合
在推出Pensando Pollara 400 AI NIC網(wǎng)卡之后,結(jié)合ROCm 7平臺(tái)、EPYC處理器以及Instinct系列GPU,AMD已經(jīng)可以從硬件到軟件提供全方位且配置靈活的整體式解決方案,他們也藉此成為了從軟件到硬件都有完整方案的AI計(jì)算設(shè)備廠商,在構(gòu)建開放、靈活、可擴(kuò)展且高性價(jià)比AI基礎(chǔ)設(shè)施的道路上邁出了重要的一步。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.