從硬件到軟件的完整生態(tài)，AMD正式發(fā)布CDNA4架構(gòu)與MI350系列AI GPU

2025-06-13 09:53:02　來源: 小兔子發(fā)現(xiàn)大事情

黑龍江舉報(bào)

分享至

AMD今日正式發(fā)布CDNA 4架構(gòu)及Instinct MI350系列GPU，新架構(gòu)在計(jì)算密度、能效比和內(nèi)存帶寬方面相比上代產(chǎn)品有顯著的優(yōu)化，同時(shí)支持靈活的硬件分區(qū)和開放的生態(tài)系統(tǒng)，為生成式AI和大語言模型訓(xùn)練與推理帶來突破性的性能提升。

AMD表示，CDNA 4架構(gòu)的優(yōu)點(diǎn)可以總結(jié)為4個(gè)部分，首先是針對生成式AI (GenAI) 和大型語言模型 (LLM) 配置的增強(qiáng)型矩陣引擎，同時(shí)為實(shí)現(xiàn)混合精度運(yùn)算帶來了新數(shù)據(jù)格式的支持，增強(qiáng)的Infinity Fabric總線以及先進(jìn)的封裝互連技術(shù)則為性能提升打下堅(jiān)實(shí)的基礎(chǔ)，在這三點(diǎn)基礎(chǔ)上還實(shí)現(xiàn)了能效的進(jìn)一步提升。

AMD Instinct MI350系列GPU

基于CDNA 4架構(gòu)打造的Instinct MI350系列GPU就是這四個(gè)有點(diǎn)的最佳體現(xiàn)，其基于迭代升級(jí)后的芯片堆疊封裝工藝打造，采用N3P工藝的加速器復(fù)合核心(XCD)通過COWOS-S封裝技術(shù)堆疊在采用N6工藝的I/O核心(IOD) 之上，3D混合架構(gòu)為帶來了高性能密度和高能效比，IOD-IOD互連以及HBM3E顯存的集成則給予2.5D架構(gòu)打造。

AMD Instinct MI350系列GPU包含有8個(gè)XCD模塊，每個(gè)XCD模塊32組計(jì)算單元，共計(jì)256組，1024個(gè)矩陣核心，每個(gè)XCD配置2MB L2緩存；IOD基于2個(gè)N6工藝核心構(gòu)成，提供有128通道HBM3E顯存接口與256MB容量的AMD Infinity緩存；2個(gè)HBM3E顯存采用8堆棧結(jié)構(gòu)，每個(gè)堆棧為12層堆疊的36GB，數(shù)據(jù)頻率為8Gbps，可提供8TB/s的顯存帶寬；內(nèi)部所用的Infinity Fabric AP互聯(lián)帶寬達(dá)到5.5TB/s，外部連接則基于1075GB/s帶寬的第四代Infinity Fabric總線與128GB/s帶寬的PCI-E 5.0接口。

Instinct MI350系列GPU架構(gòu)示意圖

Instinct MI350系列可以支持多達(dá)8個(gè)空間分區(qū)，以實(shí)現(xiàn)GPU利用率的最大化，在SPX+NPS1模式下可以運(yùn)行最高520B規(guī)模的AI模型，在CPX+NPS2模式下則支持8組Llama 3.1 70B模型實(shí)例。

8堆棧的HBM3E顯存為Instinct MI350系列GPU帶來了288GB的高容量與8TB/s的高讀取帶寬，可以在對顯存帶寬敏感的應(yīng)用中，帶來明顯的使用體驗(yàn)提升。與上一代的Instinct MI300系列GPU相比，Instinct MI350系列GPU在每瓦HBM顯存讀取帶寬性能上，最高可達(dá)前者的1.3倍。

每CU的HBM讀取帶寬相是前代產(chǎn)品的1.5倍

Instinct MI350系列GPU在數(shù)據(jù)格式支持與性能上相比前代產(chǎn)品有穩(wěn)步提升，首先是實(shí)現(xiàn)了FP6與FP4的支持，這是Instinct MI300系列GPU無法實(shí)現(xiàn)的，F(xiàn)P6與FP4的每CU運(yùn)算速率是FP8的2倍；在FP16/BF16/FP8/FP8/INT8/INT4的運(yùn)行速度上相比上代產(chǎn)品也是有明顯的提升，其中FP16/BF16數(shù)據(jù)吞吐量達(dá)到4K FLOPS/每時(shí)鐘/每CU，F(xiàn)P8數(shù)據(jù)吞吐量則達(dá)到8K FLOPs/每時(shí)鐘/每CU，可以達(dá)到相當(dāng)于前代產(chǎn)品1.9倍的理論運(yùn)算峰值。

基于8個(gè)GPU模塊組成的Instinct MI350系列平臺(tái)的架構(gòu)示意圖

專為AI運(yùn)算的GPU大都是以機(jī)架陣列的形式登場，Instinct MI350系列自然不會(huì)例外。采用第五代EPYC系列處理器、Instinct MI350系列GPU以及AMD Pollara NIC網(wǎng)卡的機(jī)架式陣列系統(tǒng)完全基于開放式標(biāo)準(zhǔn)打造，提供有DLC液冷方案與AC風(fēng)冷方案可選，可滿足不同使用需求的客戶。

基于DLC液冷的MI355X方案整合有128個(gè)Instinct MI355X GPU，擁有36TB HBM3E顯存，可提供644FP FP16/BF16、1.28EF FP8、2.57EF FP6/FP4運(yùn)算性能；基于AC風(fēng)冷的MI350X方案整合有64個(gè)Instinct MI355X GPU，擁有18TB HBM3E顯存，可提供295FP FP16/BF16、590PF FP8、1.18EF FP6/FP4運(yùn)算性能。

AMD ROCm 7平臺(tái)

AMD不僅僅為AI運(yùn)算帶來了硬件上的性能提升，實(shí)際上他們一直致力于為開發(fā)者和用戶帶來全方位的生態(tài)系統(tǒng)，這邊是AMD ROCm平臺(tái)所需要實(shí)現(xiàn)的目標(biāo)。在Instinct MI350系列GPU發(fā)布的同時(shí)，AMD也帶來了ROCm 7平臺(tái)，進(jìn)一步深化生態(tài)系統(tǒng)的協(xié)作。

AMD ROCm 7平臺(tái)不僅加入MI350系列GPU支持，同時(shí)對最新的AI算法與模型的使用也進(jìn)行了深度的適配，為規(guī)?；疉I帶來了更多的先進(jìn)功能，進(jìn)一步提升了集群管理能力以及企業(yè)應(yīng)用的兼容性。

ROCm 7帶來的AI推理能力增強(qiáng)

ROCm 7可以在推理性能帶來明顯的提升，與ROCm 6平臺(tái)相比在Llama 3.1 70B上是后者3.2倍，Qwen2-72B為3.4倍，DeepSeek R1為3.8倍，統(tǒng)計(jì)下為平均3.5倍，可以說性能提升是非常顯著的。

與對手的B200相比，MI355X在DeepSeek R1的FP8吞吐量可以達(dá)到1.3倍

ROCm 7帶來的訓(xùn)練能力增強(qiáng)

在訓(xùn)練能力方面，ROCm 7相比與ROCm 6相比也是有顯著的提升，Llama 2 70B上是后者3倍，Llama 3.1 8B為3倍，Qwen 1.5 7B為3.1倍，統(tǒng)計(jì)下為平均3倍，可以說是全方面位領(lǐng)先于ROCm 6平臺(tái)。

ROCm 7還降低了生成Token的成本

ROCm 7可以利用開放式系統(tǒng)實(shí)現(xiàn)規(guī)模化的分布式推理

ROCm 7可以稱之為“企業(yè)Ready”型平臺(tái)，因?yàn)槠湓诙说蕉私鉀Q方案、安全數(shù)據(jù)集成以及便于部署等三個(gè)方面都進(jìn)行了充分的優(yōu)化。

ROCm 7平臺(tái)在企業(yè)AI應(yīng)用中的作用示意圖

AMD ROCm 7平臺(tái)還有一個(gè)重要的特性，那就是其實(shí)現(xiàn)了完整的Windows平臺(tái)支持

AMD致力于為所有需要AI系統(tǒng)的用戶提供合適的解決方案

AMD Pensando Pollara 400 AI NIC網(wǎng)卡

制約AI能力的不僅僅系統(tǒng)陣列本身的性能，對于規(guī)模化的AI陣列而言，陣列之間的互聯(lián)速率往往會(huì)深度影響AI的推理與學(xué)習(xí)能力，總結(jié)下來可以說是有5大制約因素，分別是GPU到GPU的通訊能力，陣列互聯(lián)網(wǎng)絡(luò)的穩(wěn)定性、陣列規(guī)?；y度、運(yùn)維難度以及整體組建成本。

為了可以更好地減少這些制約因素的影響，AMD推出了業(yè)內(nèi)首款基于超以太網(wǎng)絡(luò)協(xié)議打造的AI NIC網(wǎng)卡Pensando Pollara 400，其具有完全可編程的傳輸層，可靈活支持各種網(wǎng)絡(luò)協(xié)議，同時(shí)可以有效降低CPU負(fù)載，PCI-E 5.0接口實(shí)現(xiàn)了高速率的系統(tǒng)連接，無需專用網(wǎng)絡(luò)結(jié)構(gòu)即可輕松擴(kuò)展。

Pensando Pollara AI NIC架構(gòu)示意圖

在RCCL（ROCm集合通訊庫）吞吐量上，Pollara 400 AI NIC的速率是NVIDIA CX7的1.1倍，是博通Thor2的1.2倍，領(lǐng)先于直接的競爭對手。

Pollara 400 AI NIC網(wǎng)卡是UEC Ready產(chǎn)品，其基準(zhǔn)性能方面是RoCEv2產(chǎn)品的1.25倍

AMD可以提供靈活的CPU+GPU+NIC解決方案組合

在推出Pensando Pollara 400 AI NIC網(wǎng)卡之后，結(jié)合ROCm 7平臺(tái)、EPYC處理器以及Instinct系列GPU，AMD已經(jīng)可以從硬件到軟件提供全方位且配置靈活的整體式解決方案，他們也藉此成為了從軟件到硬件都有完整方案的AI計(jì)算設(shè)備廠商，在構(gòu)建開放、靈活、可擴(kuò)展且高性價(jià)比AI基礎(chǔ)設(shè)施的道路上邁出了重要的一步。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.