算力、能效、內(nèi)存性能全面升級！CDNA 4架構(gòu)AMD Instinct MI350系列GPU解析

2025-06-13 09:01:43　來源: 中關(guān)村在線

北京舉報

分享至

【中關(guān)村在線原創(chuàng)技術(shù)解析】進入AI PC時代，ADVANCING AI峰會成為AMD這家半導(dǎo)體行業(yè)巨頭與合作伙伴、開發(fā)者、用戶以及產(chǎn)業(yè)鏈生態(tài)聯(lián)盟溝通的橋梁。

就在剛剛，ADVANCING AI 2025成功舉辦。AMD在本次峰會期間公布了全新的CDNA 4 GPU架構(gòu)，發(fā)布了AMD Instinct MI350系列GPU以及全新的ROCm 7，同時還針對AI時代面臨的網(wǎng)絡(luò)挑戰(zhàn)，再次分享了AMD Pensando Pollara 400 NIC網(wǎng)卡的技術(shù)特性，至此，從CPU（EPYC）到GPU（Instinct），從前端網(wǎng)絡(luò)到縱向/橫向擴展網(wǎng)絡(luò)，AMD能夠為行業(yè)用戶提供完整的AI系統(tǒng)解決方案。

除了全新的Instinct MI350系列GPU之外，AMD還預(yù)先披露了2026年即將發(fā)布的MI400系列GPU，它將把AI高性能計算GPU產(chǎn)品帶入一個全新時代。

·CDNA 4架構(gòu)與Instinct MI350系列GPU為AI計算而生

近年來，伴隨著AI技術(shù)不斷發(fā)展和突破，GPU成為最具AI生產(chǎn)力價值的核心硬件。全新的AMD CDNA 4架構(gòu)，其核心設(shè)計理念就是聚焦在AI加速計算。因此，它集成了用于生成式人工智能和大語言模型的增強型矩陣引擎；支持混合型計算精度的全新數(shù)據(jù)格式；采用增強型無限互聯(lián)架構(gòu)與先進封裝技術(shù)打造了Instinct MI350系列GPU，并且在能效方面實現(xiàn)進一步提升。

作為首個采用CNDA 4架構(gòu)的AI加速卡，Instinct MI350系列GPU包含了峰值功耗1000W、面向風(fēng)冷系統(tǒng)的Instinct MI350X以及峰值功耗1400W、性能更加強勁的面向液冷散熱系統(tǒng)的Instinct MI355X。

其架構(gòu)包含TSMC N3P工藝打造的XCD，并通過先進封裝技術(shù)堆疊在TSMC N6工藝打造的IOD。并在HBM3E內(nèi)存與IOD之間采用了2.5D封裝技術(shù)進行整合。總體實現(xiàn)了在小尺寸芯片上采用臺積電成熟的CoWoS-S封裝技術(shù)。該技術(shù)通過在較大的硅中介層區(qū)域上提供高密度互連和深溝槽電容器，以容納各種功能性頂部芯片，并在其上堆疊高帶寬內(nèi)存（HBM）立方體，進而實現(xiàn)高性能計算能力。

得益于增強型模塊化小芯片封裝，Instinct MI350系列GPU集成了8個32核AMD CDNA 4架構(gòu)計算單元（XCD），它們通過3D混合鍵合架構(gòu)堆疊在2個N6制成I/O裸片之上。

Instinct MI350系列GPU還支持128條HBM3E內(nèi)存通道，采用雙倍UTC支持高達288GB容量的12層堆疊的HBM3E內(nèi)存，讀取速率高達8TB/s，同時通過增加UTCL1/UTCL2大小選項、優(yōu)化內(nèi)存流水線等措施，滿足高帶寬需求的工作負載。

同時它擁有256MB AMD Infinity Cache，并采用了帶寬速率高達1075GB/s的第四代Infinity Fabric。而兩個XCD集群之間通過5.5 TB/s的Infinity Fabric Advanced Package實現(xiàn)高速互聯(lián)。

Instinct MI350系列GPU有著非常靈活的分區(qū)，它最多支持8個空間分區(qū)，以最大化提升GPU利用率。NPS模式（NUMA Per Socket）從Instinct MI300X的NPS1和NPS4新增支持NPS1和NPS2。在SPX+NPS1模式下，Instinct MI350系列GPU能夠支持520B，也就是5200億參數(shù)的AI大模型；而在CPX+NPS2模式下，則可以最多支持8個Llama 3.1 700億參數(shù)大模型實例，實現(xiàn)最大化的GPU利用率。

·雙倍計算吞吐量升級功耗不加倍

算力大幅提升的同時，Instinct MI350系列GPU的能效表現(xiàn)也更為出色，其設(shè)計目標就是改善AI工作流的性能體驗。

為此，Instinct MI350系列GPU在功耗不加倍的情況下實現(xiàn)了雙倍計算吞吐量提升。并且通過增強內(nèi)存帶寬和本地數(shù)據(jù)共享，進一步支持更高的計算吞吐量。同時它也實現(xiàn)了量化技術(shù)的創(chuàng)新。此外AMD還通過標準化將微縮數(shù)據(jù)類型引入社區(qū)，提供對FP8（縮放和非縮放）以及行業(yè)標準微縮FP6和FP4數(shù)據(jù)類型的完全訪問權(quán)限，并且通過降低非核心功耗實現(xiàn)計算性能的提升。

Instinct MI350系列GPU支持多種浮點精度數(shù)據(jù)格式，包括FP8、FP6、FP4、FP16、BF16以及FP64等。相比前代產(chǎn)品，其AI算力得到顯著增強，F(xiàn)P16性能達到18.5 PFlops，F(xiàn)P8為37 PFlops，F(xiàn)P6/FP4高達74 PFlops。MI350系列GPU的模型參數(shù)處理能力從7140億激增至4.2萬億，提升近6倍，能夠有效滿足大語言模型和混合專家模型的訓(xùn)練與推理需求。

此外，Instinct MI350系列GPU的增強型矩陣引擎每時鐘周期、每個計算單元獲得了2倍混合精度矩陣操作用于GEMM機制加速；以及2倍超越函數(shù)速率用于注意力機制加速。

接下來我們看看AMD官方給出的Instinct MI350X GPU在HBM內(nèi)存讀取帶寬每瓦方面的表現(xiàn)，相比上一代MI300X GPU最高提升30%。每個計算單元的HBM峰值讀取帶寬速度提升超過50%。

此外，大家也可以參看下方表格，了解新一代MI355X GPU與上一代MI300X GPU在不同數(shù)據(jù)格式上的代際性能提升幅度。如FP16/BF16數(shù)據(jù)類型吞吐量提升至每個計算單元每時鐘周期4k次浮點運算，F(xiàn)P8數(shù)據(jù)類型吞吐量提升至每個計算單元每時鐘周期8k次浮點運算，F(xiàn)P6/FP4數(shù)值格式支持且每個計算單元的速率是FP8的2倍，并保持FP64向量吞吐量，F(xiàn)P64 矩陣運算速率與向量相同。

參考官方給出的Instinct MI355X與上一代MI300X GPU在Llama 3.1 405B大模型各類應(yīng)用以及DeepSeek R1、Llama 3.3 70B、Llama 4 Maverick三款大模型的算力性能數(shù)據(jù)，MI355X GPU性能最低提升2.6倍，最高提升4.2倍，平均提升幅度在3倍以上。

而在大模型訓(xùn)練加速方面，四種不同參數(shù)和數(shù)據(jù)類型的Llama 3/Llama 2大模型預(yù)訓(xùn)練速度最低提升2.6倍，最高提升3.5倍，實現(xiàn)訓(xùn)練效率的大幅度代際升級。

此外在與競品之間的性能差異方面，Instinct MI355X GPU相比NVIDIA GB200/B200而言，在內(nèi)存容量、內(nèi)存帶寬、各種數(shù)據(jù)類型峰值性能方面表現(xiàn)都更加出色。

得益于全方位的規(guī)格參數(shù)領(lǐng)先，Instinct MI355X GPU對比NVIDIA B200/GB200 GPU，在Llama 3 70B/8B大模型預(yù)訓(xùn)練速度上與B200持平，而在MLPerf5.0非官方測試結(jié)果中，Llama 2 70B大模型微調(diào)訓(xùn)練速度上，MI355X GPU比B200快10%，比GB200快13%。

在DeepSeek R1 FP4、Llama 3.1 405B FP4低數(shù)據(jù)精度、大參數(shù)量大模型推理吞吐量方面，MI355X GPU的表現(xiàn)總體更加出色。

此外，采用AMD Instinct MI350系列GPU解決方案，將獲得比競品更高的經(jīng)濟性，以MI355X GPU和B200 GPU為例，前者可帶來超過40%的Tokens/$$成本收益。

接下來附上Instinct MI350系列GPU首發(fā)兩款產(chǎn)品參數(shù)，感興趣的朋友可以參考：

·生態(tài)合作持續(xù)發(fā)力為行業(yè)帶來成熟可靠的全棧式解決方案

基于Instinct MI350系列GPU，AMD與行業(yè)生態(tài)伙伴持續(xù)合作，以第五代EPYC+Instinct MI350系列GPU+AMD Pollara NIC網(wǎng)絡(luò)解決方案為核心，帶來了完全基于開放標準構(gòu)建的機架基礎(chǔ)設(shè)施。

AMD Pensando Pollara 400 AI NIC擁有出色的可擴展性設(shè)計，它也是業(yè)界首款專注于AI領(lǐng)域的智能網(wǎng)卡設(shè)備。它支持可編程、支持網(wǎng)絡(luò)內(nèi)集合操作，兼容超以太網(wǎng)聯(lián)盟標準，并擁有高于競品20%的領(lǐng)先性能體驗，高達20倍的大規(guī)模擴展能力，10%的集群無故障運行時間提升，以及16%的網(wǎng)絡(luò)結(jié)構(gòu)成本降低。是值得信賴的高性能、高穩(wěn)定性、高耐久性、高擴展性專業(yè)AI網(wǎng)卡設(shè)備。

同時，AMD提供了液冷、風(fēng)冷的多元化機架可選方案。其中Instinct MI355X GPU主要面向液冷散熱方案，可提供128和96個GPU以及36TB和27TB HBM3E內(nèi)存方案；而MI350X GPU則主要面向風(fēng)冷方案，提供64個GPU和18TB HBM3E內(nèi)存方案。

目前，AMD Instinct MI350系列GPU解決方案合作伙伴涵蓋了各大主流廠商，如甲骨文、戴爾、SuperMicro、惠普、思科等，且合作將于今年Q3正式開啟，屆時各家合作伙伴將推出基于AMD Instinct MI350系列GPU打造的AI機架設(shè)備。

關(guān)于未來，AMD的規(guī)劃也非常清晰。2026年AMD將推出下一代EPYC+MI400系列GPU以及下一代VULCANO網(wǎng)卡的AI機架，并命名為“Helios”。同時還公布了未來兩年基于AMD EPYC “VENICE”以及AMD EPYC “VERANO”處理器的下一代和下下代高性能AI機架解決方案，為未來AI行業(yè)的算力發(fā)展描繪了更加清晰的前景。

而且在本次峰會上，AMD預(yù)先公布了下一代Instinct MI400系列GPU的特性，它將擁有高達40PF和20PF的FP4/FP8算力，并打在432GB HBM4內(nèi)存，帶寬將提升至19.6 TB/s，每個GPU的橫向擴展帶寬將達到300 GB/s，進一步為AI計算提速。

得益于MI400系列GPU全方位的性能升級，Helios AI機架將具備領(lǐng)先的性能表現(xiàn)，相比采用NVIDIA Vera Rubin解決方案的Oberon機架架構(gòu)，Helios AI機架內(nèi)存性能將再度實現(xiàn)大幅領(lǐng)先。

也因此，Instinct MI400系列GPU將為AI計算性能帶來巨大飛躍。

·結(jié)語

AI時代硬件算力已然呈現(xiàn)出幾何式增長趨勢，而GPU作為驅(qū)動高性能AI算力輸出的基礎(chǔ)設(shè)備，其性能的提升對于AI算力的躍升有著極其重要的意義。

AMD Instinct MI350系列GPU基于全新的CDNA 4架構(gòu)設(shè)計，在內(nèi)存容量、性能、帶寬，GPU執(zhí)行單元數(shù)量、吞吐性能等方面實現(xiàn)了全面進化，并且通過2.5D和3D先進封裝技術(shù)在更小的芯片面積上實現(xiàn)了晶體管的更高密度集成以及更好的能效表現(xiàn)，從而使得基于MI350系列GPU的AI機架設(shè)備能夠帶來更加出色的綜合體驗，為AI行業(yè)未來的發(fā)展注入強勁動力。

此外，AMD預(yù)先公布了算力提升驚人的Instinct MI400系列GPU，它將在2026年為整個AI行業(yè)的發(fā)展再次提速，并在AI大模型計算、訓(xùn)練方面展現(xiàn)出更為驚人的性能實力！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.