【中關(guān)村在線原創(chuàng)技術(shù)解析】進入AI PC時代,ADVANCING AI峰會成為AMD這家半導(dǎo)體行業(yè)巨頭與合作伙伴、開發(fā)者、用戶以及產(chǎn)業(yè)鏈生態(tài)聯(lián)盟溝通的橋梁。
就在剛剛,ADVANCING AI 2025成功舉辦。AMD在本次峰會期間公布了全新的CDNA 4 GPU架構(gòu),發(fā)布了AMD Instinct MI350系列GPU以及全新的ROCm 7,同時還針對AI時代面臨的網(wǎng)絡(luò)挑戰(zhàn),再次分享了AMD Pensando Pollara 400 NIC網(wǎng)卡的技術(shù)特性,至此,從CPU(EPYC)到GPU(Instinct),從前端網(wǎng)絡(luò)到縱向/橫向擴展網(wǎng)絡(luò),AMD能夠為行業(yè)用戶提供完整的AI系統(tǒng)解決方案。
除了全新的Instinct MI350系列GPU之外,AMD還預(yù)先披露了2026年即將發(fā)布的MI400系列GPU,它將把AI高性能計算GPU產(chǎn)品帶入一個全新時代。
·CDNA 4架構(gòu)與Instinct MI350系列GPU為AI計算而生
近年來,伴隨著AI技術(shù)不斷發(fā)展和突破,GPU成為最具AI生產(chǎn)力價值的核心硬件。全新的AMD CDNA 4架構(gòu),其核心設(shè)計理念就是聚焦在AI加速計算。因此,它集成了用于生成式人工智能和大語言模型的增強型矩陣引擎;支持混合型計算精度的全新數(shù)據(jù)格式;采用增強型無限互聯(lián)架構(gòu)與先進封裝技術(shù)打造了Instinct MI350系列GPU,并且在能效方面實現(xiàn)進一步提升。
作為首個采用CNDA 4架構(gòu)的AI加速卡,Instinct MI350系列GPU包含了峰值功耗1000W、面向風(fēng)冷系統(tǒng)的Instinct MI350X以及峰值功耗1400W、性能更加強勁的面向液冷散熱系統(tǒng)的Instinct MI355X。
其架構(gòu)包含TSMC N3P工藝打造的XCD,并通過先進封裝技術(shù)堆疊在TSMC N6工藝打造的IOD。并在HBM3E內(nèi)存與IOD之間采用了2.5D封裝技術(shù)進行整合。總體實現(xiàn)了在小尺寸芯片上采用臺積電成熟的CoWoS-S封裝技術(shù)。該技術(shù)通過在較大的硅中介層區(qū)域上提供高密度互連和深溝槽電容器,以容納各種功能性頂部芯片,并在其上堆疊高帶寬內(nèi)存(HBM)立方體,進而實現(xiàn)高性能計算能力。
得益于增強型模塊化小芯片封裝,Instinct MI350系列GPU集成了8個32核AMD CDNA 4架構(gòu)計算單元(XCD),它們通過3D混合鍵合架構(gòu)堆疊在2個N6制成I/O裸片之上。
Instinct MI350系列GPU還支持128條HBM3E內(nèi)存通道,采用雙倍UTC支持高達288GB容量的12層堆疊的HBM3E內(nèi)存,讀取速率高達8TB/s,同時通過增加UTCL1/UTCL2大小選項、優(yōu)化內(nèi)存流水線等措施,滿足高帶寬需求的工作負載。
同時它擁有256MB AMD Infinity Cache,并采用了帶寬速率高達1075GB/s的第四代Infinity Fabric。而兩個XCD集群之間通過5.5 TB/s的Infinity Fabric Advanced Package實現(xiàn)高速互聯(lián)。
Instinct MI350系列GPU有著非常靈活的分區(qū),它最多支持8個空間分區(qū),以最大化提升GPU利用率。NPS模式(NUMA Per Socket)從Instinct MI300X的NPS1和NPS4新增支持NPS1和NPS2。在SPX+NPS1模式下,Instinct MI350系列GPU能夠支持520B,也就是5200億參數(shù)的AI大模型;而在CPX+NPS2模式下,則可以最多支持8個Llama 3.1 700億參數(shù)大模型實例,實現(xiàn)最大化的GPU利用率。
·雙倍計算吞吐量升級 功耗不加倍
算力大幅提升的同時,Instinct MI350系列GPU的能效表現(xiàn)也更為出色,其設(shè)計目標就是改善AI工作流的性能體驗。
為此,Instinct MI350系列GPU在功耗不加倍的情況下實現(xiàn)了雙倍計算吞吐量提升。并且通過增強內(nèi)存帶寬和本地數(shù)據(jù)共享,進一步支持更高的計算吞吐量。同時它也實現(xiàn)了量化技術(shù)的創(chuàng)新。此外AMD還通過標準化將微縮數(shù)據(jù)類型引入社區(qū),提供對FP8(縮放和非縮放)以及行業(yè)標準微縮FP6和FP4數(shù)據(jù)類型的完全訪問權(quán)限,并且通過降低非核心功耗實現(xiàn)計算性能的提升。
Instinct MI350系列GPU支持多種浮點精度數(shù)據(jù)格式,包括FP8、FP6、FP4、FP16、BF16以及FP64等。相比前代產(chǎn)品,其AI算力得到顯著增強,F(xiàn)P16性能達到18.5 PFlops,F(xiàn)P8為37 PFlops,F(xiàn)P6/FP4高達74 PFlops。MI350系列GPU的模型參數(shù)處理能力從7140億激增至4.2萬億,提升近6倍,能夠有效滿足大語言模型和混合專家模型的訓(xùn)練與推理需求。
此外,Instinct MI350系列GPU的增強型矩陣引擎每時鐘周期、每個計算單元獲得了2倍混合精度矩陣操作用于GEMM機制加速;以及2倍超越函數(shù)速率用于注意力機制加速。
接下來我們看看AMD官方給出的Instinct MI350X GPU在HBM內(nèi)存讀取帶寬每瓦方面的表現(xiàn),相比上一代MI300X GPU最高提升30%。每個計算單元的HBM峰值讀取帶寬速度提升超過50%。
此外,大家也可以參看下方表格,了解新一代MI355X GPU與上一代MI300X GPU在不同數(shù)據(jù)格式上的代際性能提升幅度。如FP16/BF16數(shù)據(jù)類型吞吐量提升至每個計算單元每時鐘周期4k次浮點運算,F(xiàn)P8數(shù)據(jù)類型吞吐量提升至每個計算單元每時鐘周期8k次浮點運算,F(xiàn)P6/FP4數(shù)值格式支持且每個計算單元的速率是FP8的2倍 ,并保持FP64向量吞吐量,F(xiàn)P64 矩陣運算速率與向量相同。
參考官方給出的Instinct MI355X與上一代MI300X GPU在Llama 3.1 405B大模型各類應(yīng)用以及DeepSeek R1、Llama 3.3 70B、Llama 4 Maverick三款大模型的算力性能數(shù)據(jù),MI355X GPU性能最低提升2.6倍,最高提升4.2倍,平均提升幅度在3倍以上。
而在大模型訓(xùn)練加速方面,四種不同參數(shù)和數(shù)據(jù)類型的Llama 3/Llama 2大模型預(yù)訓(xùn)練速度最低提升2.6倍,最高提升3.5倍,實現(xiàn)訓(xùn)練效率的大幅度代際升級。
此外在與競品之間的性能差異方面,Instinct MI355X GPU相比NVIDIA GB200/B200而言,在內(nèi)存容量、內(nèi)存帶寬、各種數(shù)據(jù)類型峰值性能方面表現(xiàn)都更加出色。
得益于全方位的規(guī)格參數(shù)領(lǐng)先,Instinct MI355X GPU對比NVIDIA B200/GB200 GPU,在Llama 3 70B/8B大模型預(yù)訓(xùn)練速度上與B200持平,而在MLPerf5.0非官方測試結(jié)果中,Llama 2 70B大模型微調(diào)訓(xùn)練速度上,MI355X GPU比B200快10%,比GB200快13%。
在DeepSeek R1 FP4、Llama 3.1 405B FP4低數(shù)據(jù)精度、大參數(shù)量大模型推理吞吐量方面,MI355X GPU的表現(xiàn)總體更加出色。
此外,采用AMD Instinct MI350系列GPU解決方案,將獲得比競品更高的經(jīng)濟性,以MI355X GPU和B200 GPU為例,前者可帶來超過40%的Tokens/$$成本收益。
接下來附上Instinct MI350系列GPU首發(fā)兩款產(chǎn)品參數(shù),感興趣的朋友可以參考:
·生態(tài)合作持續(xù)發(fā)力 為行業(yè)帶來成熟可靠的全棧式解決方案
基于Instinct MI350系列GPU,AMD與行業(yè)生態(tài)伙伴持續(xù)合作,以第五代EPYC+Instinct MI350系列GPU+AMD Pollara NIC網(wǎng)絡(luò)解決方案為核心,帶來了完全基于開放標準構(gòu)建的機架基礎(chǔ)設(shè)施。
AMD Pensando Pollara 400 AI NIC擁有出色的可擴展性設(shè)計,它也是業(yè)界首款專注于AI領(lǐng)域的智能網(wǎng)卡設(shè)備。它支持可編程、支持網(wǎng)絡(luò)內(nèi)集合操作,兼容超以太網(wǎng)聯(lián)盟標準,并擁有高于競品20%的領(lǐng)先性能體驗,高達20倍的大規(guī)模擴展能力,10%的集群無故障運行時間提升,以及16%的網(wǎng)絡(luò)結(jié)構(gòu)成本降低。是值得信賴的高性能、高穩(wěn)定性、高耐久性、高擴展性專業(yè)AI網(wǎng)卡設(shè)備。
同時,AMD提供了液冷、風(fēng)冷的多元化機架可選方案。其中Instinct MI355X GPU主要面向液冷散熱方案,可提供128和96個GPU以及36TB和27TB HBM3E內(nèi)存方案;而MI350X GPU則主要面向風(fēng)冷方案,提供64個GPU和18TB HBM3E內(nèi)存方案。
目前,AMD Instinct MI350系列GPU解決方案合作伙伴涵蓋了各大主流廠商,如甲骨文、戴爾、SuperMicro、惠普、思科等,且合作將于今年Q3正式開啟,屆時各家合作伙伴將推出基于AMD Instinct MI350系列GPU打造的AI機架設(shè)備。
關(guān)于未來,AMD的規(guī)劃也非常清晰。2026年AMD將推出下一代EPYC+MI400系列GPU以及下一代VULCANO網(wǎng)卡的AI機架,并命名為“Helios”。同時還公布了未來兩年基于AMD EPYC “VENICE”以及AMD EPYC “VERANO”處理器的下一代和下下代高性能AI機架解決方案,為未來AI行業(yè)的算力發(fā)展描繪了更加清晰的前景。
而且在本次峰會上,AMD預(yù)先公布了下一代Instinct MI400系列GPU的特性,它將擁有高達40PF和20PF的FP4/FP8算力,并打在432GB HBM4內(nèi)存,帶寬將提升至19.6 TB/s,每個GPU的橫向擴展帶寬將達到300 GB/s,進一步為AI計算提速。
得益于MI400系列GPU全方位的性能升級,Helios AI機架將具備領(lǐng)先的性能表現(xiàn),相比采用NVIDIA Vera Rubin解決方案的Oberon機架架構(gòu),Helios AI機架內(nèi)存性能將再度實現(xiàn)大幅領(lǐng)先。
也因此,Instinct MI400系列GPU將為AI計算性能帶來巨大飛躍。
·結(jié)語
AI時代硬件算力已然呈現(xiàn)出幾何式增長趨勢,而GPU作為驅(qū)動高性能AI算力輸出的基礎(chǔ)設(shè)備,其性能的提升對于AI算力的躍升有著極其重要的意義。
AMD Instinct MI350系列GPU基于全新的CDNA 4架構(gòu)設(shè)計,在內(nèi)存容量、性能、帶寬,GPU執(zhí)行單元數(shù)量、吞吐性能等方面實現(xiàn)了全面進化,并且通過2.5D和3D先進封裝技術(shù)在更小的芯片面積上實現(xiàn)了晶體管的更高密度集成以及更好的能效表現(xiàn),從而使得基于MI350系列GPU的AI機架設(shè)備能夠帶來更加出色的綜合體驗,為AI行業(yè)未來的發(fā)展注入強勁動力。
此外,AMD預(yù)先公布了算力提升驚人的Instinct MI400系列GPU,它將在2026年為整個AI行業(yè)的發(fā)展再次提速,并在AI大模型計算、訓(xùn)練方面展現(xiàn)出更為驚人的性能實力!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.