網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

超越英偉達(dá)B200！AMD最強(qiáng)AI芯：1.6倍大內(nèi)存、大模型推理快30%

2025-06-13 10:41:55　來源: 量子位

北京舉報(bào)

分享至

克雷西發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

AMD大招逆襲，最強(qiáng)AI芯片號(hào)稱大模型推理比英偉達(dá)B200快30%！

CEO蘇姿豐與OpenAI奧特曼共同登臺(tái)發(fā)布。

這次AMD發(fā)布了MI350X和MI355X兩款GPU，采用3nm工藝，包含1850億晶體管，配備HBM3E內(nèi)存。

相比前代的MI300X，MI350系列的算力提升了4倍，推理速度快了35倍。

MI350系列也是叫板英偉達(dá)B200，內(nèi)存是B200的1.6倍，訓(xùn)練推理速度相當(dāng)或更快。

并且由于芯片功耗低于英偉達(dá)，在MI355X上每花費(fèi)1美元，可以比B200多跑40%的tokens。

同時(shí)，AMD還預(yù)告明年將會(huì)發(fā)MI400系列，并且奧特曼也來給蘇媽站臺(tái)，透露OpenAI參與了MI400系列的聯(lián)合研發(fā)。

大模型運(yùn)行更快，MI350系列叫板英偉達(dá)

MI350X和MI355X在核心設(shè)計(jì)上是相同的，二者的區(qū)別是針對(duì)不同的散熱方式設(shè)計(jì)，前者采用風(fēng)冷，后者則和B200一樣采用了更先進(jìn)的液冷。

它們都基于第四代Instinct架構(gòu)（CDNA 4），并配備288GB的HBM3E內(nèi)存和8TB每秒的內(nèi)存帶寬，這一容量是英偉達(dá)GB200和B200 GPU的1.6倍。

功耗上，風(fēng)冷的MI350X最高TBP為1000W，液冷的MI355X則達(dá)到了1400W，更高的TBP之下，MI355X的性能也高于同架構(gòu)的MI350X。

在精度較高的FP64上，MI350X和MI355X的算力分別是72和78.6TFLOPs，據(jù)介紹是英偉達(dá)的2倍。

而在低精度格式（例如FP16、FP8和FP4）上，MI350系列的性能則與英偉達(dá)相當(dāng)或略勝一籌。

值得注意的是，MI350系列上，F(xiàn)P6性能的運(yùn)算可以以FP4的速率運(yùn)行，這被AMD認(rèn)為是一個(gè)差異化特征。

搭配AMD第五代EPYC（Turin）芯片，8個(gè)GPU通過153.6 GB/s的雙向Infinity Fabric鏈路進(jìn)行通信，可以組成一個(gè)節(jié)點(diǎn)。

這些節(jié)點(diǎn)還將繼續(xù)組合成風(fēng)冷或液冷機(jī)柜，形成最高128GPU的集群，F(xiàn)P8算力達(dá)到1.3EFLOPs。

除了列性能數(shù)據(jù)，AMD還直觀地介紹了MI350系列運(yùn)行大模型應(yīng)用的性能，并分別與自家前代產(chǎn)品和英偉達(dá)進(jìn)行了對(duì)比。

相比于MI300X（FP8），MI355X（FP4）運(yùn)行Llama 3.1 405B的速度達(dá)到了35倍。

運(yùn)行DeepSeek R1、Llama 4 Maverick和Llama 3.3 70B的推理性能也均達(dá)到了3倍。

和英偉達(dá)的B200或GB200相比，MI355X也能達(dá)到相當(dāng)或更高的性能（均為FP4精度，使用不同框架），DeepSeek R1和Llama 3.1 405B的性能分別比B200高20%和30%。

訓(xùn)練和微調(diào)上，也是相比MI300X大幅提升，并擁有和B200/GB200相當(dāng)或更高的性能。

成本方面，MI350系列也擁有較高的性能密度，同樣花費(fèi)1美元，在MI355X上可以比B200上多處理40%的token。

AMD表示，MI350系列在本月初已經(jīng)批量出貨，云服務(wù)商正在進(jìn)行安裝。

微軟、Meta、xAI等正在使用AMD產(chǎn)品的AI大廠，也均對(duì)MI350表示了期待。

另外，為了搭配MI350系列，AMD還發(fā)布了全新的ROCm 7軟件棧，相比ROCm 6帶來了3.5倍的推理性能提升和3倍的訓(xùn)練性能提升，同時(shí)引入了分布式推理支持。

ROCm 7還與VLM和SGLang等開源推理框架深度集成，并且支持超過180萬(wàn)個(gè)Hugging Face模型的開箱即用。

AMD公布路線圖，MI400明年亮相

發(fā)布MI350系列的同時(shí)，蘇媽也公布了AMD在AI芯片上新的路線圖。

根據(jù)這張路線圖，AMD的下一代GPU，也就是MI400系列，將于明年亮相。

MI400系列由AMD和OpenAI聯(lián)合研發(fā)，OpenAI為MI400系列的訓(xùn)練和推理需求提供了重要反饋。

奧特曼也來到現(xiàn)場(chǎng)為AMD站臺(tái)，表示MI400非常適合推理，并且也可能是訓(xùn)練的絕佳選擇。

MI400系列將采用下一代CDNA架構(gòu)，預(yù)計(jì)速度比MI300系列快10倍，F(xiàn)P4運(yùn)行速度將達(dá)到40PFLOPs。

還將配備高達(dá)432GB的HBM4內(nèi)存和19.6TB/s的內(nèi)存帶寬，這個(gè)數(shù)字讓現(xiàn)場(chǎng)的奧特曼也為之一震。

搭配2nm的Venice CPU和Vulcano網(wǎng)卡，MI400可以組裝成完整的Helios AI機(jī)架。

Venice擁有多達(dá)256個(gè)Zen6高性能核心，計(jì)算性能預(yù)計(jì)比當(dāng)前的Turin CPU提升70%。

代號(hào)為“Vulcano”的下一代擴(kuò)展AI網(wǎng)卡，支持PCIe和UAL接口，并提供800GB/s的線速吞吐量。

整體上，Helios機(jī)架將連接多達(dá)72個(gè)GPU，擁有260TB/s的擴(kuò)展帶寬。

另外，AMD還計(jì)劃到2027年推出MI500系列GPU和Verono CPU，將“進(jìn)一步突破性能、效率和可擴(kuò)展性的極限”。

那么你認(rèn)為，AMD這次Yes了嗎？

發(fā)布會(huì)回放：
https://www.youtube.com/watch?v=5dmFa9iXPWI
[1]https://www.tomshardware.com/pc-components/gpus/amd-announces-mi350x-and-mi355x-ai-gpus-claims-up-to-4x-generational-gain-up-to-35x-faster-inference-performance
[2]https://www.amd.com/en/blogs/2025/amd-instinct-mi350-series-and-beyond-accelerating-the-future-of-ai-and-hpc.html

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.