智東西
編譯 程茜 李水青
編輯 李水青
智東西5月15日消息,昨日下午,DeepSeek團隊發布新論文,以DeepSeek-V3為代表,深入解讀DeepSeek在硬件架構和模型設計方面的關鍵創新,為實現具有成本效益的大規模訓練和推理提供思路。
DeepSeek創始人兼CEO梁文鋒這次同樣出現在了合著名單之中,在作者列表中處于倒數第五的位置。論文署名通訊地址為“中國北京”,可以推測論文研究大概率為DeepSeek北京團隊主導。
大語言模型的迅猛擴張正暴露出硬件架構的三大瓶頸:內存容量不足、計算效率低下、互連帶寬受限。而DeepSeek-V3卻實現了令人矚目的效率突破——
僅在2048塊H800 GPU上進行訓練,FP8訓練的準確率損失小于0.25%,每token的訓練成本250 GFLOPS,而405B密集模型的訓練成本為2.45 TFLOPS ,KV緩存低至每個token 70 KB(僅為Llama-3.1緩存的1/7)……
這些突破性數據背后,究竟隱藏著怎樣的技術革新?
其中的模型架構和AI基礎設施關鍵創新包括:用于提高內存效率的多頭潛在注意力(MLA)、用于優化計算-通信權衡的混合專家(MoE)架構、用于釋放硬件功能全部潛力的FP8混合精度訓練,以及用于最大限度地減少集群級網絡開銷的多平面網絡拓撲。
▲DeepSeek-V3基本架構
DeepSeek的論文中驗證了,有效的軟硬件協同設計可以實現大型模型的成本效益訓練,從而為較小的團隊提供公平的競爭環境。
也難怪OpenAI聯合創始人Andrej Karpathy此前贊嘆:“DeepSeek-V3的出現實現了高性能與低成本的平衡……未來或許不需要超大規模的GPU集群了。”
DeepSeek在論文中提到,本文的目的不是重申DeepSeek-V3的詳細架構和算法細節,是跨越硬件架構和模型設計采用雙重視角來探索它們之間錯綜復雜的相互作用,以實現具有成本效益的大規模訓練和推理。側重于探討:
硬件驅動的模型設計:分析FP8低精度計算和縱向擴展/橫向擴展網絡屬性等硬件功能如何影響DeepSeek-V3中的架構選擇;
硬件和模型之間的相互依賴關系:深入了解硬件功能如何塑造模型創新,以及大模型不斷變化的需求如何推動對下一代硬件的需求;
硬件開發的未來方向:從DeepSeek-V3獲得可實現的見解,以指導未來硬件和模型架構的協同設計,為可擴展、經濟高效的AI系統鋪平道路;
論文地址:https://arxiv.org/abs/2505.09343
一、從源頭優化內存效率,MoE模型可降低成本、本地部署
開篇提到的DeepSeek-V3關鍵創新旨在解決擴展中的三個核心挑戰:內存效率、成本效益和推理速度。
1、內存效率:從源頭優化內存使用,使用MLA減少KV緩存
從源頭優化內存使用仍然是一種關鍵且有效的策略。與使用BF16進行權重的模型相比,FP8將內存消耗顯著降低了一半,有效緩解了AI內存墻挑戰。
▲KV緩存大小比較(BF16精度)
使用MLA減少KV緩存。對于大模型推理,用戶請求通常涉及多輪對話。KV緩存通過緩存先前處理的token的鍵和值向量來解決這一挑戰,無需為后續token重新計算。
在每個推理步驟匯總,模型僅計算當前token的鍵和值向量,并通過將它們與歷史記錄中緩存的鍵值對組合來執行注意力計算。這種增量計算使其在處理長序列或多輪輸入時非常高效。但是,它引入了內存受限的瓶頸,因為計算從GEMM轉移到GEMV,后者的計算與內存比率要低得多。
為了解決這一挑戰,研究人員采用MLA,它使用投影矩陣將所有注意力頭的KV表示壓縮成一個更小的潛在向量,讓該矩陣與模型聯合訓練。在推理過程中,只需要緩存潛在向量,與存儲所有注意力頭的KV緩存相比減少了內存消耗。
2、成本效益:MoE可降低訓練成本,便于本地部署
DeepSeek開發了DeepSeekMoE,MoE模型的優勢有兩個方面:
首先可以減少訓練的計算要求,降低訓練成本。MoE模型允許參數總數急劇增加,同時保持計算要求適中。例如,DeepSeek-V2具有236B參數,但每個token只激活了21B參數。DeepSeek-V3擴展到671B參數,同時能將每個token的激活量保持在僅37B。相比之下,Qwen2.5-72B和LLaMa3.1-405B等稠密模型要求所有參數在訓練期間都處于活動狀態。
其次,是個人使用和本地部署優勢。在個性化Agent蓬勃發展的未來,MoE模型在單請求場景中提供了獨特的優勢。由于每個請求只激活了一個參數子集,因此內存和計算需求大大減少。例如,DeepSeek-V2(236B參數)在理過程中僅激活21B參數。這使得配備AI芯片的PC能夠實現每秒近20個token(TPS),甚至達到該速度的兩倍。相比之下,具有相似能力的稠密模型在類似硬件上通常只能達到個位數的TPS。
同時,大語言模型推理優化框架KTransformers允許完整版DeepSeek-V3模型在配備消費類GPU的低成本服務器上運行,成本約為10000美元,實現近20 TPS。這種效率使MoE架構適用于硬件資源有限的本地部署和個人用戶。
二、重疊計算和通信、高帶寬縱向擴展網絡,提高推理速度
第三個挑戰是推理速度,DeepSeek通過重疊計算和通信、引入高帶寬縱向擴展網絡、多token預測框架等來提高模型的推理速度。
1、重疊計算和通信:最大化吞吐量
推理速度包括系統范圍的最大吞吐量和單個請求延遲,為了最大限度地提高吞吐量,DeepSeek-V3從一開始就被構建為利用雙微批處理重疊,將通信延遲與計算重疊。
DeepSeek將MLA和MoE的計算解耦為兩個不同階段。當一個微批處理執行MLA或MoE計算的一部分時,另一個微批處理同時執行相應的調度通信。相反,在第二個微批處理的計算階段,第一個微批處理經歷組合通信步驟。
這種流水線化方法實現了全對全通信與正在進行的計算的無縫重疊,確保始終能充分利用GPU資源。
此外,在生產中,他們采用預填充-解碼分離(prefill-decode disaggregation)架構,將大批量預填充和延遲敏感的解碼請求分配給不同的專家并行組。
▲訓練MoE和稠密模型的計算成本比較:假設序列長度為4096,測量每個token的計算成本
2、推理速度限制:高帶寬縱向擴展網絡潛力
MoE模型實現高推理速度取決于跨計算設備高效部署專家參數。為了實現盡可能快的推理速度,理想情況下,每個設備都應該為單個專家執行計算或者多個設備應在必要時協作計算單個專家。
但專家并行(EP)需要將token路由到適當的設備,這涉及跨網絡的多對多通信。因此,MoE推理速度的上限由互連帶寬決定。
考慮這樣一個系統:每個設備都保存一個專家的參數,一次處理大約32個token。此token計數在計算內存比率和通信延遲之間取得平衡,此token計數可確保每個設備在專家并行期間處理相等的批量大小,從而計算通信時間。
如果使用像GB200 NVL72(72個GPU上的900GB/s單向帶寬)這樣的高帶寬互連,每個EP步驟的通信時間=(1字節+2字節)×32×9×7K/900GB/s=6.72μs
假設計算時間等于通信時間,這將顯著減少總推理時間,從而實現超過0.82毫秒TPOT的理論上限,大約每秒1200個token。
雖然這個數字是理論上得出,尚未經過實證驗證,但它說明了高帶寬縱向擴展網絡在加速大規模模型推理方面的潛力。
3、多token預測(Multi-Token Prediction)
DeepSeek-V3引入了多token預測(MTP)框架,該框架同時增強了模型性能并提高了推理速度。
推理過程中,傳統的自回歸模型在解碼步驟中生成一個token,這會導致序列瓶頸問題。MTP通過使模型能夠以較低成本生成額外的候選token并對其進行并行驗證,從而緩解了這一問題,這與之前基于自起草的推測性解碼方法類似。該框架在不影響準確性的前提下加快了推理速度。
此外,通過預測每步多個token,MTP增加了推理批量大小,這對于提高EP計算強度和硬件利用率至關重要。
4、推理模型的高推理速度與測試時擴展的研究
以OpenAI的o1/o3系列為例,大模型中的測試時縮放通過在推理過程中動態調整計算資源,在數學推理、編程和一般推理方面實現性能提升。后續DeepSeek-R1、Gemini 2.5 Pro、Qwen3都采用了類似的策略。
對于這些推理模型,高token輸出速度至關重要。在強化學習(RL)工作流程中,快速生成大量樣本的必要性使推理吞吐量成為一個關鍵的瓶頸。同樣,延長的推理序列會增加用戶的等待時間,從而降低此類模型的實際可用性。
因此,通過協同硬件和軟件創新來優化推理速度對于提高推理模型的效率必不可少。
三、DeepSeek-V3實踐:軟硬件協同突破效率極限
基于上述核心設計原則,DeepSeek詳細描述了低精度訓練、互連優化、網絡拓撲等具體技術的實現細節。
在低精度技術突破方面,DeepSee通過采用FP8混合精度訓練,將模型內存占用直接減少50%,有效緩解“內存墻”難題。DeepSeek還提出LogFMT對數空間量化方案,能在相同比特下實現更高精度。
在互連優化方面,DeepSeek提出了硬件感知并行策略。團隊摒棄傳統張量并行(TP),轉而采用流水線并行(PP)和專家并行(EP),配合自主研發的DeepEP庫,實現通信效率的飛躍。
在網絡拓撲方面,DeepSeek推出的兩層多層胖樹(MPFT)網絡拓撲,通過8個獨立平面實現故障隔離與負載均衡,成本相比傳統三層拓撲降低40%以上,且在全到全通信性能上與單層多軌網絡旗鼓相當,為集群擴展提供了堅實保障。
▲八平面兩層胖樹可擴展網絡
四、六大關鍵,打造下一代AI基礎設施
針對當前硬件痛點,DeepSeek提出下一代AI基礎設施的核心升級路徑。
跳出DeepSeek-V3的具體實現,DeepSeek從硬件架構演進的角度提出六大未來挑戰與解決方案,涵蓋內存、互連、網絡、計算等核心領域。
1、魯棒性優先:構建不易崩潰的訓練系統
現有硬件對GPU故障、內存靜默錯誤等缺乏有效檢測,大規模訓練中斷風險高。
對此,DeepSeek提出硬件必須引入傳統ECC之外的高級錯誤檢測機制。基于校驗和的驗證或硬件加速冗余檢查等技術,為大規模部署提供更高可靠性。
此外,硬件供應商應向終端用戶提供全面的診斷工具包,使其能夠嚴格驗證系統完整性并主動識別潛在的靜默數據損壞。
2、顛覆互連架構:CPU-GPU直連消除節點瓶頸
CPU在協調計算、管理I/O和維持系統吞吐量方面仍不可或缺,當前架構面臨若干關鍵瓶頸。
CPU與GPU之間的PCIe接口在大規模參數、梯度或KV緩存傳輸期間常成為帶寬瓶頸。為緩解這一問題,未來系統應采用直接的CPU-GPU互連(如NVLink或Infinity Fabric),或將CPU和GPU集成到擴展域中,從而消除節點內瓶頸。
除PCIe限制外,維持如此高的數據傳輸速率還需要極高的內存帶寬。最后,內核啟動和網絡處理等延遲敏感任務需要高單核CPU性能,通常需要基頻超過4GHz。此外,現代AI工作負載需要每個GPU配備足夠的 CPU核心,以避免控制端瓶頸。對于基于小芯片的架構,需要額外核心支持緩存感知的工作負載分區和隔離。
3、智能網絡升級:動態路由實現低延遲
為滿足延遲敏感型工作負載的需求,未來互連必須同時優先考慮低延遲和智能網絡。
共封裝光學:集成硅光子學可實現更高帶寬擴展性和更強能效,這對大規模分布式系統至關重要。
無損網絡:基于信用的流量控制(CBFC)機制可確保無損數據傳輸,但單純觸發流量控制可能導致嚴重的隊頭阻塞。因此,必須部署先進的端點驅動擁塞控制(CC)算法,主動調節注入速率并避免異常擁塞場景。
自適應路由:如5.2.2節所述,未來網絡應標準化動態路由方案(如分組噴射和擁塞感知路徑選擇),持續監控實時網絡狀況并智能重新分配流量。
高效容錯協議:通過部署自愈協議、冗余端口和快速故障轉移技術,可顯著增強故障魯棒性。
動態資源管理:為有效處理混合工作負載,未來硬件應支持動態帶寬分配和流量優先級。
4、通信順序“硬件化”:消除軟件額外開銷
使用加載/存儲內存語義的節點間通信高效且便于編程,但當前實現受內存順序挑戰的阻礙。
DeepSeek主張硬件支持為內存語義通信提供內置順序保證。這種一致性應在編程層(如通過獲取/釋放語義)和接收方硬件層強制執行,實現有序傳遞而無額外開銷。
5、網絡計算融合:硬件加速通信效率
混合專家模型(MoE)的分發與組合階段存在網絡優化空間。論文建議,在網絡硬件中集成自動分組復制、硬件級歸約功能,并支持LogFMT壓縮,降低通信帶寬需求。
6、內存架構重構:從“芯片堆疊”到“晶圓集成”
模型規模的指數級增長已超過高帶寬內存(HBM)技術的進步,這種差距造成內存瓶頸。
DeepSeek推薦DRAM堆疊加速器,利用先進的3D堆疊技術,DRAM die可垂直集成在邏輯die頂部,從而實現極高的內存帶寬、超低延遲和實用內存容量(盡管受堆疊限制)。
DeepSeek還提到了晶圓級系統(SoW),晶圓級集成可最大限度地提高計算密度和內存帶寬,滿足超大規模模型的需求。
結語:模型進化,倒逼下一代算力革新
AI產業正進入軟硬件深度協同時代。通過將硬件特性融入模型設計、反向驅動硬件升級,DeepSeek 開創了軟硬件良性迭代閉環。
從硬件到模型,DeepSeek-V3體現了軟硬件協同設計在推進大規模AI系統的可擴展性、效率和魯棒性方面的變革潛力。
從模型回到硬件,DeepSeek則跳出DeepSeek-V3具體模型,來定義未來硬件需為大模型優化的核心方向,從內存、互連、網絡、計算等多層面提出了建設性建議,對產業生態具有重要參考意義。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.