大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

梁文鋒新論文!DeepSeek降本秘籍公開,突破算力瓶頸有六招

0
分享至


智東西
編譯 程茜 李水青
編輯 李水青

智東西5月15日消息,昨日下午,DeepSeek團隊發布新論文,以DeepSeek-V3為代表,深入解讀DeepSeek在硬件架構和模型設計方面的關鍵創新,為實現具有成本效益的大規模訓練和推理提供思路。

DeepSeek創始人兼CEO梁文鋒這次同樣出現在了合著名單之中,在作者列表中處于倒數第五的位置。論文署名通訊地址為“中國北京”,可以推測論文研究大概率為DeepSeek北京團隊主導。


大語言模型的迅猛擴張正暴露出硬件架構的三大瓶頸:內存容量不足、計算效率低下、互連帶寬受限。而DeepSeek-V3卻實現了令人矚目的效率突破——

僅在2048塊H800 GPU上進行訓練,FP8訓練的準確率損失小于0.25%,每token的訓練成本250 GFLOPS,而405B密集模型的訓練成本為2.45 TFLOPS ,KV緩存低至每個token 70 KB(僅為Llama-3.1緩存的1/7)……

這些突破性數據背后,究竟隱藏著怎樣的技術革新?

其中的模型架構和AI基礎設施關鍵創新包括:用于提高內存效率的多頭潛在注意力(MLA)、用于優化計算-通信權衡的混合專家(MoE)架構、用于釋放硬件功能全部潛力的FP8混合精度訓練,以及用于最大限度地減少集群級網絡開銷的多平面網絡拓撲。


▲DeepSeek-V3基本架構

DeepSeek的論文中驗證了,有效的軟硬件協同設計可以實現大型模型的成本效益訓練,從而為較小的團隊提供公平的競爭環境。

也難怪OpenAI聯合創始人Andrej Karpathy此前贊嘆:“DeepSeek-V3的出現實現了高性能與低成本的平衡……未來或許不需要超大規模的GPU集群了。”

DeepSeek在論文中提到,本文的目的不是重申DeepSeek-V3的詳細架構和算法細節,是跨越硬件架構和模型設計采用雙重視角來探索它們之間錯綜復雜的相互作用,以實現具有成本效益的大規模訓練和推理。側重于探討:

硬件驅動的模型設計:分析FP8低精度計算和縱向擴展/橫向擴展網絡屬性等硬件功能如何影響DeepSeek-V3中的架構選擇;

硬件和模型之間的相互依賴關系:深入了解硬件功能如何塑造模型創新,以及大模型不斷變化的需求如何推動對下一代硬件的需求;

硬件開發的未來方向:從DeepSeek-V3獲得可實現的見解,以指導未來硬件和模型架構的協同設計,為可擴展、經濟高效的AI系統鋪平道路;

論文地址:https://arxiv.org/abs/2505.09343

一、從源頭優化內存效率,MoE模型可降低成本、本地部署

開篇提到的DeepSeek-V3關鍵創新旨在解決擴展中的三個核心挑戰:內存效率、成本效益和推理速度。

1、內存效率:從源頭優化內存使用,使用MLA減少KV緩存

從源頭優化內存使用仍然是一種關鍵且有效的策略。與使用BF16進行權重的模型相比,FP8將內存消耗顯著降低了一半,有效緩解了AI內存墻挑戰。


▲KV緩存大小比較(BF16精度)

使用MLA減少KV緩存。對于大模型推理,用戶請求通常涉及多輪對話。KV緩存通過緩存先前處理的token的鍵和值向量來解決這一挑戰,無需為后續token重新計算。

在每個推理步驟匯總,模型僅計算當前token的鍵和值向量,并通過將它們與歷史記錄中緩存的鍵值對組合來執行注意力計算。這種增量計算使其在處理長序列或多輪輸入時非常高效。但是,它引入了內存受限的瓶頸,因為計算從GEMM轉移到GEMV,后者的計算與內存比率要低得多。

為了解決這一挑戰,研究人員采用MLA,它使用投影矩陣將所有注意力頭的KV表示壓縮成一個更小的潛在向量,讓該矩陣與模型聯合訓練。在推理過程中,只需要緩存潛在向量,與存儲所有注意力頭的KV緩存相比減少了內存消耗。

2、成本效益:MoE可降低訓練成本,便于本地部署

DeepSeek開發了DeepSeekMoE,MoE模型的優勢有兩個方面:

首先可以減少訓練的計算要求,降低訓練成本。MoE模型允許參數總數急劇增加,同時保持計算要求適中。例如,DeepSeek-V2具有236B參數,但每個token只激活了21B參數。DeepSeek-V3擴展到671B參數,同時能將每個token的激活量保持在僅37B。相比之下,Qwen2.5-72B和LLaMa3.1-405B等稠密模型要求所有參數在訓練期間都處于活動狀態。

其次,是個人使用和本地部署優勢。在個性化Agent蓬勃發展的未來,MoE模型在單請求場景中提供了獨特的優勢。由于每個請求只激活了一個參數子集,因此內存和計算需求大大減少。例如,DeepSeek-V2(236B參數)在理過程中僅激活21B參數。這使得配備AI芯片的PC能夠實現每秒近20個token(TPS),甚至達到該速度的兩倍。相比之下,具有相似能力的稠密模型在類似硬件上通常只能達到個位數的TPS。

同時,大語言模型推理優化框架KTransformers允許完整版DeepSeek-V3模型在配備消費類GPU的低成本服務器上運行,成本約為10000美元,實現近20 TPS。這種效率使MoE架構適用于硬件資源有限的本地部署和個人用戶。

二、重疊計算和通信、高帶寬縱向擴展網絡,提高推理速度

第三個挑戰是推理速度,DeepSeek通過重疊計算和通信、引入高帶寬縱向擴展網絡、多token預測框架等來提高模型的推理速度。

1、重疊計算和通信:最大化吞吐量

推理速度包括系統范圍的最大吞吐量和單個請求延遲,為了最大限度地提高吞吐量,DeepSeek-V3從一開始就被構建為利用雙微批處理重疊,將通信延遲與計算重疊

DeepSeek將MLA和MoE的計算解耦為兩個不同階段。當一個微批處理執行MLA或MoE計算的一部分時,另一個微批處理同時執行相應的調度通信。相反,在第二個微批處理的計算階段,第一個微批處理經歷組合通信步驟。

這種流水線化方法實現了全對全通信與正在進行的計算的無縫重疊,確保始終能充分利用GPU資源。

此外,在生產中,他們采用預填充-解碼分離(prefill-decode disaggregation)架構,將大批量預填充和延遲敏感的解碼請求分配給不同的專家并行組。


▲訓練MoE和稠密模型的計算成本比較:假設序列長度為4096,測量每個token的計算成本

2、推理速度限制:高帶寬縱向擴展網絡潛力

MoE模型實現高推理速度取決于跨計算設備高效部署專家參數。為了實現盡可能快的推理速度,理想情況下,每個設備都應該為單個專家執行計算或者多個設備應在必要時協作計算單個專家。

但專家并行(EP)需要將token路由到適當的設備,這涉及跨網絡的多對多通信。因此,MoE推理速度的上限由互連帶寬決定

考慮這樣一個系統:每個設備都保存一個專家的參數,一次處理大約32個token。此token計數在計算內存比率和通信延遲之間取得平衡,此token計數可確保每個設備在專家并行期間處理相等的批量大小,從而計算通信時間。

如果使用像GB200 NVL72(72個GPU上的900GB/s單向帶寬)這樣的高帶寬互連,每個EP步驟的通信時間=(1字節+2字節)×32×9×7K/900GB/s=6.72μs

假設計算時間等于通信時間,這將顯著減少總推理時間,從而實現超過0.82毫秒TPOT的理論上限,大約每秒1200個token

雖然這個數字是理論上得出,尚未經過實證驗證,但它說明了高帶寬縱向擴展網絡在加速大規模模型推理方面的潛力。

3、多token預測(Multi-Token Prediction)

DeepSeek-V3引入了多token預測(MTP)框架,該框架同時增強了模型性能并提高了推理速度。

推理過程中,傳統的自回歸模型在解碼步驟中生成一個token,這會導致序列瓶頸問題。MTP通過使模型能夠以較低成本生成額外的候選token并對其進行并行驗證,從而緩解了這一問題,這與之前基于自起草的推測性解碼方法類似。該框架在不影響準確性的前提下加快了推理速度。

此外,通過預測每步多個token,MTP增加了推理批量大小,這對于提高EP計算強度和硬件利用率至關重要。

4、推理模型的高推理速度與測試時擴展的研究

以OpenAI的o1/o3系列為例,大模型中的測試時縮放通過在推理過程中動態調整計算資源,在數學推理、編程和一般推理方面實現性能提升。后續DeepSeek-R1、Gemini 2.5 Pro、Qwen3都采用了類似的策略。

對于這些推理模型,高token輸出速度至關重要。在強化學習(RL)工作流程中,快速生成大量樣本的必要性使推理吞吐量成為一個關鍵的瓶頸。同樣,延長的推理序列會增加用戶的等待時間,從而降低此類模型的實際可用性。

因此,通過協同硬件和軟件創新來優化推理速度對于提高推理模型的效率必不可少。

三、DeepSeek-V3實踐:軟硬件協同突破效率極限

基于上述核心設計原則,DeepSeek詳細描述了低精度訓練、互連優化、網絡拓撲等具體技術的實現細節。

在低精度技術突破方面,DeepSee通過采用FP8混合精度訓練,將模型內存占用直接減少50%,有效緩解“內存墻”難題。DeepSeek還提出LogFMT對數空間量化方案,能在相同比特下實現更高精度。

在互連優化方面,DeepSeek提出了硬件感知并行策略。團隊摒棄傳統張量并行(TP),轉而采用流水線并行(PP)和專家并行(EP),配合自主研發的DeepEP庫,實現通信效率的飛躍。

在網絡拓撲方面,DeepSeek推出的兩層多層胖樹(MPFT)網絡拓撲,通過8個獨立平面實現故障隔離與負載均衡,成本相比傳統三層拓撲降低40%以上,且在全到全通信性能上與單層多軌網絡旗鼓相當,為集群擴展提供了堅實保障。


▲八平面兩層胖樹可擴展網絡

四、六大關鍵,打造下一代AI基礎設施

針對當前硬件痛點,DeepSeek提出下一代AI基礎設施的核心升級路徑。

跳出DeepSeek-V3的具體實現,DeepSeek從硬件架構演進的角度提出六大未來挑戰與解決方案,涵蓋內存、互連、網絡、計算等核心領域。

1、魯棒性優先:構建不易崩潰的訓練系統

現有硬件對GPU故障、內存靜默錯誤等缺乏有效檢測,大規模訓練中斷風險高。

對此,DeepSeek提出硬件必須引入傳統ECC之外的高級錯誤檢測機制。基于校驗和的驗證或硬件加速冗余檢查等技術,為大規模部署提供更高可靠性。

此外,硬件供應商應向終端用戶提供全面的診斷工具包,使其能夠嚴格驗證系統完整性并主動識別潛在的靜默數據損壞。

2、顛覆互連架構:CPU-GPU直連消除節點瓶頸

CPU在協調計算、管理I/O和維持系統吞吐量方面仍不可或缺,當前架構面臨若干關鍵瓶頸。

CPU與GPU之間的PCIe接口在大規模參數、梯度或KV緩存傳輸期間常成為帶寬瓶頸。為緩解這一問題,未來系統應采用直接的CPU-GPU互連(如NVLink或Infinity Fabric),或將CPU和GPU集成到擴展域中,從而消除節點內瓶頸。

除PCIe限制外,維持如此高的數據傳輸速率還需要極高的內存帶寬。最后,內核啟動和網絡處理等延遲敏感任務需要高單核CPU性能,通常需要基頻超過4GHz。此外,現代AI工作負載需要每個GPU配備足夠的 CPU核心,以避免控制端瓶頸。對于基于小芯片的架構,需要額外核心支持緩存感知的工作負載分區和隔離。

3、智能網絡升級:動態路由實現低延遲

為滿足延遲敏感型工作負載的需求,未來互連必須同時優先考慮低延遲和智能網絡。

共封裝光學:集成硅光子學可實現更高帶寬擴展性和更強能效,這對大規模分布式系統至關重要。

無損網絡:基于信用的流量控制(CBFC)機制可確保無損數據傳輸,但單純觸發流量控制可能導致嚴重的隊頭阻塞。因此,必須部署先進的端點驅動擁塞控制(CC)算法,主動調節注入速率并避免異常擁塞場景。

自適應路由:如5.2.2節所述,未來網絡應標準化動態路由方案(如分組噴射和擁塞感知路徑選擇),持續監控實時網絡狀況并智能重新分配流量。

高效容錯協議:通過部署自愈協議、冗余端口和快速故障轉移技術,可顯著增強故障魯棒性。

動態資源管理:為有效處理混合工作負載,未來硬件應支持動態帶寬分配和流量優先級。

4、通信順序“硬件化”:消除軟件額外開銷

使用加載/存儲內存語義的節點間通信高效且便于編程,但當前實現受內存順序挑戰的阻礙。

DeepSeek主張硬件支持為內存語義通信提供內置順序保證。這種一致性應在編程層(如通過獲取/釋放語義)和接收方硬件層強制執行,實現有序傳遞而無額外開銷。

5、網絡計算融合:硬件加速通信效率

混合專家模型(MoE)的分發與組合階段存在網絡優化空間。論文建議,在網絡硬件中集成自動分組復制、硬件級歸約功能,并支持LogFMT壓縮,降低通信帶寬需求。

6、內存架構重構:從“芯片堆疊”到“晶圓集成”

模型規模的指數級增長已超過高帶寬內存(HBM)技術的進步,這種差距造成內存瓶頸。

DeepSeek推薦DRAM堆疊加速器,利用先進的3D堆疊技術,DRAM die可垂直集成在邏輯die頂部,從而實現極高的內存帶寬、超低延遲和實用內存容量(盡管受堆疊限制)。

DeepSeek還提到了晶圓級系統(SoW),晶圓級集成可最大限度地提高計算密度和內存帶寬,滿足超大規模模型的需求。

結語:模型進化,倒逼下一代算力革新

AI產業正進入軟硬件深度協同時代。通過將硬件特性融入模型設計、反向驅動硬件升級,DeepSeek 開創了軟硬件良性迭代閉環。

從硬件到模型,DeepSeek-V3體現了軟硬件協同設計在推進大規模AI系統的可擴展性、效率和魯棒性方面的變革潛力。

從模型回到硬件,DeepSeek則跳出DeepSeek-V3具體模型,來定義未來硬件需為大模型優化的核心方向,從內存、互連、網絡、計算等多層面提出了建設性建議,對產業生態具有重要參考意義。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
今晚上影節——楊冪贏麻了!和劉德華挽手,頂級高定+走兩次紅毯

今晚上影節——楊冪贏麻了!和劉德華挽手,頂級高定+走兩次紅毯

情感大頭說說
2025-06-15 00:49:15
驚天一爆:為報復大隊干部,二兄弟炸飛全村,死86傷179人

驚天一爆:為報復大隊干部,二兄弟炸飛全村,死86傷179人

霹靂炮
2025-06-13 23:46:46
有內鬼終止交易! 本輪北京國安跟申花都收到對方大禮

有內鬼終止交易! 本輪北京國安跟申花都收到對方大禮

80后體育大蜀黍
2025-06-14 22:54:36
癌癥治療新突破:8天干掉腫瘤?美國發明治最兇險乳腺癌新藥!

癌癥治療新突破:8天干掉腫瘤?美國發明治最兇險乳腺癌新藥!

徐德文科學頻道
2025-06-14 08:31:29
郭碧婷曝光女兒正臉!向佐跟小奶黃嬉鬧,被調侃公主和忠實男仆

郭碧婷曝光女兒正臉!向佐跟小奶黃嬉鬧,被調侃公主和忠實男仆

八星人
2025-06-14 23:16:06
19歲男子入室行兇致人重傷 判決民事賠償40多萬

19歲男子入室行兇致人重傷 判決民事賠償40多萬

大象新聞
2025-06-14 12:43:10
“家境不好,剛上大一的弟弟要買1萬多的手機”:巨嬰有多可怕?

“家境不好,剛上大一的弟弟要買1萬多的手機”:巨嬰有多可怕?

精讀君
2025-03-14 11:38:57
公安部祭出最嚴“禁酒令”:嚴禁違規宴請飲酒的規定及解釋

公安部祭出最嚴“禁酒令”:嚴禁違規宴請飲酒的規定及解釋

據說說娛樂
2025-06-13 00:49:24
拿到稀土的美總統,對華關稅不降了,中方對美國,只提了一個要求

拿到稀土的美總統,對華關稅不降了,中方對美國,只提了一個要求

娛樂八卦木木子
2025-06-14 08:46:25
“工業迪士尼”,成了京滬排隊王

“工業迪士尼”,成了京滬排隊王

Vista氫商業
2025-06-13 22:07:41
以軍已清空伊朗防空系統,哈梅內伊隨時可能變哈尼亞第二

以軍已清空伊朗防空系統,哈梅內伊隨時可能變哈尼亞第二

移光幻影
2025-06-14 22:49:21
江西16歲女生約房東在賓館見面,4小時后將其扔進臭水溝

江西16歲女生約房東在賓館見面,4小時后將其扔進臭水溝

風到腰彎
2025-06-13 22:00:22
重拳出擊!中方發出最后通牒,重裝部隊壓境直抵班公湖,不戰而勝

重拳出擊!中方發出最后通牒,重裝部隊壓境直抵班公湖,不戰而勝

Ck的蜜糖
2025-06-13 01:28:57
女人需求最旺盛的年齡段,是什么時候?都會有什么樣的表現?

女人需求最旺盛的年齡段,是什么時候?都會有什么樣的表現?

特約前排觀眾
2025-06-07 00:10:03
KTV保潔阿姨爆料:包廂里大叔撩妹成敗,全看會不會點這2首歌

KTV保潔阿姨爆料:包廂里大叔撩妹成敗,全看會不會點這2首歌

東方不敗然多多
2025-06-13 14:33:03
寧波樓市捷雷不及掩耳,寧波樓市鄞州區房價從24000元跌至23000元

寧波樓市捷雷不及掩耳,寧波樓市鄞州區房價從24000元跌至23000元

有事問彭叔
2025-06-13 21:48:39
新四軍宣傳部長57歲任上海市委書記,1983年被開除黨籍

新四軍宣傳部長57歲任上海市委書記,1983年被開除黨籍

樂趣紀史
2025-06-14 19:37:01
3年3900萬美元!火箭全額保障留下亞當斯,湖人美好愿望又落空

3年3900萬美元!火箭全額保障留下亞當斯,湖人美好愿望又落空

體壇小李
2025-06-15 07:54:02
曾毅名下7家公司均注銷或被除名

曾毅名下7家公司均注銷或被除名

現代快報
2025-06-14 12:22:06
男人們,幾乎所有女人都“偷偷出軌”,自己當然不肯承認就看你了

男人們,幾乎所有女人都“偷偷出軌”,自己當然不肯承認就看你了

人間百態大全
2025-06-01 07:46:36
2025-06-15 09:20:49
智東西 incentive-icons
智東西
聚焦智能變革,服務產業升級。
10005文章數 116773關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

伊朗近200枚導彈飛以色列 哈梅內伊重要顧問傷重離世

頭條要聞

伊朗近200枚導彈飛以色列 哈梅內伊重要顧問傷重離世

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

本地
房產
手機
數碼
公開課

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

手機要聞

華為 Pura 80 系列手機服務權益公布

數碼要聞

4149元起,機械革命多款筆記本上架開售

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产色无码精品视频免费| 人妻夜夜爽天天爽欧美色院| 无码精品a∨在线观看| 国产免费爽爽视频在线观看| 少妇被躁爽到高潮无码久久| 黑人巨大跨种族video| 18禁无遮挡免费视频网站| 116美女极品a级毛片| 人妻少妇无码专视频在线| 男人的天堂中文字幕熟女人妻| 性无码一区二区三区在线观看| 天堂网在线最新版www中文网| 亚洲综合成人婷婷五月网址| 97久久超碰国产精品旧版麻豆| 久久久久99精品成人片欧美| 亚洲va韩国va欧美va| 97人摸人人澡人人人超碰| 亚洲欧美国产国产一区二区三区| 午夜寂寞少妇aaa片毛片| 国产精自产拍久久久久久蜜| 日韩高清在线观看永久| 中文字幕av在线一二三区| 亚洲熟妇色自偷自拍另类| 亚洲αv久久久噜噜噜噜噜| 成年午夜免费韩国做受视频| 成年在线网站免费观看无广告| 亚洲人精品午夜射精日韩| 成人网站免费看黄a站视频| 国产欧美69视频一区二区| 国产精品a成v人在线播放| 2021久久精品国产99国产精品| 亚洲国产色播av在线| aaa少妇高潮大片免费看| 色一情一乱一伦麻豆| 国产成人精品高清在线观看93| 毛色毛片免费观看| 亚洲乱码国产乱码精品精姦| 小少呦萝粉国产| 中文字幕人妻三级中文无码视频| 欧美成人片一区二区三区| 99久久无色码中文字幕人妻|