大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

剛剛!梁文鋒參與發表回顧性論文:DeepSeek首次揭秘V3模型背后擴展方案

0
分享至


DeepSeek剛剛發表了一篇名為《深入解讀 DeepSeek-V3:AI 架構的擴展挑戰與硬件思考》(Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures)的回顧性論文,梁文鋒也是作者之一。這篇論文深入剖析了最新的大模型DeepSeek-V3及其AI基礎設施擴展方案,DeepSeek-V3的實踐充分證明了硬件-軟件協同設計在提升AI系統可擴展性、效率和魯棒性方面的巨大潛力


強烈推薦精讀!

快速解讀一下這篇論文

論文開宗明義:軟硬協同

文章一上來就點明了當前大模型(LLM)發展的核心矛盾:模型規模、訓練數據和算力需求飛速增長,但現有硬件架構在內存容量、計算效率和互連帶寬方面都面臨嚴峻挑戰。DeepSeek-V3的成功,恰恰證明了“硬件感知模型協同設計”是解決這些挑戰、實現大規模經濟高效訓練和推理的關鍵。

這篇論文的目標不是重復DeepSeek-V3的技術報告,而是從硬件架構和模型設計的雙重角度,探討它們之間復雜的相互作用,并為未來AI系統的可擴展性、成本效益提供實用藍圖

DeepSeek-V3核心設計揭秘:三大挑戰,逐個擊破

DeepSeek團隊圍繞LLM擴展的三大核心挑戰——內存效率、成本效益、推理速度——對DeepSeek-V3進行了精心設計

一、內存效率:榨干每一滴顯存

首先是低精度模型 (FP8)。相比BF16,FP8直接將模型權重內存占用減半,極大緩解了“內存墻”問題。這一點在后面會詳細展開

其次,DeepSeek-V2/V3采用的MLA (Multi-head Latent Attention) 技術,通過一個可共同訓練的投影矩陣,將所有注意力頭的KV表示壓縮到一個更小的“潛向量”(latent vector)中。推理時只需緩存這個潛向量,大幅降低內存消耗。論文給出的對比數據顯示,DeepSeek-V3 (MLA) 每token的KV Cache僅為70.272KB,而采用GQA的Qwen-2.5 72B為327.680KB,LLaMA-3.1 405B更是高達516.096KB。MLA的優勢可見一斑!


此外,論文也提及了業界其他有價值的方法,如GQA/MQA(分組/多查詢注意力)共享KV對,Windowed KV(滑動窗口),以及量化壓縮等。并展望了線性時間復雜度的注意力機制(如Mamba-2, Lightning Attention)和稀疏注意力的潛力

二、成本效益:MoE架構

DeepSeek-V3采用了其在V2中已被驗證有效的DeepSeekMoE架構(混合專家模型)。MoE的核心優勢在于“稀疏激活”:模型總參數量可以非常大,但每個token只激活一小部分專家參數


這使得訓練成本顯著降低。DeepSeek-V2有236B參數,每token激活21B;DeepSeek-V3擴展到671B參數,每token激活僅37B。相比之下,像Qwen2.5-72B和LLaMA3.1-405B這樣的密集模型,訓練時所有參數都處于激活狀態。從算力消耗對比 來看,DeepSeek-V3每token訓練成本約250 GFLOPS,遠低于LLaMA-405B的2448 GFLOPS,甚至低于Qwen-72B的394 GFLOPS


MoE模型的低激活參數特性,也使得在個人電腦的AI SoC上也能實現不錯的推理速度(如DeepSeek-V2在PC上可達近20 TPS甚至更高),為個性化LLM智能體和本地化部署鋪平了道路。使用KTransformers推理引擎,DeepSeek-V3完整模型能在消費級GPU(約1萬美元成本)的服務器上跑到近20 TPS

三、推理速度:分秒必爭

DeepSeek模型從設計之初就考慮了通過雙micro-batch重疊(dual micro-batch overlap)來隱藏通信延遲,最大化GPU利用率。生產環境中還采用prefill和decode分離的架構,針對性優化。

對于MoE模型,專家并行(EP)的All-to-All通信是瓶頸。論文以一個例子說明:若每設備一個專家,一次處理32個token,使用CX7 400Gbps InfiniBand網卡,一次EP(dispatch和combine)的通信時間約為120.96μs。在雙micro-batch重疊的理想情況下,每層總時間約為241.92μs。DeepSeek-V3有61層,則總推理時間約為14.76ms,理論TPOT(Time Per Output Token)上限約為67 tokens/s。如果換成GB200 NVL72(900GB/s單向帶寬),通信時間降至6.72μs,理論TPOT能飆升到1200 tokens/s!這生動展示了高帶寬互連的巨大潛力。

受Gloeckle等人工作的啟發,DeepSeek-V3引入了多令牌預測 (MTP, Multi-Token Prediction) 框架。傳統自回歸模型一次解碼一個token,MTP則允許模型以較低成本生成多個候選token并并行驗證,類似 speculative decoding。這能顯著加速推理。實際數據顯示,MTP對第二個后續token的接受率在80%-90%,使生成TPS提升1.8倍。同時,MTP也增大了推理batch size,有利于提升EP計算強度和硬件利用率。

像OpenAI的o1/o3系列、DeepSeek-R1等推理模型,以及PPO、DPO等RL流程,都極度依賴高token輸出速度。

低精度驅動設計:FP8混合精度訓練的探索

DeepSeek-V3的一大亮點是成功應用了FP8混合精度訓練。在此之前,開源社區幾乎沒有基于FP8訓練的大模型。

FP8的優勢在于顯著降低內存占用和計算量。但其在Hopper GPU上也面臨硬件局限性:一是累積精度受限,Tensor Core在FP8累積時,雖然中間結果用FP22存儲,但從32位尾數乘積右移對齊后,只保留最高的13位小數進行加法,這會影響大模型訓練穩定性;二是細粒度量化開銷大,像tile-wise(激活)和block-wise(權重)這樣的細粒度量化,在將部分結果從Tensor Core傳回CUDA Core進行縮放因子乘法時,會引入大量數據搬運和計算開銷。

對此,DeepSeek的建議是:未來硬件應提高累積精度(如FP32)或支持可配置的累積精度;同時,Tensor Core應能原生支持細粒度量化,直接接收縮放因子并執行帶組縮放的矩陣乘法,避免頻繁數據搬運。NVIDIA Blackwell的microscaling數據格式正是這一方向的體現。

DeepSeek團隊還嘗試了一種名為LogFMT-nBit(對數浮點格式)的數據類型用于通信壓縮。它將激活值從線性空間映射到對數空間,使得數據分布更均勻。但其局限性在于LogFMT數據在GPU Tensor Core計算前仍需轉回FP8/BF16,log/exp運算開銷和寄存器壓力較大。因此,盡管實驗驗證了其有效性,但最終并未實際采用。他們建議未來硬件原生支持FP8或定制精度格式的壓縮/解壓單元

互連驅動設計:榨干H800的每一分帶寬

DeepSeek-V3使用的NVIDIA H800 SXM節點,NVLink帶寬有所縮減(從H100的900GB/s降至400GB/s)。為彌補這一不足,每節點配備了8個400G InfiniBand CX7 NIC


在硬件感知的并行策略上,DeepSeek訓練中因NVLink帶寬受限而避免使用張量并行(TP),推理時可選擇性使用;采用DualPipe算法重疊Attention和MoE計算與通信來增強流水線并行(PP);并借助8個IB NIC實現超40GB/s的All-to-All通信速度以加速專家并行(EP)

模型協同設計方面,由于H800的NVLink(有效約160GB/s)和IB NIC(有效約40GB/s)帶寬差異巨大,DeepSeek-V3引入了節點限制路由 (Node-Limited Routing) 的TopK專家選擇策略:將256個路由專家分為8組,每組32個專家部署在單個節點上,并從算法上確保每個token最多路由到4個節點。這緩解了IB通信瓶頸。

關于Scale-Up與Scale-Out的融合,當前局限在于GPU SM既要處理網絡消息,又要通過NVLink轉發數據,消耗計算資源。DeepSeek建議未來硬件應集成統一網絡適配器、專用通信協處理器、靈活的轉發/廣播/Reduce機制、硬件同步原語、動態NVLink/PCIe流量優先級、I/O Die Chiplet集成NIC,以及CPU-GPU Scale-Up域互連。

大規模網絡驅動設計:多平面胖樹

DeepSeek-V3訓練中部署了多平面胖樹 (MPFT, Multi-Plane Fat-Tree) Scale-out網絡。每節點8 GPU + 8 IB NIC,每個GPU-NIC對屬于一個獨立網絡平面。

MPFT的優勢包括:作為多軌胖樹 (MRFT) 的子集可利用NCCL優化;成本效益高,用兩層胖樹即可支持超萬個端點;各平面流量隔離,單平面擁塞不影響其他;兩層拓撲延遲更低且魯棒性好。性能分析顯示,其All-to-All通信和EP場景性能與單平面MRFT非常接近,在2048 GPU上訓練DeepSeek-V3的指標也幾乎一致。

在低延遲網絡方面,IB延遲優于RoCE,但IB成本高、交換機端口密度低。對RoCE的改進建議包括:專用低延遲RoCE交換機、優化路由策略(如自適應路由)、改進流量隔離/擁塞控制機制。同時,DeepSeek也利用了InfiniBand GPUDirect Async (IBGDA) 技術來減少網絡通信延遲。

對未來AI硬件架構的展望

論文最后,DeepSeek團隊基于實踐經驗,對未來AI硬件設計提出了更宏觀的思考:

  1. 1. 魯棒性挑戰:應對互連故障、單硬件故障、靜默數據損壞等問題,硬件需集成高級錯誤檢測機制并提供診斷工具

  2. 2. CPU瓶頸與互連:解決PCIe帶寬瓶頸、高內存帶寬需求、CPU單核性能及核心數問題,建議CPU-GPU直接互連或集成到Scale-up域

  3. 3. 邁向AI智能網絡:發展硅光子、高級端到端擁塞控制、自適應路由、高效容錯協議和動態資源管理

  4. 4. 內存語義通信與順序問題:硬件應支持內建的內存語義通信順序保證(如acquire/release語義),消除sender端fence

  5. 5. 網絡內計算與壓縮:優化EP的dispatch和combine,原生集成LogFMT等壓縮技術

  6. 6. 內存為中心的創新:推廣DRAM堆疊加速器和System-on-Wafer (SoW)技術。

參考:

https://arxiv.org/pdf/2505.09343

?星標AI寒武紀,好內容不錯過?

用你的在看告訴我~

求贊

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
《紐約時報》:特朗普對中國玩過頭了,中國證明其處在強大的地位

《紐約時報》:特朗普對中國玩過頭了,中國證明其處在強大的地位

小鬼頭體育
2025-06-14 16:29:19
阿西莫娃2-1鄭欽文,賽后媒體:熟悉的配方,賽會第一輸得不冤

阿西莫娃2-1鄭欽文,賽后媒體:熟悉的配方,賽會第一輸得不冤

阿覽
2025-06-15 01:53:33
10歲男孩竟在臺風天,獨自一人在海上劃槳板漂流5小時,目前已獲救上岸回家

10歲男孩竟在臺風天,獨自一人在海上劃槳板漂流5小時,目前已獲救上岸回家

魯中晨報
2025-06-14 16:10:13
印度空難有新說法?機長生前留下3字,消息一出,美不許停飛波音

印度空難有新說法?機長生前留下3字,消息一出,美不許停飛波音

嘆知
2025-06-14 21:53:14
梁植誠任廣西壯族自治區紀委監委駐自治區發改委紀檢監察組組長

梁植誠任廣西壯族自治區紀委監委駐自治區發改委紀檢監察組組長

汲古知新
2025-06-15 01:55:04
6月14日俄烏:美反對G7降低俄石油上限,俄軍戰機擊落自家飛機

6月14日俄烏:美反對G7降低俄石油上限,俄軍戰機擊落自家飛機

山河路口
2025-06-14 18:19:12
蘭州一地突發塌陷,天然氣管道受損

蘭州一地突發塌陷,天然氣管道受損

澎湃新聞
2025-06-15 00:28:09
明明自己半瓶水,這幾位還“冒充”歌手開演唱會,難怪被官媒點名

明明自己半瓶水,這幾位還“冒充”歌手開演唱會,難怪被官媒點名

溫讀史
2025-06-12 14:19:44
風仍在吹:內伊說要終結以色列政權,但結果即便神權保住也···

風仍在吹:內伊說要終結以色列政權,但結果即便神權保住也···

邵旭峰域
2025-06-14 12:12:16
F-35被伊朗擊落!女飛行員跳傘后被活捉,以色列淪為第二個印度

F-35被伊朗擊落!女飛行員跳傘后被活捉,以色列淪為第二個印度

大道無形我有型
2025-06-14 11:30:28
30歲男子相親相到初中的班花,自卑得轉身就走:我哪里配得上她

30歲男子相親相到初中的班花,自卑得轉身就走:我哪里配得上她

唐小糖說情感
2025-06-12 08:54:25
視頻丨伊朗開始對以色列發動新一輪導彈襲擊

視頻丨伊朗開始對以色列發動新一輪導彈襲擊

環球網資訊
2025-06-15 07:15:04
上海女子不上班,但卻住豪宅開豪車,警察:她家現金堆成山了

上海女子不上班,但卻住豪宅開豪車,警察:她家現金堆成山了

懸案解密檔案
2025-05-09 18:00:29
以軍稱空襲伊朗國防部總部、核計劃總部及多處石油設施

以軍稱空襲伊朗國防部總部、核計劃總部及多處石油設施

新京報
2025-06-15 07:38:03
巴鐵空軍馳援伊朗,殲-10C掛霹靂-15迎戰F-35?

巴鐵空軍馳援伊朗,殲-10C掛霹靂-15迎戰F-35?

頭條爆料007
2025-06-14 15:21:04
原三鎮股東:因股改階段個別記者不實報道,集團決心退出足球

原三鎮股東:因股改階段個別記者不實報道,集團決心退出足球

懂球帝
2025-06-14 18:09:17
兢兢業業的利物浦老臣,即將告別安菲爾德:為科爾克茲轉會讓路

兢兢業業的利物浦老臣,即將告別安菲爾德:為科爾克茲轉會讓路

里芃芃體育
2025-06-15 08:14:44
街頭的烤鴨能不能吃,為何比活鴨價格便宜這么多?愛吃的快看

街頭的烤鴨能不能吃,為何比活鴨價格便宜這么多?愛吃的快看

農夫也瘋狂
2025-06-10 11:21:09
妥妥的黑店!22歲帝星開口就要1億歐,3家英超豪門恐直接被嚇退

妥妥的黑店!22歲帝星開口就要1億歐,3家英超豪門恐直接被嚇退

零度眼看球
2025-06-15 07:22:47
江西16歲女生約房東在賓館見面,4小時后將其扔進臭水溝

江西16歲女生約房東在賓館見面,4小時后將其扔進臭水溝

風到腰彎
2025-06-13 22:00:22
2025-06-15 08:32:49
AI寒武紀 incentive-icons
AI寒武紀
專注于人工智能,科技領域
717文章數 313關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

伊朗數小時內或再襲擊 以色列進入"前所未有緊急狀態"

頭條要聞

伊朗數小時內或再襲擊 以色列進入"前所未有緊急狀態"

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

時尚
藝術
親子
數碼
旅游

中年女人少穿黑色和灰色,年輕色穿出減齡效果,看起來嫩十歲

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

親子要聞

想養高情商孩子?這三句話別錯過

數碼要聞

達爾優高校電競賽成都站12進4晉級賽即將燃起!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 免费无遮挡无码视频在线观看| 中文字幕高清免费日韩视频在线| 精品成在人线av无码免费看| 精品乱人伦一区二区三区| 亚洲中文字幕在线第二页| 好紧好湿好黄的视频| 婷婷午夜天| 免费国产午夜高清在线视频| 大狠狠大臿蕉香蕉大视频| 超碰色偷偷男人的天堂| 无码人妻丰满熟妇区毛片18| 好紧好爽好深再快点av在线| 人人玩人人添人人澡免费| 国产三区在线成人av| 日本黄页网站免费大全| 蜜臀久久99精品久久久久久做爰| 日本乱子人伦在线视频| 娇妻玩4p被三个男人伺候电影| 欧美精品亚洲日韩aⅴ| 人人鲁人人莫人人爱精品| www夜片内射视频日韩精品成人| 四虎成人精品国产永久免费无码| 久久久久日韩精品免费观看| 国产日韩av在线播放| 国产免费午夜福利片在线| 大肉大捧一进一出好爽视频| 国产av麻豆天堂亚洲国产av刚刚碰| 国产丝袜无码一区二区视频| 女女互揉吃奶揉到高潮视频| 黑人巨大白妞出浆| 日本高清aⅴ毛片免费| 久久精品青青大伊人av| 亚洲色成人网一二三区| 国产精品高潮呻吟久久影视a片| 午夜毛片不卡免费观看视频| 亚洲精品国产精品国产自| 99久久久无码国产精品古装| 丰满人妻熟妇乱偷人无码| 国产午夜精品一区二区三区漫画| 色婷婷综合中文久久一本| 国产色综合久久无码有码|