算力成本是大模型應用起飛的前提,是下一代AI計算架構需要解決的最核心問題。
當大模型訓推需求份額已占據過半的算力需求時,硬件層上針對大模型的創新卻屈指可數,芯片設計幾乎成為制程工藝的附庸。
應用需求 vs 基礎設施供給
類GPGPU架構支持了AI大模型快速崛起,但其難以兼顧通用性和對大模型的針對性,在面對模型規模和復雜性的急劇膨脹時,其效率與成本的黑洞被詬病已久,甚至已經影響市場對大模型未來發展的預期。
玉盤MoonQuest團隊充分拆解不同角度的算力問題(內存墻、存儲墻、功耗墻等),認為核心都是I/O問題(數據的讀寫與搬運效率太低),制約了硬件理論算力的充分發揮,算力成本問題有進一步制約了整個行業的發展。
本文旨在提出一種從I/O出發、專為AI大模型訓推設計的創新計算架構——SRDA(系統級極簡可重構數據流架構 System-level Simplified Reconfigurable Dataflow Architecture ),輔以一份更為詳細的架構白皮書,完整開源SRDA的架構理念、技術優勢以及初代的核心組件,探討從I/O優化角度出發克服現有算力成本瓶頸的新思路。
AI計算需求的演進與挑戰
人工智能,尤其是深度學習,在過去十年中取得了顯著進展。AI模型,特別是Transformer、Diffusion等架構的出現,使得模型參數量從數百萬激增至數千萬億級別,直接導致了對計算資源,尤其是并行處理能力和內存帶寬的極致需求,傳統計算架構逐漸暴露多重制約:
- 性能提升依賴制程工藝:過去3年,工藝提升帶來的單位面積算力優化只有15%,而主流觀點認為當前芯片工藝極限約1nm,先進制程難以跟著大模型一起scale.
- 內存帶寬限制:現有主流類GPGPU架構采用的多級共享式內存(如HBM)在多線程并發訪問時,讀寫沖突以及數據過度隨機化極易產生顯存訪問擁塞,導致內存帶寬往往成為實際應用中的瓶頸,尤其在處理巨型AI模型時問題更加嚴重。
- 算力利用率低:由于架構設計、通信開銷以及內存訪問瓶頸等多重因素制約,芯片的理論峰值算力在實際AI負載中無法充分發揮。
- 功耗屢創新高:頂級AI加速器芯片的功耗指標屢創新高,已成為制約其更廣泛應用和可持續發展的核心瓶頸。以英偉達H100 GPU為例,其典型板卡功耗高達700瓦,基于光模塊的超節點集群方案更是功耗驚人。這是類GPGPU架構依靠增加計算核來拉高算力導致的,算力增幅與功耗增幅幾乎成正比。
- 大規模集群擴展難題:傳統兩層網絡(節點內高速互聯如NVLink,節點間網絡如InfiniBand/以太網)的設計,帶來了帶寬層級差異、協議轉換開銷、通信管理復雜等諸多問題,不得不占用大量計算資源來執行通信任務。
- 軟件復雜:現有AI加速方案的主流軟件棧非常復雜,實際算力利用率低,而優化成本非常高,進一步限制了其在大模型領域的應用。
面對這些挑戰,業界亟需創新的計算架構來突破現有瓶頸,滿足AI大模型發展的技術需求。
SRDA:為AI大模型極致算力性價比設計的新計算范式
SRDA 系統級精簡可重構數據流架構是一種以數據流為中心、軟硬件協同設計的AI計算架構,強調在成熟工藝下通過架構創新實現性能突破的潛力。其核心設計理念是通過數據流驅動計算,結合極簡和可重構思路,最大限度地提升AI計算的效率、靈活性和可擴展性。
設計哲學
SRDA的設計哲學根植于對AI計算負載特性的深刻理解:
- 數據流驅動
- AI計算,尤其是神經網絡的訓練和推理,本質上是大規模、結構化的「數據流」處理過程(數據在計算節點間依照特定計算圖(Compute Graph)進行流動和轉換)。傳統GPGPU類的「控制流」架構(Control-Flow Architecture)下,SIMT架構疊加復雜的多級共享內存架構導致內存訪問常常成為性能瓶頸,致使計算單元長時間空閑和高額的數據搬運功耗。
- SRDA 將「數據流」的優化置于架構設計的核心(Data-Flow Architecture)。SRDA通過編譯器解析計算圖,定制優化路徑,將計算圖拆解后直接靜態映射到硬件,實現數據在計算單元之間點到點直接傳輸,大幅減少了對中央內存的依賴和訪問次數。這種設計理念從根本上減少了數據移動的距離和頻率——這也是當前大模型計算系統中主要的性能和能耗瓶頸之一。通過讓數據“流動”起來,讓計算“追隨”數據,SRDA最大化有效計算的占比,最小化等待和搬運的開銷。
- 軟硬件超融合
- 為充分發揮硬件潛力,SRDA從設計之初就強調硬件架構與軟件系統的超融合設計。這并非簡單地為已有的硬件開發軟件,而是在架構定義階段就將軟件精簡性和易用性作為核心指標。(這也是玉盤僅20余人投入的核心起點,我們認為高效是AI時代的必然要求)
- SRDA的編譯器對硬件的可重構特性、內存系統的架構與訪問特性、以及互聯網絡的拓撲與通信特性擁有精確的認知。這使得編譯器能夠在編譯階段進行全局的靜態優化,例如:將計算圖高效地映射到物理計算單元,精確規劃數據在片上和片間的傳輸路徑,優化內存訪問模式,以及預先配置數據流通路以消除運行時調度開銷。這種深度的超融合設計,使得SRDA能夠實現傳統通用架構配合通用編譯器難以企及的優化水平,從而將硬件的理論性能更充分地轉化為實際應用性能。
- 同時,SRDA軟件棧也致力于對上層AI框架(如PyTorch、JAX及更上層的訓推框架)提供簡潔的接入層接口,使開發者不用感知底層硬件就能夠高效利用SRDA的強大能力。
- 精簡與高效
- SRDA追求用最直接、最高效的方式滿足AI計算的核心需求。面對AI計算負載的專用性,SRDA選擇剝離傳統通用處理器中為支持多樣化任務而引入的復雜控制邏輯、冗余指令集以及多級緩存一致性等機制。作為一種AI領域的專用架構,SRDA將硬件資源更聚焦于AI計算本身的核心操作,如張量運算、向量處理等。 這種架構上的精簡帶來了多重效益:
- 更高的面積效率:在相同的芯片面積下,可以集成更多的有效計算單元和片上內存,直接提升原始計算能力。
- 更高的能源效率:減少了非計算相關的晶體管活動和復雜控制邏輯的能耗,使得每一瓦特電力都能更有效地轉化為有效算力。
- 更低的復雜度:底層基于開源RISC-V指令集生態,大幅簡化了指令系統和算子開發難度。同時,精簡的架構也意味著芯片和系統的開發復雜度更可控,能更好的助力芯片設計團隊及未來的用戶大幅降低開發成本。
- 可重構性與適應性
- SRDA是為AI領域設計的專用架構,但并非僵化的固定模型的硬件加速器。AI算法和模型本身在快速演進,從經典的CNN、RNN到主流的Transformer,再到新興的MoE(混合專家模型)、Mamba(狀態空間模型)、DiT(Diffusion Transformer)、ViT(Vision Transformer)等,其計算特性和數據流模式各不相同。 SRDA的關鍵特性之一是其可重構性,硬件的數據路徑、部分計算單元的功能組合以及內存訪問模式,可以在一定程度上由軟件根據具體的AI模型或計算任務進行配置和優化,實現:
- 適應多樣化的模型結構:針對不同模型的獨特計算需求(如不同類型的注意力機制、循環結構或稀疏計算模式),配置最優的硬件執行方案。
- 優化特定運算層:專業用戶可以針對模型中的不同計算層或關鍵算子,進行細粒度的硬件資源匹配和數據流定制。
- 面向未來模型架構的擴展性:為未來可能出現的新型AI算法和模型架構預留了適應空間,避免了因架構固化而過早被淘汰的風險。 通過這種受控的可重構性,SRDA?力求在專用加速器的高效率與通用處理器的高靈活性之間取得理想的平衡,以持續高效地支持AI技術的快速發展。
關鍵技術模塊與解決方案
源于深厚I/O技術積累和市場需求洞察,玉盤SRDA憑借系統級數據流、分布式3D堆疊內存系統、I/O融合互連技術、極簡可重構等多項關鍵技術模塊,實現極簡且高效的軟硬件超融合SRDA架構,系統性解決當前算力面臨的核心挑戰。
- QDDM?:分布式片上3D堆疊內存管理技術
為了突破“內存墻”的限制,SRDA采用了QDDM?(Distributed 3D DRAM Management)技術 。該技術利用先進的3D堆疊工藝,在計算芯片上直接集成了高帶寬、大容量的分布式內存網絡。QDDM?的關鍵特性包括:
- 計算單元內存私有化:每個計算核心或計算簇擁有其私有的、緊耦合的內存區域,天然支持帶寬隔離,消除了多核心共享內存帶來的帶寬競爭和訪問沖突。
- 3D-DRAM專用控制技術:集成定制的3D-DRAM控制器,在提供高帶寬利用率的同時,可有效縮短數據傳輸路徑和訪問延遲,并定制了專用的數據加速功能。
- 良率提升方案:針對3D堆疊技術可能帶來的良率挑戰,SRDA?采用了的專用良率方案,確保了大規模生產的可行性和成本效益。
- QLink?:融合高速互連通信技術
在大規模AI計算集群中,節點間的通信效率是決定整體性能的關鍵因素。SRDA為此引入了QLink?融合高速互連技術 。QLink?旨在構建一個單層的統一、高效、低成本的互連網絡,支持原生all-to-all的從芯片內部核間、芯片間(chip-to-chip)到服務器節點間(node-to-node)的無縫互連。
- 融合網絡架構:將傳統數據中心中可能并存的多種網絡(如scale-up與scale-out網絡)融合成統一的QLink?網絡,簡化網絡拓撲,降低管理復雜度和部署成本,且無需昂貴的專用網卡。
- 獨立通信引擎:QLink?集成了自研的獨立通信調度引擎,實現了計算任務與通信任務的完全解耦。通信操作由專門的硬件處理,不占用寶貴的核心計算資源,釋放更多有效算力。
- 高帶寬與低延遲:QLink?提供高速互聯帶寬和低延遲特性,為大規模并行訓練和分布式推理提供強大的通信支撐。
- 線性擴展與高可靠性:集成了自研的增強型網絡模塊,有效降低數據擁塞,支持大規模AI集群(如十萬卡級別)的近乎線性擴展,并增強了系統可靠性。
- 極簡AI編譯器與協同設計的軟件棧
SRDA架構的強大能力需要高效的軟件棧來釋放。為此,玉盤開發與硬件架構緊密協同的極簡AI編譯器和軟件工具鏈 :
- 基于開源RISC-V生態:底層基于開源的RISC-V指令集生態,簡化了底層算子的開發和優化難度,同時也為架構的開放性和社區合作提供了基礎。
- 聚焦核心與靜態編譯:編譯器聚焦AI計算的核心功能,降低了系統復雜度。通過支持靜態計算圖優化和靜態編譯,能夠在編譯期間完成大部分的優化工作,為可重構數據流路徑的配置和資源調度提供精確指導。
- 兼容主流AI框架:前端接口設計注重與主流AI開發框架(如PyTorch、JAX以及上層的vLLM)的兼容性,使得用戶可以平滑遷移現有的模型和開發流程。
- 訓推一體與資源優化:軟件棧對推理、預訓練和后訓練等不同AI應用場景進行了重新設計和優化,以充分利用SRDA架構在算力、內存和通信方面的硬件優勢,最大化資源利用率。在集群層面,實現對網絡、計算、存儲的統一管理和高效利用。
- 高性能融合計算引擎與可重構數據流
與傳統固定功能的計算單元不同,SRDA的計算單元支持根據AI模型的具體算子和數據依賴關系,動態構建和優化計算路徑。這種可重構的數據流使得中間計算結果可以在計算單元之間直接點到點傳輸,無需頻繁訪問片外主存,從而極大減少了數據搬運開銷,消除了數據擁塞,顯著提高了實際算力利用率 。
該計算引擎特別針對AI工作負載進行了優化,定制了專用的計算單元以大幅提升峰值算力。此外,玉盤首顆SRDA芯片將原生支持FP8等主流趨勢的低精度數據類型,對于降低內存占用、提升計算吞吐量至關重要,并能與采用FP8原生模型精度的前沿模型高效配合。計算單元還支持靈活的計算組合,保證了較強的通用性。
“當下是推動AI專用計算架構的最合適時機”
SRDA架構將:
- 大幅提升算力利用率:通過可重構數據流、存算聯一體化設計以及計算通信解耦,大幅減少數據搬運和通信等待,提升有效計算時間占比。
- 大幅優化內存帶寬與效率:大幅優化超高內存帶寬和低延遲訪問,有效緩解大模型應用中的內存瓶頸。
- 高效費比的大規模集群擴展:IO融合技術簡化了網絡部署,降低了互聯成本,并支持構建高效率的超大規模AI計算集群。
- 不依賴先進制程拉高算力:基于成熟的工藝制程即可實現高有效算力。
- 大模型場景最優總擁有成本(TCO):通過提升單芯片/單節點性能、大幅降低功耗、降低集群構建和運維復雜度、以及采用合適的成熟制程工藝,旨在提供更優的整體TCO。
- 靈活的模型與算法適應性:可重構數據流和對多種數據精度的支持,使得SRDA有能力靈活適應不斷演進的AI模型和算法。
- 極簡的軟件開發與遷移:兼容主流框架并簡化底層軟件棧,降低用戶的使用門檻。
下一步
SRDA不僅關注芯片單點性能的提升,更著眼于整體數據中心系統。我們希望SRDA在推動AI技術普惠化、賦能下一代AI應用、探索計算架構發展以及構建自主可控的AI算力基礎設施等方面發揮作用,為智能時代的加速到來貢獻力量:
- 重塑數據中心與智能算力網絡:QLink?等互聯技術的創新,不僅優化了單服務器內部的通信,更為構建高效、低成本、易擴展的超大規模AI數據中心(“AI token工廠”)提供了新的解決方案。未來,SRDA的理念和技術也可能延伸至邊緣計算乃至端側設備,滿足不同場景下對高效AI處理能力的需求,為構建泛在的智能算力網絡貢獻力量。
- 賦能下一代AI大模型與復雜應用:當前AI模型正朝著更大參數規模、更復雜結構(如多模態融合、長程依賴處理)的方向發展。SRDA?提供的超高實際算力、超大內存帶寬和容量、各類精度覆蓋,將為這些當前受限于硬件能力的下一代AI模型的訓練和部署提供堅實基礎,催生出更加智能和強大的AI應用。
- 探索AI計算架構的范式演進:作為一種專為AI設計的領域專用架構,SRDA以數據流為中心的設計理念,以及其在分布式內存系統和融合網絡上的創新,對傳統以控制流為主、依賴共享內存和分層網絡的通用計算架構構成了重要補充和發展?;诖耍覀冇型M一步推動AI芯片設計向更深層次的軟硬件協同優化和專用化方向發展,加速形成針對不同AI負載特征的異構計算生態。SRDA所強調的可重構性,也為應對在transformer之上進一步快速迭代的AI算法提供了靈活性,我們希望和各方模型伙伴探索演進。
- 構建開放與協作的生態系統:我們期待圍繞SRDA架構,與AI框架開發者、模型研究社區、行業應用伙伴以及上下游供應鏈企業展開深度合作。通過開放部分硬件細節、提供完善的SDK和開發工具、共同定義和優化上下游關鍵組件與芯片的協同(“芯云一體”、“芯模一體”、“算電一體”等),旨在構建一個活躍、共榮的開發者和用戶社區,加速SRDA技術的普及和創新應用。
結語
當一個場景的技術需求走向收斂,市場需求從小規模科研走向大規模應用,底層基礎設施由專用架構替代通用架構實現最高性價比幾乎是市場的必然選擇,從圖像顯示市場GPU替代CPU,到礦機市場礦卡替代GPGPU。
玉盤MoonQuest團隊從芯片、Infra、應用等不同角度看到了當前AI計算架構下算力瓶頸給AI發展帶來的限制,于2025年的今天提出SRDA架構,并推出接下來的相關芯片,不僅是我們對當前AI算力瓶頸的回應,也是嘗試對未來AI計算領域的發展可能性提出一次“天問”(A Moonquest)。
近期DeepSeek團隊在其新論文《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》中從芯片用戶角度對未來AI硬件提出了一些期待,其中很多點和SRDA架構的思路不謀而合,也讓我們更有信心SRDA架構有機會成為下一代針對AI大模型場景的更優計算架構。
我們期待除玉盤外,未來有更多AI大模型計算芯片考慮SRDA,繼模型層、Infra層之后,在硬件層也助力加速AGI的到來。
《SRDA計算架構白皮書》:
https://github.com/moonquest-ai/SRDA/tree/main
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.