通信世界網消息(CWW)近日,在2025中國光網絡研討會期間,中國光網絡研討會大會主席,原中國電信科技委主任韋樂平先生表示,大模型時代將開啟新一波的“光進銅退”;此外,國內的智算中心遍地開花,但GPU利用率很不均衡。
大模型訓練導致高速率、高密度、高成本必然遇到一系列困境。因為隨著基礎傳輸速率攀升至每通道100/200G以上,由于趨膚效應、PCB材料高頻損耗、串音干擾等導致PCB板銅箔的損耗和功耗快速上升,減小影響的唯一舉措就是減小器件間傳輸距離,直至完全消除銅連線。隨著傳輸速率持續提升,光模塊的成本也在持續上升。在400G速率,交換機光器件成本的占比已超過50%。在更高速率下,其占比將更高。
韋樂平指出,為了應對大模型帶來的暴力計算所導致的巨大能耗和成本,“光進銅退”必將從接入網延伸至駐地網和數據中心乃至服務器及龍片光互連直至基本消除電連接。當然,這一進程不會一蹴而就,隨著電光兩者各自的技術進展,博弈將波折前行,但全光化將是大勢所趨。
除此之外,行業目前最熱的智算中心網要算其中之一。按照韋樂平的理解,智算網是適應大模型需要的,以GPU為主體的網絡,由智算中心及其互聯組成(對應DCN和DCI),但是關于它的定義和邊界目前沒有共識。“智算網有的人給它夸大到幾十、幾百公里,甚至幾千公里,我不太相信,但不管怎么說稍微虛點,比較實在的還是智算中心網——AIDC。”韋樂平直言,AIDC與傳統的DCN范圍相當,包括芯片間、服務器間、單體乃至園區。但他也提到,當前,國內的智算中心遍地開花,總數超280個,但GPU利用率很不均衡,“個別飽的撐死,多數餓的餓死”,平均利用率不到30%。此外,機內總線帶寬與機間網絡帶寬不匹配,機間網絡帶寬太窄,算效不高。機內總線架構開放性、兼容性、擴展性不理想。當前,行業盈利情況卻不容樂觀,呈現出極為不均衡的態勢。在眾多參與企業中,僅有從事硬件制造的英偉達實現盈利,成為行業內的“一枝獨秀”。與之形成鮮明對比的是,其他企業均深陷虧損泥潭,即便是行業內頂尖的AIDC,虧損額也高達50億,并且虧損趨勢還在不斷擴大,預計今年的虧損規模將超過去年。韋樂平直言,找到可盈利的商業模式迫在眉睫。
關于智算中心網絡的流量特征,首先是丟包,零丟包已經成為剛性需求,0.1%丟包將導致網絡吞吐損失50%,1%丟包將導致有效計算時間減小到5%,完全不能用。其次,對時延和抖動高度敏感,網絡的長尾時延決定了大模型訓練完成時間的長短和性能,要嚴格控制,包括同一訓推任務內的不同流量要盡量保持同步。最后,鏈路間流量不均衡。大模型的參數規模和GPU超高并發處理能力使得流量主要集中在少數GPU之間,因而不同交換鏈路間的流量難以均衡化,必須采取措施,否則網絡浪費太多。
目前,光學技術已占據GPU的IB和以太網高速連接中的75%,未來隨著GPU連接逐漸向更高速率和更短互聯領域拓展,“光進銅退”趨勢將持續推進直至電連接的極限距離。基本光化,但是未必能夠全光。
韋樂平稱,按照Gartner2024年智算中心連接的技術趨勢,2026年CPO可能出現了,但不成規模,是重要的光化;2029年小芯片與硅光集成將成為很重要的趨勢;2030年Optics實現純光化。
韋樂平詳細介紹了小芯片技術的發展機遇,隨著速率不斷攀升,連接交換機ASIC芯片和光模塊的銅連線成為功耗也大幅攀升的主要因素,縮短銅連線距離成為主要選擇。產業界可利用該技術,將硅光和邏輯芯片電路集成在同一個襯底上,這樣可以有效縮短ASIC電芯片與硅光模塊間距離,達到降低功耗、減小時延的目的。產業聯盟發布的通用芯片互聯快線標準規范了小芯片互聯的接口、可管理系統架構、支持3D封裝、材料兼容性等,韋樂平相信這個標準的出現必將加速集成硅光技術的小芯片應用。
“小芯片與硅光集成用才會有前途。”韋樂平說道。Gartner預測,2029年,超50%的先進芯片將會利用小芯片技術集成硅光技術,為硅光技術提供新發展機遇。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.