| 本文作者張賀飛,系福布斯中國撰稿人,表達觀點僅代表個人。
開發者苦“封閉生態”久矣。
在大模型行業快速演進的當下,一些廠商仍在繼續搞圍墻之內的“封閉游戲”,看似提升了用戶體驗,卻在技術、數據和生態協同上筑起了高墻,不斷抬高創新門檻,為開發者套上了隱形的枷鎖。
同一時間,一場開放對抗封閉的運動也進入了高潮期。
就在鯤鵬昇騰開發者大會2025期間,堅持深度開放的昇騰異構計算架構CANN,向外界公布了一組新數據:
深度貢獻的開發者數量已經從1000多人迅速增長到6000多人,涉及操作系統、算子算法、整圖優化、加速庫等各個層面的創新;來自互聯網、運營商、金融等領域的30多個伙伴,開發了260多個高性能算子,大幅提升了大模型在業務場景中的性能表現......
為何在宣布深度開放的短短兩年時間里,昇騰CANN即已成為中國AI創新的新陣地?我們從三類開發者的故事中找到了答案。
01 以需求牽引生態:科大訊飛把業務問題變成生態能力
檢驗一個開放生態的價值,場景落地永遠是最直觀的指標。
身處創新第一線的企業開發者,起到了不可或缺的作用,他們從開放生態中汲取養分,又不斷用實踐經驗反哺生態,通過深度融入生態、與場景緊密結合,賦予了昇騰CANN生態自我生長、自我造血的能力。
其中的代表就有科大訊飛。
科大訊飛副總裁、AI工程院院長潘青華,將科大訊飛與昇騰平臺的深度合作總結成了四個階段:
第一個階段是敢用,2023年國內還沒有超大規模集群的成熟方案時,科大訊飛和昇騰聯合打造了國內首個自主創新的超大規模集群;
第二個階段是真用,2023年到2024年的一年時間里,科大訊飛在昇騰超大規模集群上訓練了星火大模型,性能從開箱只有業界的30%提升到了90%,印證了自主創新算力完全可以支撐大模型研發達到世界領先水平;
第三個階段是會用,科大訊飛和昇騰的聯合攻關團隊在2024年實現了多種大模型在昇騰平臺上的長穩訓練,斷點續訓的恢復時間從業界平均的30分鐘,下降到了5分鐘以內;
第四個階段是用好,科大訊飛在2025年3月基于昇騰算力率先實現了MoE模型的大規模跨節點并行集群的推理,性能提升了3倍。
其中CANN作為昇騰AI的核心基礎軟件平臺,搭起了AI框架與昇騰硬件的橋梁,是充分釋放處理器極致性能的關鍵。針對MoE大模型訓練場景的”卡脖子”難題,科大訊飛和昇騰進行了一場場聯合攻堅。
在算子方面,雙方聯合開發和優化了50+算子,科大訊飛自主開發的自定義關鍵算子就超過10個。其中包括優化了MoE特有的關鍵算子,讓計算效率提升了15%以上;對部分融合算子進行加速,端到端實現了5%的提升。
針對不可忽視的通信問題,科大訊飛和昇騰團隊通過采用多種通信掩藏的技術,將端到端通信壓縮到了20%以內,最終讓星火MoE大模型的訓練性能提升了2倍,進一步釋放了昇騰在計算、帶寬和通信上的潛力。
昇騰CANN也將在計算、內存、通信三個維度加速創新,其中包括超級算子MLAPO、多重地址映射技術、NPUDirect通信算法等等。科大訊飛和昇騰在真實場景中打磨出的核心能力,將開放給所有開發者。
確切的說,科大訊飛代表的是中國企業合作創新的群像,同類的“開發者“還包括智譜、字節跳動、面壁智能、螞蟻金服、美團等20多家頭部企業,作為CANN生態落地的關鍵合作者,一同重塑了AI產業的創新范式。
02 以技術筑牢生態:他們用工程化創新重構了性能邊界
大模型應用是個系統工程,工程創新的價值同樣不可小覷。
從單卡到集群,從算子到調度,從通信范式到內存布局,每一次性能的躍遷背后,都源自技術層面的極致打磨。正是這些“看不見的功夫”,讓AI模型跑得起、跑得快、跑得穩,走向真實世界的每一個場景。
在昇騰CANN生態中,一個個擅長軟硬件協同、系統調優、通信機制重構等“硬活兒”的技術團隊,用工程創新撬動了生態演進。
比如清華系AI獨角獸無問芯穹,基于CANN深度優化創新,有效降低了大模型推理的算力資源消耗。
2025年是AI應用大規模落地的元年,當推理算力需求激增的背景下,算力成本控制已然成為大模型落地的關鍵。為了解決這個問題,無問芯穹與昇騰針對大模型推理集群部署中的通信開銷展開了深度協同創新,通過全新的計算和通信重疊范式,對昇騰硬件的多元通信語義進行專項優化,單算子性能提升最高達20%,有效降低了算力資源消耗。
比如AI Infra創業團隊清昴智能,基于昇騰CANN構建起了從單卡效能到多卡集群的全局優化方案。
圍繞很多企業遇到的性能釋放不足問題,清昴智能通過基于CANN的專項優化,進行算子融合、調度策略改進、并行計算模式調整等等,顯著提升了昇騰Duo卡的推理性能表現,讓Duo卡也能跑起DeepSeek滿血版大模型。同時構建了從單卡效能打磨到多卡集群調度優化的全鏈路方案,為AIGC、自動駕駛等場景提供優質自主創新的選擇。
再比如清華大學計圖(Jittor)團隊,圍繞前沿大模型,基于CANN生態構建了自主創新的推理框架。
DeepSeek R1“出圈”后,清華大學計圖團隊迅速集結核心骨干分析適配方案,聯合昇騰研發團隊,在歷經三個月、數十次架構迭代、數百次功能更新后,構建了MoE專用算子體系,采用INT4量化技術、MLA矩陣吸收、多維度混合并行等技術,實現了性能與內存的雙重突破,率先在昇騰單臺Atlas 800 服務器上部署了滿血版DeepSeek R1模型。
對應的技術團隊還有很多。
作為生態系統中的技術支點,他們不站在舞臺中央,卻用一行行代碼、一次次迭代,為大模型應用打下了可落地、可擴展的技術基礎。
從推理性能的每一次提升,到部署成本的一次次降低,這些工程創新不僅重構了模型能力的邊界,不斷拓展昇騰CANN生態的價值,讓AI真正走進產業,走向現實。
03 以熱愛點燃生態:兩位教授刻畫了昇騰開發者的群像
一個開放生態的繁榮,不僅需要聚集開發者的力量,還需要用生態驅動商業閉環,形成持續的創新動能。
這就要提到第三類開發者,他們從開放生態中汲取養分,又不斷用實踐經驗反哺生態,通過深度融入生態、與場景緊密結合,賦予了昇騰生態自我生長、自我造血的能力。
昇騰CANN生態的繁榮,離不開每一位因熱愛而加入的開發者。
他們不是“最亮的光”,卻是一束束點亮中國AI未來的星火;他們可能不為人所熟知,卻始終在關鍵的工程節點上默默耕耘。我們無法細細講述6000位開發者的故事,但可以從兩位教授身上看到他們的群像。
第一位是來自華南理工大學的陸璐教授。
2022年剛接觸昇騰CANN時,陸璐教授也曾感慨“不夠親和,用起來比較難受”。但不同于純粹的吐槽,陸璐教授團隊在了解了昇騰的軟硬件體系后,開始逐步進行優化,讓算子性能從50%提升到了100%,甚至在某些場景中從200%提高到了500%。
作為開源開放的忠實擁躉,陸璐教授并未止步于性能上的優化,希望通過開源項目幫助更多的開發者降低門檻,用更少的時間、更少的代碼,實現更高的性能,最終和昇騰算子模板庫CATLASS結下了不解之緣。
正如陸璐教授在鯤鵬昇騰開發者大會2025的演講中所提到的:和國外友商對比,CATLASS模板庫在FP32精度下達到了2.78倍的加速效率,BF16是1.23倍、FP16是1.17倍、INT8達到了1.21倍。并表示接下來會做進一步的迭代,計劃開發MoE算力、通算融合算力、以及卷積類的算子。
第二位是西北工業大學的徐韜教授。
故事還要從2020年說起,西北工業大學成為首批加入“昇騰眾智計劃”的高校。徐韜教授迅速意識到了合作的價值:過去深度學習課程總是陷入“紙上談兵”的困境,學生們只能對著理論公式空想;昇騰平臺與資源池的引入,學生們可以在云端進行完整的建模、調參、部署等流程,真正實現“手腦并用”。
徐韜教授第一時間組建了項目小組,和學生一起打磨每一個算子,同時積極參加昇騰社區的高校挑戰賽、社區論壇、布道師等活動,學生們在解決實際問題的過程中,系統地掌握從算法設計到硬件適配的全鏈條技能。
兩個月前上線Gitee社區的CANN-Ops算子共建倉,是國內首個面向昇騰開發者的算子共建平臺。其中徐韜教授團隊已經自主開發并貢獻了近30個高性能算子,成為國內最早向昇騰CANN平臺提供多項核心支持的高校團隊之一,也是首個在CANN-Ops算子倉庫中完成算子合入的開發團隊。
陸璐和徐韜團隊所撬動的,不單單是算子開發效率的倍增,還是開發者之間交流經驗、沉淀最佳實踐、共建共創的平臺。
算子的每一次被使用、被改寫、被反饋,都將把個體的力量變成集體的勢能,把工具的價值轉化為生態的共振。生態,不只是技術堆疊,更是一群人共同選擇走的路。
04 寫在最后
從活躍在開源社區的一線開發者,到深耕底層優化的工程團隊,再到探索技術邊界的領軍企業,昇騰CANN已成為中國開發者生態最活躍、技術迭代最迅猛的AI創新平臺。
當不同背景與層級的開發者聚集在一起,當科研理論到產業應用的鏈條被打通,當全棧自主創新能力成為行業共識,當一個多元、開放、協同的CANN生態開出繁榮之花,將以前所未有的速度引領AI開發范式的變革,托舉起中國在智能時代的關鍵競爭力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.