智東西
編譯 金碧輝
編輯 程茜
智東西5月14日消息,昨日,阿里巴巴正式發布Qwen3系列大模型技術報告,首次全面公開其新一代開源模型的混合推理架構、訓練策略及評測結果。報告顯示,旗艦模型Qwen3-235B-A22B在數學(AIME25得分81.5)、代碼生成(LiveCodeBench 70.7)等核心評測中超越DeepSeek-R1(671B參數)、Grok-3等國際頂尖模型,并在多語言支持(119種語言)、推理效率(4張H20顯卡部署旗艦模型)及任務適應性(動態切換快/慢思考模式)上實現突破。
▲圖源阿里巴Qwen3系列大模型技術報告
4月29日,阿里巴巴正式發布新一代通義千問大模型Qwen3,包含6款稠密模型和2款MoE模型,參數規模覆蓋0.6B至235B。其旗艦模型Qwen3-235B-A22B以22B激活參數實現235B總參數量,在編程、數學推理等基準測試中超越DeepSeek-R1等全球頂尖模型。
▲Qwen3-235B-A22B-Base與其他具有代表性的強大開源基準模型的比較
Qwen3系列的旗艦模型Qwen3-235B-A22B于今年5月6日登頂國際權威大模型測評榜LiveBench開源大模型性能的榜首。
▲圖源5月6日LiveBench榜單官網截圖
技術報告地址:https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf
一、雙系統推理架構,日常對話響應速度提升60%,算力消耗降低40%
Qwen3系列模型核心創新為雙系統推理架構。面對數學證明、代碼生成等復雜任務,Qwen3系列模型啟動“慢思考”深度推理模塊,Qwen3系列模型支持38K token動態思考預算,進行多步驟邏輯鏈分析;日常對話場景下,Qwen3系列模型以“快思考”模式激活20%參數,響應速度提升60%,算力消耗降低40%。
▲Qwen3-235B-A22B在思考預算方面的性能
Qwen3系列模型的后訓練流程圍繞兩大核心目標設計:其一為“思考控制”,通過集成“非思考”與“思考”兩種模式,用戶可靈活選擇模型是否進行推理,并能通過指定token預算控制思考深度;其二是“慢思考”,旨在簡化和優化輕量級模型的后訓練過程,Qwen3系列模型借助大規模模型的知識,大幅降低構建小規模模型所需的計算成本與開發工作量。
▲Qwen3系列模型的后訓練流程
此外,Qwen3系列模型還集成視覺(Qwen3-VL)、音頻(Qwen3-Audio)模塊,可實現醫學影像分析等跨模態任務。
二、Qwen3-235B-A22B在數學、代碼評測中超越DeepSeek-R1、Grok-3-Beta
旗艦模型Qwen3-235B-A22B在多項評測中成績優異。Qwen3-235B-A22B數學推理的AIME25奧數測評中獲81.5分,刷新開源模型紀錄,遠超DeepSeek-R1等頂尖模型。
▲AIME25在數學推理方面的奧數測評成績
旗艦模型Qwen3-235B-A22B在代碼生成的LiveCodeBench評測中得分超70分,超越Grok-3-Beta和DeepSeek-R1等主流模型,Qwen3-235B-A22B的代碼細節完善且推理耗時更短;多輪對話中Qwen3-235B-A22B能精準識別并完成復雜指令,如扮演職業金融分析師并以特定風格分析問題,給出適配回答。
▲AIME25在代碼生成方面的測評成績
三、4張卡跑235B模型,Qwen3系列模型多項數據碾壓
Qwen3系列模型訓練數據量飆升至36萬億token,覆蓋119種語言,數據構成豐富多元,其中包含合成數據以及從PDF文檔經OCR提取的內容。Qwen3系列模型訓練流程采用四階段后訓練模式。
先是長思維鏈冷啟動,Qwen3系列模型借助多樣的長思維鏈數據對模型微調,為其處理復雜任務,如數學、編程、邏輯推理等奠定基礎;接著Qwen3系列模型開展強化學習優化,運用基于規則的獎勵機制,大力提升模型在面對復雜任務時探索并尋求最佳答案的推理能力;隨后Qwen3系列模型進行思維模式融合,讓模型能依據任務特性,在“思考模式”與“非思考模式”間自如切換;最后Qwen3系列模型通過對20多個常見任務實施強化學習微調,完成通用任務校準,全面提升模型的推理與指令遵循水平。
在硬件與效率優化層面,MoE模型采用動態激活專家策略,默認配置下專家池規模可達128個,每處理一個token會激活8個專家,搭配負載均衡算法,保障了訓練穩定性。在硬件協同上,MoE模型僅需4張H20加速卡,便能實現235B旗艦模型的部署。
Qwen3系列模型在參數效率、推理成本、多語言支持及AI Agent開發等多個維度展現出顯著優勢。
參數效率上,30B MoE模型激活參數僅3B,性能卻超越上代32B Dense模型;推理成本方面,以15B-A2B模型為例,在英偉達A100顯卡上,30B MoE模型單次推理耗時較同等性能14B稠密模型降低42%,30B MoE模型顯存占用從28GB降至18GB,吞吐量提升至1.2倍,實現消費級顯卡部署高性能模型的效果。
多語言支持上,Qwen3系列模型覆蓋全球90%以上人口的119種語言和方言;AI Agent開發上,Qwen3系列模型原生支持MCP協議,集成Qwen-Agent框架,Qwen3系列模型的工具調用能力在BFCL評測中以70.8分超越OpenAI-o1。
結語;Qwen3系列模型正在縮小與頂尖閉源產品的差距
Qwen3系列模型通過混合推理架構與高效訓練策略,在性能、成本、多語言支持等維度樹立開源模型新標桿。其動態資源分配機制(如思考預算控制)為企業節省75%算力成本,而119種語言覆蓋能力為全球化業務提供底層支持。
Qwen3系列模型在多項評測中表現突出,其混合推理架構與高效訓練策略展現強勁實力。盡管在實際場景應用中,如代碼生成與創意寫作領域,仍需進一步驗證效果,Qwen3系列模型與頂尖閉源產品的差距正逐步縮小。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.