網易首頁 > 網易號 > 正文申請入駐

Qwen3技術報告公開！235B模型性能居開源模型榜首

2025-05-14 20:58:22　來源: 智東西

北京舉報

分享至

智東西
編譯金碧輝
編輯程茜

智東西5月14日消息，昨日，阿里巴巴正式發布Qwen3系列大模型技術報告，首次全面公開其新一代開源模型的混合推理架構、訓練策略及評測結果。報告顯示，旗艦模型Qwen3-235B-A22B在數學（AIME25得分81.5）、代碼生成（LiveCodeBench 70.7）等核心評測中超越DeepSeek-R1（671B參數）、Grok-3等國際頂尖模型，并在多語言支持（119種語言）、推理效率（4張H20顯卡部署旗艦模型）及任務適應性（動態切換快/慢思考模式）上實現突破。

▲圖源阿里巴Qwen3系列大模型技術報告

4月29日，阿里巴巴正式發布新一代通義千問大模型Qwen3，包含6款稠密模型和2款MoE模型，參數規模覆蓋0.6B至235B。其旗艦模型Qwen3-235B-A22B以22B激活參數實現235B總參數量，在編程、數學推理等基準測試中超越DeepSeek-R1等全球頂尖模型。

▲Qwen3-235B-A22B-Base與其他具有代表性的強大開源基準模型的比較

Qwen3系列的旗艦模型Qwen3-235B-A22B于今年5月6日登頂國際權威大模型測評榜LiveBench開源大模型性能的榜首。

▲圖源5月6日LiveBench榜單官網截圖

技術報告地址：https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf

一、雙系統推理架構，日常對話響應速度提升60%，算力消耗降低40%

Qwen3系列模型核心創新為雙系統推理架構。面對數學證明、代碼生成等復雜任務，Qwen3系列模型啟動“慢思考”深度推理模塊，Qwen3系列模型支持38K token動態思考預算，進行多步驟邏輯鏈分析；日常對話場景下，Qwen3系列模型以“快思考”模式激活20%參數，響應速度提升60%，算力消耗降低40%。

▲Qwen3-235B-A22B在思考預算方面的性能

Qwen3系列模型的后訓練流程圍繞兩大核心目標設計：其一為“思考控制”，通過集成“非思考”與“思考”兩種模式，用戶可靈活選擇模型是否進行推理，并能通過指定token預算控制思考深度；其二是“慢思考”，旨在簡化和優化輕量級模型的后訓練過程，Qwen3系列模型借助大規模模型的知識，大幅降低構建小規模模型所需的計算成本與開發工作量。

▲Qwen3系列模型的后訓練流程

此外，Qwen3系列模型還集成視覺（Qwen3-VL）、音頻（Qwen3-Audio）模塊，可實現醫學影像分析等跨模態任務。

二、Qwen3-235B-A22B在數學、代碼評測中超越DeepSeek-R1、Grok-3-Beta

旗艦模型Qwen3-235B-A22B在多項評測中成績優異。Qwen3-235B-A22B數學推理的AIME25奧數測評中獲81.5分，刷新開源模型紀錄，遠超DeepSeek-R1等頂尖模型。

▲AIME25在數學推理方面的奧數測評成績

旗艦模型Qwen3-235B-A22B在代碼生成的LiveCodeBench評測中得分超70分，超越Grok-3-Beta和DeepSeek-R1等主流模型，Qwen3-235B-A22B的代碼細節完善且推理耗時更短；多輪對話中Qwen3-235B-A22B能精準識別并完成復雜指令，如扮演職業金融分析師并以特定風格分析問題，給出適配回答。

▲AIME25在代碼生成方面的測評成績

三、4張卡跑235B模型，Qwen3系列模型多項數據碾壓

Qwen3系列模型訓練數據量飆升至36萬億token，覆蓋119種語言，數據構成豐富多元，其中包含合成數據以及從PDF文檔經OCR提取的內容。Qwen3系列模型訓練流程采用四階段后訓練模式。

先是長思維鏈冷啟動，Qwen3系列模型借助多樣的長思維鏈數據對模型微調，為其處理復雜任務，如數學、編程、邏輯推理等奠定基礎；接著Qwen3系列模型開展強化學習優化，運用基于規則的獎勵機制，大力提升模型在面對復雜任務時探索并尋求最佳答案的推理能力；隨后Qwen3系列模型進行思維模式融合，讓模型能依據任務特性，在“思考模式”與“非思考模式”間自如切換；最后Qwen3系列模型通過對20多個常見任務實施強化學習微調，完成通用任務校準，全面提升模型的推理與指令遵循水平。

在硬件與效率優化層面，MoE模型采用動態激活專家策略，默認配置下專家池規模可達128個，每處理一個token會激活8個專家，搭配負載均衡算法，保障了訓練穩定性。在硬件協同上，MoE模型僅需4張H20加速卡，便能實現235B旗艦模型的部署。

Qwen3系列模型在參數效率、推理成本、多語言支持及AI Agent開發等多個維度展現出顯著優勢。

參數效率上，30B MoE模型激活參數僅3B，性能卻超越上代32B Dense模型；推理成本方面，以15B-A2B模型為例，在英偉達A100顯卡上，30B MoE模型單次推理耗時較同等性能14B稠密模型降低42%，30B MoE模型顯存占用從28GB降至18GB，吞吐量提升至1.2倍，實現消費級顯卡部署高性能模型的效果。

多語言支持上，Qwen3系列模型覆蓋全球90%以上人口的119種語言和方言；AI Agent開發上，Qwen3系列模型原生支持MCP協議，集成Qwen-Agent框架，Qwen3系列模型的工具調用能力在BFCL評測中以70.8分超越OpenAI-o1。

結語；Qwen3系列模型正在縮小與頂尖閉源產品的差距

Qwen3系列模型通過混合推理架構與高效訓練策略，在性能、成本、多語言支持等維度樹立開源模型新標桿。其動態資源分配機制（如思考預算控制）為企業節省75%算力成本，而119種語言覆蓋能力為全球化業務提供底層支持。

Qwen3系列模型在多項評測中表現突出，其混合推理架構與高效訓練策略展現強勁實力。盡管在實際場景應用中，如代碼生成與創意寫作領域，仍需進一步驗證效果，Qwen3系列模型與頂尖閉源產品的差距正逐步縮小。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.