網易首頁 > 網易號 > 正文申請入駐

搶先DeepSeek R2，阿里通義正式發布國內首個通用推理模型 | 電廠

2025-04-29 22:37:41　來源: 電廠

上海舉報

分享至

記者董溫淑

編輯高宇雷

Qwen 3模型即將發布的消息，已經流傳了一個月的時間；特別是最近一周內，坊間對Qwen 3的猜測不斷在“憋個大的”與“最終難產”之間反復橫跳。

直到4月29日凌晨，這款備受關注的模型終于亮相，號稱全面超越DeepSeek R1。

杭州一家中廠的算法從業者告訴「電廠」：“近幾個月網上不少DeepSeek R2的泄露信息，有人說R2要在5月份發。Qwen 3（這個時間發布）肯定是想搶個先機。”

在一家國產大模型開放平臺工作的劉露則透露，其所在的團隊提前不到12小時獲知Qwen3的發布消息，團隊成員連夜完成了Qwen 3系列模型在該平臺的部署上線。

無論如何，Qwen 3的亮相都意味著開源AI大模型的技術能力再次被刷新；與之相繼的，將是產業鏈下游應用者迎來一次新的生態選擇。

「電廠」注意到，Qwen 3發布僅10小時，已經有開發者發布了套殼Qwen 3系列模型的ChatBot類產品。

基于Qwen 3的第三方ChatBot類產品，圖源/網絡 ?

國內首個混合推理模型，成本/性能超越DeepSeek R1

根據阿里云通義千問團隊官宣，Qwen3系列開源了8個模型，其中包含2個MoE（混合專家）大模型和6個Dense（稠密）大模型。

本次Qwen3系列模型尤為值得關注的創新是該模型支持思考模式、非思考模式兩種運行方式。

在思考模式下，模型會逐步推理，經過深思熟慮后給出最終答案。這種方法適合需要深入思考的復雜問題；在非思考模式中，模型會提供快速、近乎即時的響應，適用于對速度要求高于深度的簡單問題。

換句話說，Qwen3打破了DeepSeek R1等思維鏈模型慢思考的單一模式，而是為用戶賦予靈活選擇的權利。這也是如今全球大模型市場發展的重要方向之一。

不同Benchmark下Qwen3兩種思考模式對比，圖源/阿里云通義 ?

今年2月份，由部分OpenAI前員工創辦的Anthropic在全球范圍內率先發布了名為Claude 3.7 Sonnet的混合推理模型，被視為融合了DeepSeek V3（適于通用任務）與R1（適于推理任務）模型的各自優勢。

這種混合模式引起了業界的廣泛關注。OpenAI創始人Sam Altman就曾表示，OpenAI接下來將研發“它能夠知道什么時候應該長時間思考，并且通常適用于廣泛任務”的模型。而Qwen3是國內首個混合推理模型。

性能及成本優化方面，Qwen3系列也表現驚人。

比如本次開源的兩個MoE模型，權重分別為Qwen3-235B-A22B，是一個擁有 2350 多億總參數和220多億激活參數的大模型；另一個為Qwen3-30B-A3B，一個擁有約300億總參數和30億激活參數的小型MoE模型。

MoE（混合專家模型）混合包含多個專家網絡，每個專家通常是一個子模型、也可以是神經網絡的一個子模塊，擁有不同的能力或專長，能夠處理不同類型的輸入數據。在運行時，不同任務會被進行分類、輸送到相應的“專家”處進行解決。

DeepSeek V3與R1都屬于MoE模型。這種架構的優勢是其能夠，并且在解決任務時僅調動與之相應的模塊、節省計算成本。這也是“AI界拼多多”DeepSeek提升性價比的殺手锏之一。作為與Qwen3的對比，DeepSeek V3與R1總參數規模為6710億參數，激活參數為370億。

性能方面，官方信息顯示，Qwen旗艦模型 Qwen3-235B-A22B 在代碼、數學、通用能力等基準測試中，與 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等頂級模型相比，均展現出優勢。

小型MoE模型Qwen3-30B-A3B ，相比DeepSeek V3、GPT 4o、谷歌Gemma3-27B-1T等模型同樣表現優異。

六個開源的Dense模型均適用于通用任務解決，包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B。

值得一提的是參數量極低的Qwen3-4B模型，也在不少任務中展現出來相比GPT 4o更為優異的成績。

上述模型均在 Apache 2.0 許可下開源。這是一種較為寬松的許可證，允許代碼修改和再發布（作為開源或商業軟件）。

Qwen3模型還支持 119 種語言和方言，并優化了Agent和代碼能力、加強了對MCP的支持。

開源大模型“城頭變換大王旗”

Qwen3的發布，距離DeepSeek R1的亮相已過去了3個多月。

1月20日，憑借比肩OpenAI o1的性能、低廉的成本，以及對大模型研發范式的改變，R1一經發布就榮膺開源大模型世界的“無冕之王”至今。

在此期間，包含科大訊飛（星火X1）、百度（文心X1）、OpenAI（o3 mini）、阿里（Qwen-QwQ-32B）、字節（豆包1.5深度思考）在內的玩家紛紛下場推理模型，但至多是接近R1性能或實現部分超越，未能真正挑動后者的位置。

在大模型的世界里，數月的時間已足夠一代新王換舊王。正是這樣的背景下，關注的目光落到了Qwen3身上。

與許多國內玩家不同的是，早在2024年8月，阿里就公開站到了開源自研模型的大廠陣營之中。在這條最終被DeepSeek驗證可行的市場之路上，Qwen可以說已經提前拿到了不少牌。

至今Qwen系列產品已在不少開源榜單中排名靠前。如據全球最大AI開源社區Huggingface 4月29日顯示，在audio-text-to-text任務類目下，Qwen的兩款模型熱度居前。

Huggingface 于2月10日發布的開源大模型榜單“Open LLM Leaderboard”也顯示，排名前十的開源大模型全部是基于Qwen開源模型二次訓練的衍生模型。

圖源/Huggingface ?

在生態活躍度方面，Qwen也處于全球前列。據官方數據顯示，從2024年下半年開始至2025年1月底，基于Qwen系列的衍生模型數量超過了美國Llama系列，超過9萬個，已是全球最大的AI模型家族，超過了Meta 旗下的Llama家族。

不過對比Llama系列，Qwen系列開源模型在下載量方面與前者仍有差距。據Meta首席執行官Zuck Burg在今年3月份宣布，Llama的下載量已達到10億次；而Qwen系列的下載量還在千萬級別。

在Qwen3發布這一天，周靖人接受了“晚點”的采訪，他講道，判斷“開源生態跑出來了”的指標主要有兩點“一是看開發者的選擇，二是看性能指標”。

本次隨著Qwen3的發布，這款新模型通過在性能指標和成本方面超越DeepSeek R1，以及創新的混合推理模式，登頂為全球最強大的開源大模型，又為Qwen增添了一張好牌。

但在這之后，還有更多的挑戰等待著它。接下來DeepSeek R2的亮相，也將為整個市場增添新的變數。

在貫徹“第一通吃（winner-takes-all）”定律的開源市場，競爭遠未到達終局、誰能成為最終的“winner”還充滿未知，無論是DeepSeek，還是Qwen和Llama，都仍需要為不下牌桌而持續努力。

不過值得欣慰的是，雖然戰程未半，至少當下的開源大模型“桂冠”仍歸屬于國產玩家。

（注：文中劉露為化名）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

AGI真方向?谷歌:智能體在自研世界模型，世界模型is all You Need

機器之心Pro 2025-06-13 10:51:33
5 跟貼 5
AI智能體上線，營銷人下線？ | AI無悖論

虎嗅APP 2025-06-15 01:00:27
0 跟貼 0

世界模型在機器人任務規劃中的全新范式：通用機器人規劃模型FLIP

機器之心Pro 2025-03-19 14:50:58
1 跟貼 1

統一20+多智能體方法，MASLab震撼發布

機器之心Pro 2025-06-13 16:07:44
3 跟貼 3
Figure自曝完整技術：60分鐘不間斷打工，我們的機器人如何做到？

量子位 2025-06-13 16:20:17
5 跟貼 5

當大模型接入玩具 AI硬件與情緒消費殊途同歸？

財聯社 2025-06-15 08:24:12
3 跟貼 3

阿爾法“狩獵者”朱劍濤：用機器學習模型捕獲量化投資的市場紅利

華爾街見聞官方 2025-04-29 11:36:23
1 跟貼 1
MCU：全球首個生成式開放世界基準，革新通用AI評測范式

機器之心Pro 2025-05-13 17:16:26
15 跟貼 15

誰是開源界的杠把子？

虎嗅APP 2025-04-11 23:29:08
3 跟貼 3
全方位實測首個AI原生瀏覽器！618比價、寫高考作文

量子位 2025-06-15 12:51:58
0 跟貼 0
AI輔助編碼帶來思維方式轉變：從人寫代碼到人審代碼

量子位 2025-04-18 17:04:43
0 跟貼 0
剛剛！陶哲軒3小時對話流出：AI搶攻菲爾茲獎倒計時

新智元 2025-06-15 13:36:20
0 跟貼 0
全球程序員炸鍋！老黃倫敦放豪言：編程語言的未來是「Human」

新智元 2025-06-15 09:12:25
2 跟貼 2
AI ASMR突然火爆全網！一條切水果視頻播放量破1650萬

量子位 2025-06-15 12:26:34
0 跟貼 0
全面評測圖像編輯模型推理能力：所有模型在程序性推理方面表現差

量子位 2025-06-13 14:20:11
0 跟貼 0
一句話讓DeepSeek控制你的電腦！微軟開源神器OmniParser V2

量子位 2025-02-18 20:48:36
0 跟貼 0
AI自己給自己當網管，實現安全“頓悟時刻”，風險率直降9.6%

量子位 2025-06-13 17:03:41
0 跟貼 0
98%醫生點贊的AI隊友，斯坦福實驗揭秘：診斷準確率飆升10%！

新智元 2025-06-15 13:34:46
0 跟貼 0
《人類簡史》作者怒懟硅谷：智能≠真理，AI正在走偏！

新智元 2025-06-15 13:37:24
0 跟貼 0
傳統MVP模型不成立了，AI時代要更多預測剛需場景

量子位 2025-04-22 14:14:16
0 跟貼 0
宇樹科技G1機器人展示武打動作：算法升級任意動作任意學

財聯社 2025-02-25 23:59:43
0 跟貼 0
手機號碼要求實名制，而詐騙電話卻成了虛擬號碼，靈魂拷問

樸挽涼 2025-06-12 17:45:58
8920 跟貼 8920
官方信息匯總

主持人閆剛 2025-06-12 21:19:58
1 跟貼 1
中國大陸首次公布東風5參數，沒那么簡單！中美導彈迭代速度對比

黎建南臺灣 2025-06-14 07:00:00
1 跟貼 1
硬科技投向標|工信部：加強人工智能在制造業計量領域的應用硅基流動獲阿里領投數億元融資

財聯社 2025-06-15 08:20:12
0 跟貼 0
再次出手，74歲的他，接了阿里的盤！

華商韜略 2025-01-14 10:28:48
44 跟貼 44
臺灣館長剛參觀完城隍廟被粉絲包圍合影，并體驗deepseek

Hello吖小志 2025-06-12 18:25:20
13 跟貼 13
很多人為小紅書歡呼, 卻誤解了“中國平臺海外用”現象的本質

文化縱橫 2025-01-24 15:55:25
0 跟貼 0
阿里離職員工發萬字長文，馬云回應

時代周報 2025-06-12 19:15:37
0 跟貼 0
對Llama4太不滿！Meta CEO扎克伯格招人組新AI團隊

量子位 2025-06-12 18:16:16
0 跟貼 0
馬斯克父親盛贊中國：中國人非常聰明，你怎么能和中國人作對？這太荒謬了

財聯社 2025-06-13 19:29:38
0 跟貼 0
1200行代碼逆襲！DeepSeek工程師開源輕量級vLLM，吞吐量逼近原版

機器之心Pro 2025-06-13 14:17:09
23 跟貼 23
仰望核心技術，泄露警告

嘻哈搞笑局 2025-06-14 00:00:00
1 跟貼 1
無病呻吟的大廠離職信

陶舜財經 2025-06-12 08:18:13
15 跟貼 15
科學家構建醫療視覺大模型，實現多模態理解與生成任務最優結果

DeepTech深科技 2025-06-11 14:50:25
0 跟貼 0
對話開源中國馬越：DeepSeek不是國運級的創新，年輕人才是

36氪 2025-03-13 18:14:13
14 跟貼 14
阿里深夜開源Qwen2.5-Omni，7B參數完看、聽、說、寫

機器之心Pro 2025-03-27 10:36:47
0 跟貼 0
阿里巴巴蔡崇信自曝：被DeepSeek逼急，工程師春節睡辦公室搞研發

中國財富網 2025-06-14 02:30:25
0 跟貼 0
螞蟻集團法人代表變更為CEO韓歆毅，公司核心管理團隊保持不變

每日經濟新聞 2025-06-13 16:25:54
0 跟貼 0
北京一工人私刻印章，4年詐騙醫院17萬，為何卻被從輕處理了？

風趣文史 2025-06-14 23:11:59
0 跟貼 0

電廠

探索科技公司的未知，為你充電

1646文章數 1042關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

手機

時尚

數碼

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
指紋識別有可能認錯人嗎？
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

搶先DeepSeek R2，阿里通義正式發布國內首個通用推理模型 | 電廠

華為Pura80系列首銷：不再嚴重缺貨

以色列空襲胡塞武裝高層秘密會議 現場大約有10具尸體

以色列空襲胡塞武裝高層秘密會議 現場大約有10具尸體

裁判可以噴，但也從步行者自身找找問題？

鳳凰傳奇曾毅塌房？網友：別連累玲花

以伊沖突持續升級，對全球市場影響多大

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

最近的打工人，都在熬夜看這劇逐幀學習職場小技巧

小米 REDMI Turbo 4 Pro 手機 2.0.206.0 版本屏幕失靈問題已優化

裙子里別穿“安全褲”了！今夏流行這樣穿！

全球獨此一份！黃仁勛簽名RTX 5090黃金版拍出17萬元天價

以色列空襲胡塞武裝高層秘密會議現場大約有10具尸體

以色列空襲胡塞武裝高層秘密會議現場大約有10具尸體