大模型獨立分析公司Artificial Analysis對Qwen3 在GPQA數據集最新評估來了!
GPQA- 全稱: Graduate-Level Google-Proof Q&A (研究生水平、防谷歌搜索問答)
核心目標: 評估大型語言模型(LLMs)是否真正具備專家級別的知識理解和復雜的推理能力,而不僅僅是信息檢索或模式匹配。它旨在衡量模型能否像一個領域專家那樣思考和解決問題
GPQA Diamond 是從高難度 GPQA 基準測試中精選出的、難度最高的一部分問題,專門用于在需要專家級知識和復雜推理的極限挑戰場景下,嚴格區分和衡量頂尖 AI 模型的真實能力上限
初步結果如下:
Qwen3:開源權重與效率的雙重勝利
Qwen3 系列混合推理模型是一次重要的發布。這些模型僅用約 DeepSeek R1 三分之一的總參數量,其 GPQA 得分便能接近后者,同時還提供了一系列適用于計算資源受限環境的小型模型。
阿里發布了八款不同規模和架構的混合推理模型。這些模型的一大特點是可以在回答前選擇性地開啟“思考”模式。模型參數規模覆蓋范圍廣泛,從 0.6B(十億)參數的密集模型,一直到擁有 235B 總參數和 22B 激活參數的 MoE(混合專家)模型。
初步評估結果顯示,所有 Qwen3 模型在其各自的參數規模級別上都展現出強大的競爭力。特別值得一提的是,235B-A22B 版本雖然參數量顯著少于 DeepSeek R1(后者總參數 671B,激活參數 37B),但其性能表現已十分接近
Artificial Analysis已經啟動了評估流程,并完成了對以下三款模型在開啟推理(Reasoning)模式下的 GPQA Diamond 基準測試:
?Qwen3 235B-A22B (推理模式):得分 70%,與 DeepSeek R1 和 Gemini 2.5 Flash (推理模式) 的表現相當。相比阿里此前表現最好的模型 Qwen1.5-32B(在我們 GPQA Diamond 評估中得分 59%),這是一個顯著的飛躍
?Qwen3 30B-A3B (推理模式):得分 62%,表現緊隨頂尖的非推理模型 DeepSeek V3 0324 和 Llama 4 Maverick 之后。考慮到這款模型僅有 3B 激活參數,其表現非常亮眼——作為對比,同類競品模型的規模要大得多(DeepSeek V3 03-24 總參數 671B,激活參數 37B;Llama 4 Maverick 總參數 402B,激活參數 17B)。Qwen3-32B 密集模型也將很快發布
?Qwen3-14B (推理模式):得分 60%,表現與 Llama 4 Scout 相當,但其總參數和激活參數都更少(Qwen3 為 14B/14B,而 Scout 為 109B/17B)
Qwen3 豐富的模型尺寸梯度能夠滿足從端側設備(覆蓋 8B、4B、1.7B、0.6B 模型)到大型服務器節點(如用于 235B 模型的 8xH100 DGX)的各種部署環境需求。這對開源權重社區而言是又一重大利好
針對 Qwen3 全系列模型(包含開啟和關閉推理模式)的 7 項完整評估結果也會很快發布
?星標AI寒武紀,好內容不錯過?
用你的贊和在看告訴我~
求贊
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.