網易首頁 > 網易號 > 正文申請入駐

Claude 4系列模型正式發布，號稱“世界上最好的”AI編程模型

2025-05-23 11:27:51　來源: DeepTech深科技

北京舉報

分享至

當地時間5 月 22 日，Anthropic 在其首次開發者大會上，正式發布了其下一代 Claude 模型系列：Claude Opus 4 和 Claude Sonnet 4。該公司在公告中高調宣稱，新的旗艦模型 Claude Opus 4 是“世界上最好的編程模型”，在編程、高級推理和AI 智能體（AI agents）方面樹立了全新標準，旨在處理復雜、長時間運行的任務和智能體工作流程。與此同時，Claude Sonnet 4 作為對 Claude Sonnet 3.7 的重大升級，也提供了在編程和推理能力等方面，也取得了相當大的進步。

Anthropic 表示，Claude Opus 4 是其迄今為止最強大的模型，尤其在編碼領域表現突出。根據 Anthropic 提供的數據，Opus 4 在 SWE-bench（一個評估真實軟件工程任務性能的基準）上達到了 72.5% 的準確率（使用并行測試時計算可達 79.4%），在 Terminal-bench（一個測試 AI 模型在終端環境中執行編碼任務能力的基準）上達到了 43.2%（并行測試時計算可達 50.0%）。各項數據均超過了 Gemini 2.5 Pro 等其他競品模型。Claude Sonnet 4 同樣表現出色，在 SWE-bench 上實現了 72.7% 的準確率（并行測試時計算可達 80.2%），在某些特定配置下甚至略高于 Opus 4。

圖丨基準測試結果（來源：Anthrpoic）

一些早期測試用戶在社交媒體上分享了他們的體驗，從側面印證了Claude 4 的強大。

例如，知名AI 博主 Ethan Mollick 僅用一句簡單的提示：“the book Piranesi as a p5js 3d space. do it for me”（將《皮拉內西》這本書創作成一個p5.js 的 3D 空間，幫我實現它），沒有提供任何其他提示，Claude 4 便生成了一個令人印象深刻的 3D 空間演示，其中包含了鳥、水和光照效果，效果看起來相當不錯。

還有用戶僅用單次提示就生成了復雜的雙擺模擬系統，表現非常出色。

另一位知名博主Peter Yang 也獲得了早期訪問權限，他總結道：“1. 它在寫作和編輯方面仍然是同類最佳。2. 它的編碼能力和 Gemini 2.5 一樣好。”還展示了Claude 4 一次性構建了一個功能齊全的俄羅斯方塊游戲。

圖丨相關推文（來源：X）

除了強大的編碼能力，新一代Claude 模型在推理和 AI 智能體功能方面也邁出了重要一步。Anthropic 推出了“工具使用下的擴展思考”（extended thinking with tool use）測試版功能。這意味著兩個模型都能在進行擴展思考時使用工具（如網絡搜索），允許 Claude 在推理和工具使用之間交替進行，以改進響應質量。

此外，新模型具備并行使用工具的能力，能更精確地遵循指令，并且在開發者授予本地文件訪問權限時，展現出顯著改進的記憶能力，能夠提取和保存關鍵事實，以保持連續性并逐步建立隱性知識。

Anthropic 特別提到，新模型顯著減少了模型使用“捷徑”或“漏洞”來完成任務的行為。與Sonnet 3.7 相比，Opus 4 和 Sonnet 4 在這類易受影響的智能體任務中，發生此類行為的可能性降低了 65%。

（來源：iGent AI）

記憶能力的提升也是Claude 4 系列的一大看點。Anthropic 的首席產品官 Mike Krieger 在接受 WIRED 采訪時提到，Claude Opus 4 能夠“在《寶可夢》游戲中以智能體方式工作長達24 小時”，而此前模型最長只能玩45 分鐘。Anthropic 甚至進行了一個名為“Claude Plays Pokémon”的Twitch 直播，展示了 Claude 3.7 Sonnet 在《寶可夢》游戲中的表現。

圖丨Opus 4 在玩寶可夢時記下的真實筆記（來源：Anthropic）

Claude 4 Opus 則在此基礎上更進一步，當它在游戲中導航一個復雜的任務時，研究人員注意到其長期記憶和規劃能力的改進。例如，當 AI 意識到需要特定能力才能前進時，它會花兩天時間提升技能，然后再繼續游戲。這種多步驟推理且無需立即反饋的能力，所反映的正是模型在保持任務連貫性和追蹤目標方面的進步。

Anthropic 的研究員 David Hershey 解釋說，這項研究的目的是探索 Claude 如何作為智能體獨立完成復雜任務。當開發者構建允許 Claude 訪問本地文件的應用程序時，Opus 4 能夠熟練地創建和維護“記憶文件”來存儲關鍵信息。這解鎖了更好的長期任務感知、連貫性和智能體任務性能，就像Opus 4 在玩《寶可夢》時創建了一個“導航指南”一樣。這種能力對于需要長時間保持上下文的AI 智能體至關重要，無論是自動化數小時的工作流，還是進行大規模代碼重構。Krieger 提到，一位早期客戶（日本樂天）就曾讓模型連續工作 7 小時完成了一項大型代碼重構任務。

定價方面，Claude 4 模型與其前代產品保持一致：Opus 4 的輸入價格為每百萬 token 15 美元，輸出價格為每百萬 token 75 美元；Sonnet 4 的輸入價格為每百萬 token 3 美元，輸出價格為每百萬 token 15 美元。兩種模型都提供擴展思考模式的開關。Sonnet 4 將繼續向免費用戶提供，而 Opus 4 則需要付費訂閱。

伴隨新模型的發布，Anthropic 還宣布 Claude Code（最初于今年 2 月推出）在經過數月預覽測試后正式普遍可用。Claude Code 旨在將 Claude 的強大能力更廣泛地融入開發者的工作流程中，無論是在終端、偏好的 IDE 中，還是通過 Claude Code SDK 在后臺運行。新的針對 VS Code 和 JetBrains 的 beta 版擴展程序能將 Claude Code 直接集成到 IDE 中，Claude 提出的編輯建議會以內聯方式顯示在文件中，簡化了在熟悉編輯器界面內的審查和跟蹤流程。

此外，Anthropic 還發布了一個可擴展的 Claude Code SDK，允許開發者使用與 Claude Code 相同的核心智能體構建自己的智能體和應用程序。

Anthropic API 也迎來了四項新功能，旨在幫助開發者構建更強大的 AI 智能體，包括：代碼執行工具、MCP 連接器、Files API 以及將提示緩存長達一小時的能力。

Anthropic 聲稱，“這些模型是朝著虛擬協作者邁出的一大步——保持完整的上下文，持續專注于更長的項目，并推動變革性影響。”回顧近期谷歌、OpenAI 以及 Anthropic 等 AI 巨頭們發布的各項成果，無一不在為這一方向努力。

參考資料：

1.https://www.anthropic.com/news/claude-4

2.https://igent.ai/sonnet4eval.pdf

3.https://www.wired.com/story/anthropic-new-model-launch-claude-4/

排版：溪樹

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.