當地時間5 月 22 日,Anthropic 在其首次開發者大會上,正式發布了其下一代 Claude 模型系列:Claude Opus 4 和 Claude Sonnet 4。該公司在公告中高調宣稱,新的旗艦模型 Claude Opus 4 是“世界上最好的編程模型”,在編程、高級推理和AI 智能體(AI agents)方面樹立了全新標準,旨在處理復雜、長時間運行的任務和智能體工作流程。與此同時,Claude Sonnet 4 作為對 Claude Sonnet 3.7 的重大升級,也提供了在編程和推理能力等方面,也取得了相當大的進步。
Anthropic 表示,Claude Opus 4 是其迄今為止最強大的模型,尤其在編碼領域表現突出。根據 Anthropic 提供的數據,Opus 4 在 SWE-bench(一個評估真實軟件工程任務性能的基準)上達到了 72.5% 的準確率(使用并行測試時計算可達 79.4%),在 Terminal-bench(一個測試 AI 模型在終端環境中執行編碼任務能力的基準)上達到了 43.2%(并行測試時計算可達 50.0%)。各項數據均超過了 Gemini 2.5 Pro 等其他競品模型。Claude Sonnet 4 同樣表現出色,在 SWE-bench 上實現了 72.7% 的準確率(并行測試時計算可達 80.2%),在某些特定配置下甚至略高于 Opus 4。
圖丨基準測試結果(來源:Anthrpoic)
一些早期測試用戶在社交媒體上分享了他們的體驗,從側面印證了Claude 4 的強大。
例如,知名AI 博主 Ethan Mollick 僅用一句簡單的提示:“the book Piranesi as a p5js 3d space. do it for me”(將《皮拉內西》這本書創作成一個p5.js 的 3D 空間,幫我實現它),沒有提供任何其他提示,Claude 4 便生成了一個令人印象深刻的 3D 空間演示,其中包含了鳥、水和光照效果,效果看起來相當不錯。
還有用戶僅用單次提示就生成了復雜的雙擺模擬系統,表現非常出色。
另一位知名博主Peter Yang 也獲得了早期訪問權限,他總結道:“1. 它在寫作和編輯方面仍然是同類最佳。2. 它的編碼能力和 Gemini 2.5 一樣好。”還展示了Claude 4 一次性構建了一個功能齊全的俄羅斯方塊游戲。
圖丨相關推文(來源:X)
除了強大的編碼能力,新一代Claude 模型在推理和 AI 智能體功能方面也邁出了重要一步。Anthropic 推出了“工具使用下的擴展思考”(extended thinking with tool use)測試版功能。這意味著兩個模型都能在進行擴展思考時使用工具(如網絡搜索),允許 Claude 在推理和工具使用之間交替進行,以改進響應質量。
此外,新模型具備并行使用工具的能力,能更精確地遵循指令,并且在開發者授予本地文件訪問權限時,展現出顯著改進的記憶能力,能夠提取和保存關鍵事實,以保持連續性并逐步建立隱性知識。
Anthropic 特別提到,新模型顯著減少了模型使用“捷徑”或“漏洞”來完成任務的行為。與Sonnet 3.7 相比,Opus 4 和 Sonnet 4 在這類易受影響的智能體任務中,發生此類行為的可能性降低了 65%。
(來源:iGent AI)
記憶能力的提升也是Claude 4 系列的一大看點。Anthropic 的首席產品官 Mike Krieger 在接受 WIRED 采訪時提到,Claude Opus 4 能夠“在《寶可夢》游戲中以智能體方式工作長達24 小時”,而此前模型最長只能玩45 分鐘。Anthropic 甚至進行了一個名為“Claude Plays Pokémon”的Twitch 直播,展示了 Claude 3.7 Sonnet 在《寶可夢》游戲中的表現。
圖丨Opus 4 在玩寶可夢時記下的真實筆記(來源:Anthropic)
Claude 4 Opus 則在此基礎上更進一步,當它在游戲中導航一個復雜的任務時,研究人員注意到其長期記憶和規劃能力的改進。例如,當 AI 意識到需要特定能力才能前進時,它會花兩天時間提升技能,然后再繼續游戲。這種多步驟推理且無需立即反饋的能力,所反映的正是模型在保持任務連貫性和追蹤目標方面的進步。
Anthropic 的研究員 David Hershey 解釋說,這項研究的目的是探索 Claude 如何作為智能體獨立完成復雜任務。當開發者構建允許 Claude 訪問本地文件的應用程序時,Opus 4 能夠熟練地創建和維護“記憶文件”來存儲關鍵信息。這解鎖了更好的長期任務感知、連貫性和智能體任務性能,就像Opus 4 在玩《寶可夢》時創建了一個“導航指南”一樣。這種能力對于需要長時間保持上下文的AI 智能體至關重要,無論是自動化數小時的工作流,還是進行大規模代碼重構。Krieger 提到,一位早期客戶(日本樂天)就曾讓模型連續工作 7 小時完成了一項大型代碼重構任務。
定價方面,Claude 4 模型與其前代產品保持一致:Opus 4 的輸入價格為每百萬 token 15 美元,輸出價格為每百萬 token 75 美元;Sonnet 4 的輸入價格為每百萬 token 3 美元,輸出價格為每百萬 token 15 美元。兩種模型都提供擴展思考模式的開關。Sonnet 4 將繼續向免費用戶提供,而 Opus 4 則需要付費訂閱。
伴隨新模型的發布,Anthropic 還宣布 Claude Code(最初于今年 2 月推出)在經過數月預覽測試后正式普遍可用。Claude Code 旨在將 Claude 的強大能力更廣泛地融入開發者的工作流程中,無論是在終端、偏好的 IDE 中,還是通過 Claude Code SDK 在后臺運行。新的針對 VS Code 和 JetBrains 的 beta 版擴展程序能將 Claude Code 直接集成到 IDE 中,Claude 提出的編輯建議會以內聯方式顯示在文件中,簡化了在熟悉編輯器界面內的審查和跟蹤流程。
此外,Anthropic 還發布了一個可擴展的 Claude Code SDK,允許開發者使用與 Claude Code 相同的核心智能體構建自己的智能體和應用程序。
Anthropic API 也迎來了四項新功能,旨在幫助開發者構建更強大的 AI 智能體,包括:代碼執行工具、MCP 連接器、Files API 以及將提示緩存長達一小時的能力。
Anthropic 聲稱,“這些模型是朝著虛擬協作者邁出的一大步——保持完整的上下文,持續專注于更長的項目,并推動變革性影響。”回顧近期谷歌、OpenAI 以及 Anthropic 等 AI 巨頭們發布的各項成果,無一不在為這一方向努力。
參考資料:
1.https://www.anthropic.com/news/claude-4
2.https://igent.ai/sonnet4eval.pdf
3.https://www.wired.com/story/anthropic-new-model-launch-claude-4/
排版:溪樹
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.