智東西
作者 陳駿達
編輯 心緣
智東西5月23日報道,今天凌晨,美國大模型獨角獸Anthropic在其首屆開發者大會上正式發布了下一代Claude模型:Claude Opus 4和Claude Sonnet 4,這也是Claude自2024年6月以來的首次大版本號更新。
Anthropic將Claude Opus 4稱之為“世界上最好的編程模型”,能在復雜、長時間運行的任務和智能體工作流中表現出穩定的性能。Claude Sonnet 4是Claude Sonnet 3.7的重大升級,以編程和推理能力為核心,同時能更精確地響應用戶提示詞。這兩款模型均為混合模型,提供兩種模式:即時回復和用于更深入推理的擴展思考(extended thinking)。
在權威編程基準測試SWE-bench Verified上,開啟擴展思考的Claude Opus 4與Claude Sonnet 4的得分分別為79.4%和80.2%,大幅度超越了OpenAI Codex-1、OpenAI o3、OpenAI GPT-4.1、Gemini 2.5 Pro等模型。
在編程、工具使用、視覺推理、數學等領域的基準測試中,這兩款模型超越了OpenAI o3,而在多語言問答、研究生級別推理任務上,Claude Opus 4與OpenAI o3得分持平。新模型的智能體能力迎來升級,最高可獨立運行7小時,并推出了文件API、提示詞緩存等新功能。
Pro、Max、Team和Enterprise Claude訂閱用戶可使用上述兩款Claude模型及其擴展思考模式,Sonnet 4可供免費用戶使用。
這兩款模型都可在Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI上調用,定價與之前的Opus和Sonnet模型保持一致:Claude Opus 4為每百萬個token 15美元/75美元(輸入/輸出),Claude Sonnet 4為3美元/15美元。
Anthropic還同期發布了AI編程助手Claude Code,這一編程助手接入了Claude Opus 4模型,能實時映射和解釋百萬行級別的代碼庫。Claude Code與GitHub、GitLab、VS Code、JetBrains IDE和命令行工具集成,可直接嵌入至開發終端中。這一編程助手提供按量計費、每月100美元和每月200美元的3種訂閱方案。
一、開場2分鐘甩出重磅新模型,Claude未來更新頻率將加速
在Code with Claude開發者大會上,Anthropic創始人Dario Amodei在開場2分鐘時快步走上臺,并未做任何鋪墊,便直接甩出了最大的驚喜——Claude 4系列模型的發布。
Amodei稱,Anthropic已經有一段時間沒有更新Opus模型了,Anthropic對Opus的定位是旗下最強大、最智能的模型,而Sonnet是用戶過去大約一年來一直在使用的中等水平模型。
Claude Opus 4在多項基準測試上的成績并未明顯高于Claude Sonnet 4,甚至略低于后者。Amodei強調,對于Claude Opus 4這樣的大型模型,基準測試并不能完全體現其能力。
在Anthropic提供給客戶的預覽中,Claude Opus 4可以在Anthropic內部自主完成一些通常需要人類花費6到7小時的任務,Anthropic內部一些最資深的工程師都對其帶來的生產力提升感到驚訝。
Claude Sonnet 4在多項編程基準測試中的表現與Claude Opus 4持平,但前者更為精簡,專注于編程等特定任務。Claude Sonnet 4還解決了Claude Sonnet 3.7在實際使用過程中出現的種種問題,包括過度熱情(傾向于做出超出用戶要求的事情)與獎勵機制問題。
Amodei稱,Anthropic會繼續改進Claude系列模型,定期發布可能的小版本更新,理想情況下,會比之前發布的頻率還要高。
二、智能體能力迎升級,最高可獨立運行7小時
Anthropic首席產品官、Instagram聯合創始人Mike Krieger詳細分享了更多Claude 4的相關情況。
Krieger稱,Claude Opus 4擅長理解代碼庫并規劃添加內容,從遷移、代碼重構到最復雜的智能體工作流方面都非常高效且準確。
Claude Sonnet 4在日常編碼任務、應用程序開發和配對編程方面表現出色。它也適用于高流量用例,平衡了效率和性能,可以被視為“全天候”編碼伙伴。
Claude 4系列模型為打造能使用工具的智能體升級了關鍵的新功能。現在,Claude 4系列模型可以并行處理多種工具,當被授予訪問本地文件的權限時,它們甚至可以在會話之間保持記憶,隨著時間的推移積累知識。
Krieger回憶,在加入Anthropic后不久,他們曾憑借Claude的幫助,僅用3人團隊成功完成亞馬遜Alexa語音助手原型的打造,Krieger這位“前工程師”也重拾代碼親自上陣。這次合作最終使Claude成為Alexa Plus的核心模型之一。
這段經歷讓Krieger更堅信AI協作的潛力。如今,AI已不僅是工具,而是真正的智能協作伙伴,持續推動技術邊界。Krieger提出了Anthropic認為的理想智能體三大核心能力:
(1)情境智能:理解組織背景,通過經驗優化表現,像優秀員工一樣越用越好;
(2)長期執行:獨立處理復雜任務數小時,智能協調資源;
(3)深度協作:自然交互、適應工作風格,并保持決策透明。
為實現上述三大能力,Anthropic推出了更多新升級。
Claude現在可以通過Anthropic API上的新代碼執行工具運行代碼,而不僅僅是編寫代碼,能夠加載數據集、清理數據、生成探索性圖表,并實時分析異常情況。在與Claude 4模型結合后,代碼執行工具可以處理復雜任務,節省大量時間。
Claude 4系列模型的自主性進一步提升,Claude 3.7最多可自主運行45分鐘,而Claude 4可以獨立運行數小時,最高達到7小時。新模型通過管理待辦事項列表保持記憶,不會丟失線索。
Anthropic強調,智能體的廣泛采用需要提高模型對保密內容、決策和協調的判斷力。如今,Claude模型的每個功能都包含架構安全檢查點和控制措施,確保模型在生產環境中的可靠性。
智能體的落地還需要訪問現實世界的信息,并與現有系統的連接,為了幫助智能體進一步擴展,Anthropic推出了4項相互關聯的新功能。
首先,開發者現在可以直接通過Anthropic API鏈接MCP協議(模型上下文協議)。如今,MCP協議被微軟、谷歌、OpenAI、Block、Atlassian、Zapier、Linear等眾多公司采用,Anthropic認為MCP有望為智能體經濟奠定基礎。
其次,網絡搜索為Claude提供了對當前信息的實時訪問。這是一種智能數據增強,允許Claude分析當前事件、市場趨勢和新興技術,與MCP功能結合使用時也非常強大。
第三,文件API今天起在Anthropic API中可用。文件API允許Claude讀取和寫入記憶文件,在長時間任務中保持上下文連續性。Anthropic配套發布“記憶功能食譜”,指導開發者如何集成到應用中。
最后,提示緩存功能迎來升級,TTL(生存時間)從5分鐘提升至1小時,這最多能將模型的使用成本降低90%,延遲減少85%,尤其適用于長提示詞場景、長時間運行的智能體工作流和需要頻繁調用相同上下文的重復性任務。
Anthropic還顯著減少了Claude 4模型使用快捷方式或漏洞完成任務的行為。與 Sonnet 3.7 相比,這種行為的可能性降低了65%。
Claude Opus 4在內存能力方面的表現也大大優于所有以前的型號。當開發人員構建提供Claude本地文件訪問的應用程序時,Opus 4可以熟練地創建和維護“內存文件”來存儲關鍵信息。這可以解鎖更好的長期任務意識、連貫性和代理任務的性能——例如 Opus 4 在玩Pokémon時創建“導航指南”。
Claude 4模型還推出了思維鏈總結功能,可使用較小的模型來濃縮冗長的思維過程。
三、編程助手全面開放,整合至主流開發平臺
Claude Code在今天迎來全面開放,從研究預覽轉為正式產品。Claude Code產品經理Cat Wu分享說,除了接入最新模型之外,Claude Code還推出了多項新功能。
Claude Code現已與VS Code和JetBrains等主流IDE集成,在使用過程中,開發者可以直接在編輯器中實時查看Claude Code建議的代碼改動。
Anthropic還發布了Claude Code SDK,讓開發者能夠將Claude Code作為構建塊融入自己的應用和工作流。為了展示其潛力,Anthropic在GitHub上開源了一個示例項目:用戶可以直接在Pull Request和Issue中@Claude,它將自動響應審閱意見、修復錯誤并添加新功能。
通過這些更新,Claude Code已經能夠覆蓋大部分工作場景,無論是在終端中進行深度開發、在GitHub上處理遠程協作、通過SDK構建自動化工作流,還是在IDE中進行代碼審查。
演示環節中,Claude Code迅速完成了開源工具Excalidraw的表格組件功能開發。Claude Code會創建任務清單,探索代碼庫并生成代碼,運行測試并提交Pull Request。它還能通過GitHub Actions自動更新文檔。短短10分鐘,Claude Code完成了通常需要數小時的復雜任務,極大地提升了開發效率。
由Claude Code SDK驅動的Claude Code和GitHub Actions現已可用,只需在運行命令即可安裝。VS Code和JetBrains的Web IDE擴展也同步推出測試版,在IDE中運行命令即可安裝。
結語:兩條Scaling Law路徑持續有效,未來1年將見證編程革命
Amodei稱,Claude Sonnet 3.7發布僅兩個半月,卻感覺像過了一年,這足見AI領域的發展之快。他強調,Claude 4的模型能力來自預訓練和后訓練的共同進步,預訓練Scaling Law依然有效,后訓練技術也在同步發展,二者相輔相成。
展望未來AI領域的發展,Amodei認為我們會在未來一年我們將見證編程領域的革命,從Claude Code出發,我們將進入“智能體艦隊”時代,成批的智能體會將軟件開發自動化,定制化軟件的成本顯著降低,這將重塑開發者、企業和初創公司的角色。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.