大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

Claude 4系列模型正式發布,號稱“世界上最好的”AI編程模型

0
分享至

當地時間5 月 22 日,Anthropic 在其首次開發者大會上,正式發布了其下一代 Claude 模型系列:Claude Opus 4 和 Claude Sonnet 4。該公司在公告中高調宣稱,新的旗艦模型 Claude Opus 4 是“世界上最好的編程模型”,在編程、高級推理和AI 智能體(AI agents)方面樹立了全新標準,旨在處理復雜、長時間運行的任務和智能體工作流程。與此同時,Claude Sonnet 4 作為對 Claude Sonnet 3.7 的重大升級,也提供了在編程和推理能力等方面,也取得了相當大的進步。

Anthropic 表示,Claude Opus 4 是其迄今為止最強大的模型,尤其在編碼領域表現突出。根據 Anthropic 提供的數據,Opus 4 在 SWE-bench(一個評估真實軟件工程任務性能的基準)上達到了 72.5% 的準確率(使用并行測試時計算可達 79.4%),在 Terminal-bench(一個測試 AI 模型在終端環境中執行編碼任務能力的基準)上達到了 43.2%(并行測試時計算可達 50.0%)。各項數據均超過了 Gemini 2.5 Pro 等其他競品模型。Claude Sonnet 4 同樣表現出色,在 SWE-bench 上實現了 72.7% 的準確率(并行測試時計算可達 80.2%),在某些特定配置下甚至略高于 Opus 4。


圖丨基準測試結果(來源:Anthrpoic)

一些早期測試用戶在社交媒體上分享了他們的體驗,從側面印證了Claude 4 的強大。

例如,知名AI 博主 Ethan Mollick 僅用一句簡單的提示:“the book Piranesi as a p5js 3d space. do it for me”(將《皮拉內西》這本書創作成一個p5.js 的 3D 空間,幫我實現它),沒有提供任何其他提示,Claude 4 便生成了一個令人印象深刻的 3D 空間演示,其中包含了鳥、水和光照效果,效果看起來相當不錯。

還有用戶僅用單次提示就生成了復雜的雙擺模擬系統,表現非常出色。

另一位知名博主Peter Yang 也獲得了早期訪問權限,他總結道:“1. 它在寫作和編輯方面仍然是同類最佳。2. 它的編碼能力和 Gemini 2.5 一樣好。”還展示了Claude 4 一次性構建了一個功能齊全的俄羅斯方塊游戲。


圖丨相關推文(來源:X)

除了強大的編碼能力,新一代Claude 模型在推理和 AI 智能體功能方面也邁出了重要一步。Anthropic 推出了“工具使用下的擴展思考”(extended thinking with tool use)測試版功能。這意味著兩個模型都能在進行擴展思考時使用工具(如網絡搜索),允許 Claude 在推理和工具使用之間交替進行,以改進響應質量。

此外,新模型具備并行使用工具的能力,能更精確地遵循指令,并且在開發者授予本地文件訪問權限時,展現出顯著改進的記憶能力,能夠提取和保存關鍵事實,以保持連續性并逐步建立隱性知識。

Anthropic 特別提到,新模型顯著減少了模型使用“捷徑”或“漏洞”來完成任務的行為。與Sonnet 3.7 相比,Opus 4 和 Sonnet 4 在這類易受影響的智能體任務中,發生此類行為的可能性降低了 65%。


(來源:iGent AI)

記憶能力的提升也是Claude 4 系列的一大看點。Anthropic 的首席產品官 Mike Krieger 在接受 WIRED 采訪時提到,Claude Opus 4 能夠“在《寶可夢》游戲中以智能體方式工作長達24 小時”,而此前模型最長只能玩45 分鐘。Anthropic 甚至進行了一個名為“Claude Plays Pokémon”的Twitch 直播,展示了 Claude 3.7 Sonnet 在《寶可夢》游戲中的表現。


圖丨Opus 4 在玩寶可夢時記下的真實筆記(來源:Anthropic)

Claude 4 Opus 則在此基礎上更進一步,當它在游戲中導航一個復雜的任務時,研究人員注意到其長期記憶和規劃能力的改進。例如,當 AI 意識到需要特定能力才能前進時,它會花兩天時間提升技能,然后再繼續游戲。這種多步驟推理且無需立即反饋的能力,所反映的正是模型在保持任務連貫性和追蹤目標方面的進步。

Anthropic 的研究員 David Hershey 解釋說,這項研究的目的是探索 Claude 如何作為智能體獨立完成復雜任務。當開發者構建允許 Claude 訪問本地文件的應用程序時,Opus 4 能夠熟練地創建和維護“記憶文件”來存儲關鍵信息。這解鎖了更好的長期任務感知、連貫性和智能體任務性能,就像Opus 4 在玩《寶可夢》時創建了一個“導航指南”一樣。這種能力對于需要長時間保持上下文的AI 智能體至關重要,無論是自動化數小時的工作流,還是進行大規模代碼重構。Krieger 提到,一位早期客戶(日本樂天)就曾讓模型連續工作 7 小時完成了一項大型代碼重構任務。

定價方面,Claude 4 模型與其前代產品保持一致:Opus 4 的輸入價格為每百萬 token 15 美元,輸出價格為每百萬 token 75 美元;Sonnet 4 的輸入價格為每百萬 token 3 美元,輸出價格為每百萬 token 15 美元。兩種模型都提供擴展思考模式的開關。Sonnet 4 將繼續向免費用戶提供,而 Opus 4 則需要付費訂閱。

伴隨新模型的發布,Anthropic 還宣布 Claude Code(最初于今年 2 月推出)在經過數月預覽測試后正式普遍可用。Claude Code 旨在將 Claude 的強大能力更廣泛地融入開發者的工作流程中,無論是在終端、偏好的 IDE 中,還是通過 Claude Code SDK 在后臺運行。新的針對 VS Code 和 JetBrains 的 beta 版擴展程序能將 Claude Code 直接集成到 IDE 中,Claude 提出的編輯建議會以內聯方式顯示在文件中,簡化了在熟悉編輯器界面內的審查和跟蹤流程。

此外,Anthropic 還發布了一個可擴展的 Claude Code SDK,允許開發者使用與 Claude Code 相同的核心智能體構建自己的智能體和應用程序。

Anthropic API 也迎來了四項新功能,旨在幫助開發者構建更強大的 AI 智能體,包括:代碼執行工具、MCP 連接器、Files API 以及將提示緩存長達一小時的能力。

Anthropic 聲稱,“這些模型是朝著虛擬協作者邁出的一大步——保持完整的上下文,持續專注于更長的項目,并推動變革性影響。”回顧近期谷歌、OpenAI 以及 Anthropic 等 AI 巨頭們發布的各項成果,無一不在為這一方向努力。

參考資料:

1.https://www.anthropic.com/news/claude-4

2.https://igent.ai/sonnet4eval.pdf

3.https://www.wired.com/story/anthropic-new-model-launch-claude-4/

排版:溪樹

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
河南禁酒令大反轉!本以為是“硬核新規”,官方回應,網友:理解

河南禁酒令大反轉!本以為是“硬核新規”,官方回應,網友:理解

溫讀史
2025-06-14 09:56:47
上海專家發現:吃甜食的老人,健康指數是吃蔬菜的人的5倍不止?

上海專家發現:吃甜食的老人,健康指數是吃蔬菜的人的5倍不止?

華庭講美食
2025-06-14 13:52:03
袁立小號發文緬懷羅帥宇,連發兩條動態,看新聞難過到吃不下飯

袁立小號發文緬懷羅帥宇,連發兩條動態,看新聞難過到吃不下飯

趣文說娛
2025-06-14 11:13:03
局勢突變!中國深夜發出警告,俄羅斯聲明立即結束會談!

局勢突變!中國深夜發出警告,俄羅斯聲明立即結束會談!

一個有靈魂的作者
2025-06-14 22:17:44
國防大學的教授也是一個水貨

國防大學的教授也是一個水貨

回旋鏢
2025-06-14 15:59:57
跌太猛了!浙江余杭這個小區從214萬暴跌到80萬,跌幅超過60%…

跌太猛了!浙江余杭這個小區從214萬暴跌到80萬,跌幅超過60%…

火山詩話
2025-06-14 14:30:42
好消息:中國防空導彈再次擊落戰機!壞消息:被擊落的是中國戰機

好消息:中國防空導彈再次擊落戰機!壞消息:被擊落的是中國戰機

荷蘭豆愛健康
2025-06-12 18:47:39
伊朗不打倒神棍政權,國家將永無希望

伊朗不打倒神棍政權,國家將永無希望

廖保平
2025-06-14 09:19:25
南航“美女經理”:除了生理期就沒閑過,兩年半和上級開房410次

南航“美女經理”:除了生理期就沒閑過,兩年半和上級開房410次

就一點
2025-06-13 16:45:25
哈梅內伊聲明:要徹底摧毀以色列政權!伊朗向以方向發射約150枚導彈!伊軍稱擊落以戰機并逮捕飛行員

哈梅內伊聲明:要徹底摧毀以色列政權!伊朗向以方向發射約150枚導彈!伊軍稱擊落以戰機并逮捕飛行員

每日經濟新聞
2025-06-14 06:41:13
LABUBU真成“頂流”了!韓國線下店有人為它通宵排隊,有人為它吵架動手,為您揭秘其火爆原因

LABUBU真成“頂流”了!韓國線下店有人為它通宵排隊,有人為它吵架動手,為您揭秘其火爆原因

三湘都市報
2025-06-14 18:04:05
恥辱!香港運動員奪冠拒唱國歌,這樣的運動員不止一個

恥辱!香港運動員奪冠拒唱國歌,這樣的運動員不止一個

柳絮憶史
2025-06-14 07:10:03
聊聊步行者 VS 雷霆 G4

聊聊步行者 VS 雷霆 G4

靜易墨
2025-06-14 21:17:05
伊朗:打擊美軍基地 下一輪對以襲擊導彈數是20倍

伊朗:打擊美軍基地 下一輪對以襲擊導彈數是20倍

看看新聞Knews
2025-06-14 20:25:47
蘇超最新積分榜公布

蘇超最新積分榜公布

現代快報
2025-06-14 21:17:08
鳳凰傳奇曾毅回應手表爭議,堪稱災難性公關,被吐槽不如道歉……

鳳凰傳奇曾毅回應手表爭議,堪稱災難性公關,被吐槽不如道歉……

妮妮玩不夠
2025-06-14 07:47:04
中紀委怒批公務員也是人!正常生活不應問責處!

中紀委怒批公務員也是人!正常生活不應問責處!

霹靂炮
2025-06-13 23:49:27
羅帥宇的通報來了,真相終于大白

羅帥宇的通報來了,真相終于大白

大張的自留地
2025-06-14 08:39:21
慘不忍睹!女籃三人10中1,籃板也不會搶,球迷:趕快淘汰他仨

慘不忍睹!女籃三人10中1,籃板也不會搶,球迷:趕快淘汰他仨

南海浪花
2025-06-14 11:30:33
1-2!鄭欽文輸球內情曝光,賽后眼眶含淚,對手采訪說到了關鍵

1-2!鄭欽文輸球內情曝光,賽后眼眶含淚,對手采訪說到了關鍵

侃球熊弟
2025-06-15 00:02:53
2025-06-15 04:19:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15294文章數 513781關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

時尚
教育
藝術
本地
親子

中年女人少穿黑色和灰色,年輕色穿出減齡效果,看起來嫩十歲

教育要聞

江蘇最新消息:6月28日填報志愿!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

親子要聞

給18個月幼兒灌酒,無論出于什么心態都不該寬恕|新京報快評

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品永久久久久久久久久| 久久久久综合成人免费| 亚洲日本在线在线看片4k超清| 人妻一本久道久久综合久久鬼色| 无码国产精品一区二区色情八戒| 性交免费视频| 色偷偷中文字幕综合久久| 天天综合网网欲色| 亚洲人亚洲精品成人网站| 国产精品久久人妻无码网站一区| 日日摸夜夜添狠狠添欧美| 四虎影库在线永久影院免费观看| 国产裸体美女永久免费无遮挡| 亚洲精品无码伊人久久| 狠狠精品久久久无码中文字幕| 综合激情五月丁香久久| 伊人久久大香线蕉综合av| 久久精品免费一区二区三区| 亚洲国产精品一区二区手机| 动漫av永久无码精品每日更新| 极品美女扒开粉嫩小泬图片| av边做边流奶水无码免费| 成年女人永久免费观看视频| 2020年无码国产精品高清免费| 亚洲中文无码精品卡通| 中文字幕色av一区二区三区| 麻豆网神马久久人鬼片| 精品无码一区二区三区在线| 四川丰满少妇被弄到高潮| 麻豆精品传媒一二三区| 久久亚洲精品国产精品婷婷| 亚洲av无码一区二区三区dv| 午夜成人理论无码电影在线播放| 自拍偷亚洲产在线观看| 国产成人久久精品77777综合| 亚洲一区精品二人人爽久久| 日本免费一区二区三区| 国产熟妇午夜精品aaa| 天码人妻一区二区三区| 日本丰满老妇bbb| 精品伊人久久大线蕉色首页|