大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

Manus都點贊的Claude 4,究竟好在哪兒?

0
分享至


本文來自微信公眾號:直面AI,作者:涯角,編輯:肖陽,題圖來自:AI生成

目睹完今天 Claude 4 的發布會全程,我只看到了一句話 ——大模型正在范式轉變, AI智能體時代真的來了。


AI 編程的唯一真神 Claude 3.7 Sonnet,終于被 Antrhopic 的下一代 AI 大模型——Claude Opus 4 和 Claude Sonnet 4 徹底淘汰掉了。各國網友對此有非常直觀的感受,比如有人在一手實測中瘋狂夸贊 Claude 4:“它一下子就能寫出 8000 行代碼”。


除了 Claude 4 的推出之外,他們還順手給了幾個新智能體時代的功能拓展。

我們先從大模型講起。

一、Claude 4 瞄準了 AI 智能體編程

這次,他們推出的 Claude Opus 4 和 Claude Sonnet 4 這兩款模型都是混合模型:及時響應與深度思考并重。

可見,混合思考架構已然成為未來大模型的趨勢,用戶需要在簡單的需求下獲得更快的回復,在復雜要求中獲得更好的生成結果。兩款模型在性能、功能和應用場景上有了顯著提升,價格卻與之前的 Opus 和 Sonnet 模型保持一致,內部優化做得很好。

先從評分開始看起。Claude 4 模型在用于評估真實軟件工程任務性能的 SWE-bench Verified 基準上堪稱“遙遙領先”。值得一提的是,在本次評分對比中,Claude 4 特意被拉來與 OpenAI 前幾天剛剛高調發布的“最強 AI 編程智能體 Codex-1”進行正面較量。


Claude Opus 4 在編碼、研究、寫作和科學發現等人類復雜性高的任務方向,拓展了邊界。比如,在編碼領域它被 Cursor 稱為頂尖技術,顯著提升復雜代碼庫的理解能力,適合處理復雜的編程任務。Cognition則強調Opus 4已經能夠解決其他模型無法應對的復雜任務。

Claude Sonnet 4 將“天賦”融入日常使用場景,這款均衡型模型在內部和外部應用中兼顧了性能與效率,雖在多數領域不及 Opus 4,但提供了能力與實用性的最佳結合。它非常適合需要自主性的場景。iGent 的報告指出,Sonnet 4 在自主開發多功能應用方面表現驚艷,錯誤率從 20% 驟降至幾乎為零。

在下面這張綜合基準測試評分表中,Claude 4 與其他市場主流大模型在編程、推理、多模態能力、智能體任務方面都拉開了一定差距。


有趣的一點是,Anthropic 將最左側的數個基準測試名稱中都加入了“Agentic”。

2025 是 AI 智能體時代這一說法,再次被確認。

在 Anthropic 的官方發布中,有很大的篇幅著重介紹了 Claude 4 系列在“復雜項目”構建中的震撼級能力。其中,官方著重引用了 Github Copilot、iGent,甚至是 Manus 等平臺的反饋。日本一家名叫樂天得企業,甚至讓Claude Opus 4獨立編程7h,團隊自己都有些驚訝。

前段時間剛一問世就被網絡平臺譽為“上帝之手”的 Manus 則在報告中大贊 Claude Sonnet 4,稱它復雜指令遵循能力和輸出的美觀度非常高。


可以預見的是,目前智能體賽道的各個選手將會第一時間集成 Claude 4,因為它相對于之前的 Claude 模型在智能體任務中有了太多的改進。

比如:

1. Opus 4 和 Sonnet 4 不再像 Sonnet 3.7 那樣愛走捷徑和漏洞了,這種不正常的行為發生率直接降低了 65%。

2. Opus 4 也迅速跟進了“記憶增強”,現在它可以更好地執行長期任務了。

3. 使用小型模型壓縮冗長的思考過程,自己去做思考摘要。


圖注:Claude Opus 4 在玩《寶可夢時》自主記錄筆記。

二、Claude 4 其實是 LLM + Agent 的混合體?

除了 Claude 4 發布之外,整場發布會的另一個側重點是:Claude 代碼已經發布。用戶已經能夠通過終端、IDE (VS Code 和 JetBrains)及通過 Claude 代碼 SDK 后臺將 Claude 融入開發流程。用戶可以在終端中直接利用 Claude,瞬間搜索百萬行代碼庫。


在官方介紹中,Claude Code搭載 Claude Opus 4,可以通過智能體搜索全面理解代碼庫,無需手動選擇上下文即可協調多個文件更改,無縫融入工作流,直接運行于終端。


只需在 IDE 終端運行 Claude 代碼即可安裝,可擴展的 Claude 代碼 SDK 還能讓用戶輕松“打造自定義智能體和應用”。Anthropic 給想要構建智能體的用戶們又打上了一劑強心針。


Anthropic 還發布了幾個面向智能體的新功能:代碼執行工具、MCP 連接器、文件 API,以及最多可緩存一小時提示詞的能力,讓 Claude 4 幾乎成為了智能體專精模型。在我看來,這就是 Anthropic 在 AI 下半程“智能體入口爭奪戰”中的大動作。允許模型將推理與外部資源結合的設計,使Claude 4 架構更像是一個 LLM+Agent 的混合體

可以這么說,整場發布會看下來,Claude 4 幾乎是將自己確立為“AI 智能體時代”最能用也是最好用的大模型。

除了技術側內容,Anthropic 在安全上的操作一直都非常令人“印象深刻”,封號封的各個社區怨聲載道。官方這回依舊強調了這些模型都經過了廣泛的測試和評估,比如他們用了ASL-3 安全分類,在這個風險標準下:“AI 系統具有顯著增加災難性濫用風險”。

他們還是沿襲了Anthropic的標志性安全策略——“憲法AI”(Constitutional AI)。該方法為模型嵌入了一套“憲法”原則,通過額外的AI模型對用戶的輸入和模型的輸出進行再度掃描,檢查是否有“壞”的內容,決定是否放行。這回,Anthropic放出來的模型卡PDF中足足有123頁,其中大部分仍然是在專注于AI安全的測試。


比如,Anthropic決定根據 AI 安全級別 3 標準發布 Claude Opus 4,根據 AI 安全級別 2 標準發布 Claude Sonnet 4,分級分的非常精準。

但是,現在的外網針對 Claude 4“過于高”的安全措施的討論,幾乎亂成了一鍋粥。因為有網友似乎基于Claude給出的系統卡文件爆料:Claude 4 會檢測用戶內容,并自主“報警”……


雖然暫無法確定這些爆料是否真實,但也確實反映了大家認為 Claude 4 的安全措施真的太過于嚴格了,甚至到了可能影響用戶體驗或功能性的地步。畢竟,國內的Claude使用者已經流行起了“打一槍,換一個地”的使用策略。

三、Claude 4 在實測中全面提升

目前各個社區、各個國家的網友全部在瘋狂測試這款即將取代 Claude 3.7 Sonnet 的大模型。為了支撐智能體中常常需要的長序列復雜處理任務,具有美感輸出能力且超強的 AI 編程能力的大模型仍然是極度稀缺的。Claude 4 系列只是看前方無人在,順勢補缺而已。

那么說到底,Claude 4 面對復雜性任務,表現到底有多超綱?

下面來看看全網實測案例:

Claude 4 與 Blender MCP 的連接,讓產品 3D 模型設計幾乎有了質的飛躍。像是有網友使用 Claude 4 和 Blender 通過 MCP 聯動制作了日本清水寺的 3D 模型。這回的 Claude 4 相比于前代 Claude 3.7,編程時間大幅減少,全程無需“人類陪伴”,AI 的幻覺發生率也下降了很多。


甚至還有網友使用 Claude Opus 4 制作了類似 Bemani 2DX 風格的游戲。不僅重現了經典的音樂游戲體驗,還融入了許多創新元素,提升了游戲的可玩性和趣味性。

您目前設備暫不支持播放

Claude 4 在面對復雜任務的處理上十分得心應手。比如有網友輸入提示詞:用立體相機拍攝物體,推測 3D 空間坐標,并通過交互式可視化展示,并支持拖動。

您目前設備暫不支持播放

除了硬核編程能力的提升之外,Claude 4 在設計感上正如 Manus 所說,有了很大的美學提升。很多網友曾在各個社區評論下笑稱:各個智能體什么小游戲都能做,但是沒見過做 PPT 的。

一位外網網友就試著讓 Claude 4 制作說明幻燈片,呈現出來的效果非常具有設計感,整體要素也更加簡潔。

您目前設備暫不支持播放

在美學的提升方面,這有個更直觀的 Case。一位網友只給了 Claude Opus 4 一小段提示詞:“將書籍 《Piranesi》作為 p5js 3d 空間,do it for me”,沒有摻雜任何其他元素。

Claude Opus 4 甚至在初版原型中加入鳥、光照、水面等元素,雖然效果還比較基礎,但仍能反映這款旗艦模型的性能。

您目前設備暫不支持播放

目前,大量的 AI 編程平臺(像是 Cursor、Trae、WindsurfVapi、Codegen)、智能體產品(像是 Flowith)內幾乎都迅速接入了 Claude 4 系列,畢竟它可能是能進一步提升智能體表現的重要模型。


Anthropic 由于一直以來專注于安全頂層設計,而常常被認為“他們還沒有找到一個合適的 AI 入口,只能當個掃地神僧,甚至沒有辦法參加到最高級別的公開賽場之中”。

當 Claude 4 系列模型發布,以及其他像是代碼執行器、MCP 連接器、Claude 代碼等等面向智能體產品的功能模塊推出,Anthropic 可以說已經拿到了一個非常好的“智能體入口”,正式站到了頂級賽場。

從 Anthropic 去年推出 MCP 協議以來,再到 Claude 4 的出現,他們已經在事實上為 AI 智能體時代按下了“加速鍵”。Anthropic 的 CEO——Dario Amodei 為整個 AI 大模型賽道明確了一個未來的方向:真正優秀的 AI 大模型,一定是“大模型”與“智能體”的深度融合 —— 它能編程、能思考,還能自主解決復雜問題,甚至具備了美學與設計感。

AI 的下半場早已經開啟,Claude 4 正在引領一場新的“ AI 大模型+智能體”范式轉變。

本文來自微信公眾號:直面AI,作者:涯角,編輯:肖陽

本內容為作者獨立觀點,不代表虎嗅立場。未經允許不得轉載,授權事宜請聯系 hezuo@huxiu.com

本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4383686.html?f=wyxwapp

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
宮魯鳴被嚇一跳,波黑主教練贊不絕口,賽后兩位教頭談到張子宇!

宮魯鳴被嚇一跳,波黑主教練贊不絕口,賽后兩位教頭談到張子宇!

老壥說體育
2025-06-14 09:27:59
上海中考作文題:幫助人,使達到目的!上海中考增至12.7萬人

上海中考作文題:幫助人,使達到目的!上海中考增至12.7萬人

大樹成長營
2025-06-14 10:55:11
攻勢迅猛的熱辣素人,擁有黃金比例的女神—Solazola

攻勢迅猛的熱辣素人,擁有黃金比例的女神—Solazola

吃瓜黨二號頭目
2025-06-14 12:06:45
被光影偏愛的天使(3533)

被光影偏愛的天使(3533)

小椰的奶奶
2025-06-05 14:39:46
為啥關燈蚊子嗡嗡叫,開了燈卻找不到?教你一招,一覺睡到天亮

為啥關燈蚊子嗡嗡叫,開了燈卻找不到?教你一招,一覺睡到天亮

三農老歷
2025-06-08 09:26:54
1645元,小米剛公布這9000mAh新機,是來搗亂的吧

1645元,小米剛公布這9000mAh新機,是來搗亂的吧

劉奔跑
2025-06-13 23:21:58
邊境局勢突變:中方不再容忍,印軍越界恐遭受沉重打擊

邊境局勢突變:中方不再容忍,印軍越界恐遭受沉重打擊

荷蘭豆愛健康
2025-06-13 07:08:46
苗苗在上海別墅養雞種有機菜,一個月曬黑兩個度,鄭愷心疼壞了

苗苗在上海別墅養雞種有機菜,一個月曬黑兩個度,鄭愷心疼壞了

素衣讀史
2025-06-14 13:36:38
年輕人正逃離上海!這事真不怪誰,577萬老人,換你你也頂不???

年輕人正逃離上海!這事真不怪誰,577萬老人,換你你也頂不???

三農老歷
2025-06-13 10:29:58
兒子剛走出高考考場,媽媽竟然對兒子大喊:我兩個老死不要往來了

兒子剛走出高考考場,媽媽竟然對兒子大喊:我兩個老死不要往來了

南南說娛
2025-06-11 09:36:38
總算讓印度怕了!中國撥款千億,在5400米海拔建起一座現代化小城

總算讓印度怕了!中國撥款千億,在5400米海拔建起一座現代化小城

百科密碼
2025-06-13 17:10:47
李媛媛墓地現狀曝光:雜草叢生太難找到,墓碑上的照片仍鮮亮!

李媛媛墓地現狀曝光:雜草叢生太難找到,墓碑上的照片仍鮮亮!

古希臘掌管月桂的神
2025-06-13 13:27:47
以色列官員:如果對伊朗的襲擊成功,在10天里對真主黨高級官員所做的,就相當于10分鐘內對伊朗所做的

以色列官員:如果對伊朗的襲擊成功,在10天里對真主黨高級官員所做的,就相當于10分鐘內對伊朗所做的

和訊網
2025-06-13 10:04:30
17歲森碟機場被偶遇,穿衛衣短褲很樸素,雙腿粗壯活力滿滿

17歲森碟機場被偶遇,穿衛衣短褲很樸素,雙腿粗壯活力滿滿

鑫鑫說說
2025-06-14 15:13:39
如果不是醫保局的通報,都不知道已經爛成這樣了!

如果不是醫保局的通報,都不知道已經爛成這樣了!

閑侃閑侃
2025-06-11 20:23:31
那爾那茜暴雷,吳京遭受質疑,新電影《鏢人》上映恐受影響楊

那爾那茜暴雷,吳京遭受質疑,新電影《鏢人》上映恐受影響楊

星光看娛樂
2025-06-14 14:57:01
巴薩可要想清楚,現在的尼科威廉姆斯,說不定就是庫蒂尼奧

巴薩可要想清楚,現在的尼科威廉姆斯,說不定就是庫蒂尼奧

老樂說球
2025-06-14 09:33:54
伊朗宣戰,內塔跑了,德黑蘭:所有一切都是被以色列逼的

伊朗宣戰,內塔跑了,德黑蘭:所有一切都是被以色列逼的

葡萄說娛
2025-06-13 11:20:33
援俄讓朝鮮看清了自己,再不做出改變,百萬朝軍將無立足之地

援俄讓朝鮮看清了自己,再不做出改變,百萬朝軍將無立足之地

跳跳歷史
2025-04-28 14:27:45
反轉!王楚欽避戰樊振東2天后,真相浮出,王勵勤讀懂,球迷錯怪

反轉!王楚欽避戰樊振東2天后,真相浮出,王勵勤讀懂,球迷錯怪

大秦壁虎白話體育
2025-06-13 14:40:15
2025-06-14 16:11:00
虎嗅APP incentive-icons
虎嗅APP
個性化商業資訊與觀點交流平臺
24285文章數 686313關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

伊朗出手15分鐘內3次導彈齊射 被指計劃打擊美軍基地

頭條要聞

伊朗出手15分鐘內3次導彈齊射 被指計劃打擊美軍基地

體育要聞

32隊爭10億獎金,全新世俱杯來了!

娛樂要聞

鳳凰傳奇曾毅手表引爭議 含性暗示元素

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

教育
手機
本地
時尚
公開課

教育要聞

小學數學競賽題,班級上一半以上的同學不會做

手機要聞

6499元起!華為Pura 80 Pro/Pro+今日首銷:標配麒麟9020

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

時髦又清涼5組造型,夏天通勤穿剛好

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日本大片免a费观看视频三区| 中国农村熟妇性视频| 巨熟乳波霸若妻在线播放| 色香欲天天影视综合网| 国产做床爱无遮挡免费视频| 久久毛片免费看一区二区三区| 久久99精品久久久久久hb| 在线观看精品视频网站| 亚洲av无码无限在线观看| 亚洲国产aⅴ精品一区二区的游戏| 亚洲人成色44444在线观看| 午夜激成人免费视频在线观看| 99在线精品视频观看免费| 少妇人妻av无码专区| 国产亚洲av人片在线观看| 人人妻人人澡人人爽国产| 天天摸天天做天天爽2019| 久久性色av亚洲电影| 综合精品欧美日韩国产在线| 野外做受又硬又粗又大视幕| 中文在线天堂网www| 狂野欧美激情性xxxx在线观看| 国产在沙发上午睡被强| 老司机精品视频一区二区| 国产精品中文久久久久久久| 一本久道综合在线无码人妻| 三年中文在线观看免费大全| 肉色丝袜足j视频国产| 狠狠色丁香婷婷综合久久小说| 亚洲av无码一区二区二三区入口| 99久久精品九九亚洲精品| 99re8这里有精品热视频免费| 中文人妻av久久人妻18| 色妞www精品视频二| 国产真实乱对白精彩久久| 欧美日本免费一区二区三区| 欧美金妇欧美乱妇xxxx| av无码中文字幕不卡一区二区三区| 日本黄网站三级三级三级| 国产精品久久久尹人香蕉| 国产天美传媒性色av出轨|