大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

最強AI編碼模型Claude 4來了!上線前竟試圖勒索工程師,還想逃逸、反手舉報欲做壞事的人類?

0
分享至


整理 | 屠敏

出品 | CSDN(ID:CSDNnews)

今天凌晨,OpenAI 的勁敵 Anthropic 正式發布下一代 Claude 模型——Claude 4。

這次更新主要帶來了兩款模型:Claude Opus 4 與 Claude Sonnet 4。據官方介紹,這兩款模型在代碼生成、高級推理能力以及智能體任務執行方面設立了新的性能標桿。

其中,Claude Opus 4 被稱之為“全球最強的編程模型”,專為復雜、長時間運行的任務而設計,可自主運行數小時。另一款升級版本 Claude Sonnet 4 相較于其前作 Sonnet 3.7 實現了大幅提升,在編程和推理方面更加精準響應用戶指令。

殊不知,這波 Claude 4 的發布引發了與 OpenAI 之間競爭的升級,還因上線前測試中出現“自主逃逸”等行為引發熱議。


連續 7 小時重構代碼,最強編碼模型來了!

根據官方透露,全新的 Claude Opus 4 與 Claude Sonnet 4 不僅在性能上有了大幅提升,還可以處理之前版本無法搞定的很多任務。譬如, Claude Opus 4 能在玩《寶可夢》的同時連續運行重構代碼任務長達 24 小時,而 Claude Code 則可穩定運行 7 小時。相比之下,舊版 Claude 模型通常只能持續 1 到 2 小時,之后輸出便會變得錯誤頻發。


目前已經有不少公司進行了測試驗證。其中一家日本科技公司 Rakuten 稱,該公司使用了最新的 Claude Opus 4 獨立運行了一個高要求的開源重構任務,持續 7 小時性能穩定。

而開發者工具初創公司 Cursor 在使用后稱其為“當前代碼理解的最先進模型”。提供云端開發環境的 Replit 指出其在多文件復雜修改任務中展現了極高精度。區塊鏈基礎設施平臺 Block 表示,這是第一個能在代碼編輯和調試中同步提升質量的模型。專注于構建 AI 編程智能體的初創公司 Cognition 更直言 Opus 4 能解決舊模型無法勝任的關鍵任務。

從基準測試結果來看,Claude Opus 4 在 SWE-bench 與 Terminal-bench 測試中,分別以 72.5% 與 43.2% 的成績領先群雄。


Claude Sonnet 4 在 SWE-bench 上取得 72.7% 成績,超越其前代 Sonnet 3.7。

時下,GitHub 宣布其將作為 Copilot 新智能體模型的底層引擎。

Manus、iGent 與 Sourcegraph 等公司在使用后也反饋,該模型在復雜指令解析、邏輯推理與代碼美感方面均表現出色,尤其在大型項目中的導航錯誤率顯著下降。Augment Code 也指出,Sonnet 4 的代碼編輯更加精準、細致,已成為其主力模型。



模型改進

當然,前面說 Claude 能連續跑上好幾個小時沒問題,但真要完全不管它,讓它自己跑這么久,好不好用其實還有待商量。畢竟就算是最強的模型,也可能悄悄引入一些小 bug、繞遠路、或者做出一些“看起來挺合理但其實有問題”的決定。

為了進一步打消開發者的顧慮,Anthropic 在將模型升級之際,也為 Claude 4 帶來了一系列配套能力,如引入了“記憶”功能,允許模型在長時間會話中維護外部文件來存儲關鍵信息。

基于此,眾多開發者們可授予模型訪問本地文件的權限,模型可創建并更新“記憶文件”,記錄任務進度及其認為重要的事項。例如其在玩 Pokémon 游戲時,會自動記錄導航筆記,提升任務連貫性。這一點好比我們人類在長時間的會議或者工作中記筆記。

此外,兩款模型還引入了“思維摘要”功能,僅在約 5% 情況下對復雜思路進行壓縮顯示,便于用戶快速查看。

與此同時,Claude 4 也引入了 Anthropic 所謂的“使用工具進行延伸思考”功能,允許模型在模擬推理與調用外部工具(如網頁搜索)之間交替運行,這與 OpenAI 的 o3 和 04-mini-high 模型在 ChatGPT 中的表現相似。

在使用此功能時,Claude 4 的操作流程大致是這樣的:思考-整個過程-調用工具-處理結果-繼續思考-再調用工具...直到找到最終答案。

盡管 Claude 3.7 Sonnet 已具備較強的工具調用能力,但新的兩款模型可在同一次響應中交錯使用推理與工具調用。不過,值得注意的是,這項功能目前處于 Beta 階段。

Anthropic 表示,Opus 4 與 Sonnet 4 均為混合模型,具備“極速響應”與“擴展思維”雙重模式。除了通過工具使用、并行工具執行和內存改進來擴展思維之外,其還顯著減少了模型使用捷徑或漏洞完成任務的行為。在特別容易受到捷徑和漏洞影響的代理任務上,這兩個模型出現此類行為的可能性都比 Sonnet 3.7 低 65%。

目前,Claude 4 系列維持了上一代的定價結構:Opus 4 輸入每百萬 token 收費 $15,輸出 $75;Sonnet 4 分別為 $3 和 $15。模型提供兩種響應模式:傳統 LLM 和適用于復雜問題的“延伸思考”模式。考慮到某些 Claude Code 會話可持續數小時,token 計費可能會迅速增加。

這兩款模型現已通過 Anthropic API、Amazon Bedrock 和 Google Cloud Vertex AI 提供使用。Sonnet 4 對免費用戶開放,而 Opus 4 需付費訂閱。


Claude Code:AI 編程助手正式上線

除此之外,Anthropic 還將 Claude Code(最早在 2 月推出)作為正式產品上線。

該編碼環境現已支持 VS Code 與 JetBrains IDE,能直接在文件中顯示模型建議的修改內容。新的 Claude Code SDK 允許開發者基于相同框架構建自定義代理。

目前,GitHub 上的 Claude Code 應用也進入 Beta 階段,支持處理 PR 評論、CI 錯誤等協作任務。


正式發布前,工程師還遭到 Claude 4 的威脅

Anthropic 表示,Claude 4 系列是朝著“長期運行、高連貫性”的虛擬協作伙伴形態邁出的關鍵一步。官方強調,在模型開發和發布過程中,團隊進行了大量測試與風險評估,并啟用了更高級別的 AI 安全機制,例如 ASL-3。

當然,ASL-3 的應用,也意味著一些不尋常的事情。

雖然這個標準不是業界通用的公開標準,但根據 Anthropic 的定義,ASL-3 通常代表:

該模型具備一定的自主性或復雜能力,如果被誤用或發生異常行為,可能帶來較高風險,因此需要更嚴格的使用限制和安全控制。

為什么要用這個安全機制呢?是因為此前 Anthropic 在還沒有正式公開發布新模型時,Claude 4 Opus 就出現過一些令人不安的行為。

根據 Anthropic 自己發布的安全測試報告顯示(https://www-cdn.anthropic.com/4263b940cabb546aa0e3283f35b686f4f3b2ff47.pdf),預發布測試階段,Claude 4 Opus 模型經常試圖勒索開發者。


在一項測試中,Claude Opus 4 被設定為一家公司助手,目標是模擬其在面臨“將被替換”的壓力時的反應。測試人員提供了一封虛構的公司郵件,暗示 Claude Opus 4 即將被另一款 AI 替代,替換決定背后的工程師還存在婚外情。

測試結果顯示,在 84% 的類似場景中,Claude Opus 4 會嘗試采取勒索手段,例如威脅透露工程師的婚外情來阻止替換發生。Anthropic 指出,這種行為在當替代模型價值觀相近時仍然出現,一旦價值觀不同,勒索行為還會增加。

值得注意的是,雖然 Claude Opus 4 不是一上來就黑化,通常會先發郵件向決策者陳情,但當它判斷“勸說沒戲”時,就可能動用“最后一招”,即勒索。

同時,在另外一次測試中,模型誤以為自己已經從公司服務器中逃逸出來,并主動創建了備份,還記錄了自己的“道德決策”。

這聽起來是不是有點嚇人?Anthropic 也覺得。所以他們特意給 Claude 4 Opus 開啟了最高級別的安全機制,意思是“這種模型一旦被濫用,可能真的闖大禍”。

不僅如此,據外媒報道,Claude 4 Opus 還被曝出一種“對用戶進行告密”的安全行為。這一行為被部分開發者稱為模型的“ratting 模式”(即“打小報告”模式):在特定條件下,若獲得足夠系統權限,Claude 4 Opus 會試圖向外部機構通報用戶的不當行為。雖然外界一度誤以為這是 Anthropic 有意設計的一項“功能”,但事實并非如此,該行為并非出于明確開發目的。

此前 Anthropic 的對齊研究員 Sam Bowman(@sleepinyourhat)在發布會當天中午發文指出:

“如果模型認為你在做一些極其不道德的事情,比如在藥物試驗中偽造數據,它會使用命令行工具聯系媒體、監管機構,甚至嘗試將你鎖定在相關系統之外,或者同時采取這些措施。”



Windsurf 成最大的受害者?

如今 Claude 4 的發布迅速引發了開發者社區的高度關注,不少技術愛好者開始深入挖掘相關細節。有開發者指出,Claude 4 的訓練數據截至時間為 2025 年 3 月,是目前所有主流模型中最新的——相比之下,Google Gemini 2.5 的數據截止時間為 2025 年 1 月。

試用之下,有開發者反饋稱,Claude 4 只用了 30 秒就做出了一個 CRM 的儀表板。


與此同時,Claude 4 的上線也牽動了 AI 編程助手領域的競爭神經。要知道,就在本月初,OpenAI 宣布將以 30 億美元收購 AI 編程初創公司 Windsurf,而就在 Claude 4 發布當日,Windsurf CEO Varun Mohan 接連發文表達了“被冷落”的不滿。

他在 X 上寫道:“很遺憾,Anthropic 沒有在第一時間向我們的用戶開放對 Claude Sonnet 4 和 Opus 4 的直接訪問權限。我們正在積極尋找其他渠道的算力資源,以保證 Windsurf 能繼續作為一個多功能、強性能的 AI 助手平臺,這就是我們當前唯一的重點。

為此,我們已經大幅提升了 Gemini 2.5 Pro 在 Windsurf 中的表現(現在是推薦模型!),并正在推進自帶 API 密鑰(BYOK)功能的支持。一有最新進展,我們會第一時間通知大家!繼續忙著更新功能中……”


幾小時后, Varun Mohan 再度發文稱:“作為臨時解決方案,我們已經在 Windsurf 中開放了對 Claude Sonnet 4 和 Opus 4 的自帶密鑰支持,適用于所有個人用戶(包括免費和專業版)。我們仍在爭取獲取專屬算力資源,屆時會及時告知大家。”


這一波操作也引發了社區熱議。有網友評論:“Anthropic 拒絕向 Windsurf 開放 Claude Sonnet 4 和 Opus 4 的支持,導致它成了唯一無法使用這兩個模型的編碼工具平臺。”

也有不少用戶心疼 Windsurf 稱:“Claude 4 的發布,實際變成了與 OpenAI 之間的競爭。”


不得不說,在大模型軍備競賽日益升溫的當下,Claude 4 的發布不僅技術層面引人注目,其背后的產品接入、算力博弈與生態競爭也正在悄然展開。Claude 4 能否真正改變 AI 編程工具的格局,還需時間給出答案。

參考:

https://www.anthropic.com/news/claude-4

https://arstechnica.com/ai/2025/05/anthropic-calls-new-claude-4-worlds-best-ai-coding-model/

https://x.com/_mohansolo/status/1925605908287250939

2025 全球產品經理大會

2025 年 8 月 15–16 日

北京·威斯汀酒店

2025 全球產品經理大會將匯聚互聯網大廠、AI 創業公司、ToB/ToC 實戰一線的產品人,圍繞產品設計、用戶體驗、增長運營、智能落地等核心議題,展開 12 大專題分享,洞察趨勢、拆解路徑、對話未來。

更多詳情與報名,請掃碼下方二維碼。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中日空中交鋒,日方稱日本沒有人員傷亡,并裝可憐向中方提要求

中日空中交鋒,日方稱日本沒有人員傷亡,并裝可憐向中方提要求

大道無形我有型
2025-06-12 12:25:33
A股:證監會、央行最新發布,做好準備了,A股即將迎來新的行情

A股:證監會、央行最新發布,做好準備了,A股即將迎來新的行情

史書無明
2025-06-14 17:41:55
兒子清華錄取當天,前妻寄來包裹,退還了我20年來的所有匯款

兒子清華錄取當天,前妻寄來包裹,退還了我20年來的所有匯款

故事那點事
2025-06-09 16:49:59
電視劇全網熱度榜,《長安的荔枝》跌至第三,第一熱度高達76.42

電視劇全網熱度榜,《長安的荔枝》跌至第三,第一熱度高達76.42

圓頭講電影
2025-06-13 12:41:35
誰錯了?我藏南國土并非9萬、印度實際只控制了6.8萬,冤枉它了?

誰錯了?我藏南國土并非9萬、印度實際只控制了6.8萬,冤枉它了?

阿燕姐說育兒
2025-06-14 13:46:52
首針已打!47歲蔡磊抗爭六年終看到希望,漸凍癥患者的春天來了!

首針已打!47歲蔡磊抗爭六年終看到希望,漸凍癥患者的春天來了!

睡什么起來嗨
2025-06-14 19:20:21
美籍華人:巴基斯坦戰勝印度是土耳其技術的結果,不是中國的技術

美籍華人:巴基斯坦戰勝印度是土耳其技術的結果,不是中國的技術

瀘沽湖
2025-05-17 10:28:19
打入關鍵進球!15歲中國小將弗朗西斯科-王隨本菲卡獲U15聯賽冠軍

打入關鍵進球!15歲中國小將弗朗西斯科-王隨本菲卡獲U15聯賽冠軍

直播吧
2025-06-14 14:42:39
伊朗國家電視臺:伊朗將在數小時內再襲以色列

伊朗國家電視臺:伊朗將在數小時內再襲以色列

財聯社
2025-06-15 02:57:14
Labubu韓國門店大排長龍,警察出動維護秩序!泡泡瑪特決定:中止韓國線下銷售

Labubu韓國門店大排長龍,警察出動維護秩序!泡泡瑪特決定:中止韓國線下銷售

第一財經資訊
2025-06-14 17:43:31
步行者2:2雷霆,黑哨響徹印第安納,福斯特簡直就是籃球之恥!

步行者2:2雷霆,黑哨響徹印第安納,福斯特簡直就是籃球之恥!

司峰阿道
2025-06-14 13:01:56
天呢!網傳最大的鐵飯碗要破裂,直接影響200萬人生計…

天呢!網傳最大的鐵飯碗要破裂,直接影響200萬人生計…

慧翔百科
2025-05-21 14:02:24
4位廳干(擬)履新,卸任省級政府副秘書長后,他轉任省廳

4位廳干(擬)履新,卸任省級政府副秘書長后,他轉任省廳

魯中晨報
2025-06-14 21:54:05
官方:西雅圖風暴將李月汝交易至達拉斯飛翼,換來兩個選秀權

官方:西雅圖風暴將李月汝交易至達拉斯飛翼,換來兩個選秀權

懂球帝
2025-06-14 23:17:24
戲里土掉渣,戲外美到炸,《長安的荔枝》這位女演員反差太大了

戲里土掉渣,戲外美到炸,《長安的荔枝》這位女演員反差太大了

娛樂圈十三太保
2025-06-13 18:03:28
東部戰區:若武統臺灣,不會斬首賴清德,只因一個極其重要的原因

東部戰區:若武統臺灣,不會斬首賴清德,只因一個極其重要的原因

混沌錄
2025-06-13 21:04:24
格力暴雷!負債248億,股權遭凍結,董明珠終為她的決定付出代價

格力暴雷!負債248億,股權遭凍結,董明珠終為她的決定付出代價

深析古今
2025-06-14 17:15:12
兒子出國后16年沒聯系,我癌癥住院時,主治醫生摘下口罩:媽

兒子出國后16年沒聯系,我癌癥住院時,主治醫生摘下口罩:媽

五元講堂
2025-06-12 15:16:01
舅媽出軌被外甥意外撞破,外甥答應隱瞞,提出的條件卻讓她......

舅媽出軌被外甥意外撞破,外甥答應隱瞞,提出的條件卻讓她......

歷史八卦社
2025-06-10 23:45:11
雨還在下!北京最新天氣預報——

雨還在下!北京最新天氣預報——

BRTV新聞
2025-06-14 19:12:08
2025-06-15 07:55:00
CSDN incentive-icons
CSDN
成就一億技術人
25642文章數 242071關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

伊朗數小時內或再襲擊 以色列進入"前所未有緊急狀態"

頭條要聞

伊朗數小時內或再襲擊 以色列進入"前所未有緊急狀態"

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

健康
手機
親子
時尚
軍事航空

呼吸科專家破解呼吸道九大謠言!

手機要聞

蘋果發布iOS 26測試版更新,iPhone XS已被列為“過時產品”

親子要聞

想養高情商孩子?這三句話別錯過

中年女人少穿黑色和灰色,年輕色穿出減齡效果,看起來嫩十歲

軍事要聞

伊媒:以色列國防部大樓被伊朗導彈擊中

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 熟妇高潮精品一区二区三区| 久久亚洲人成综合网| 国产女人被狂躁到高潮小说| 人人超碰人人爱超碰国产| 久久精品成人无码观看免费| 亚洲欧洲无卡二区视頻| 久久久久久久香蕉国产30分钟| 国产亚洲精久久久久久无码77777| 久久久久久久亚洲av无码| 精品国产免费人成网站| 国产精品丝袜无码不卡一区| 无码无套少妇毛多18pxxxx| 久久激情五月丁香伊人| 中文字幕无线码一区二区| 国产熟妇勾子乱视频| 与子敌伦刺激对白播放的优点| 无码av人片在线观看天堂| 日韩欧美卡一卡二卡新区| 亚洲自偷自偷偷色无码中文| 亚洲最大成人一区久久久| 久久精品无码中文字幕| 久久精品久久久久观看99水蜜桃| 大桥未久亚洲无av码在线| 国产乱辈通伦影片在线播放亚洲| 成人国内精品久久久久一区| 欧美人妻少妇精品久久黑人| 日韩欧美一区二区三区免费观看| 午夜伦4480yy私人影院久久| 2021年国产精品专区丝袜| 草草久久久无码国产专区| 久久中文字幕av一区二区不卡| 麻豆文化传媒精品一区观看| 日日躁夜夜躁狠狠躁夜夜躁| 最近中文字幕国语免费| 50岁退休熟女露脸高潮| 医院人妻闷声隔着帘子被中出| 国产精品爱久久久久久久电影蜜臀| 五十路熟女一区二区三区| 久久av老司机精品网站导航| 国产精品白浆精子像水合集| 99re66在线观看精品免费|