網易首頁 > 網易號 > 正文申請入駐

曝Anthropic幾周內將推兩大深度推理模型，可無縫切換思考模式、調用外部工具

2025-05-15 21:40:08　來源: 智東西

北京舉報

分享至

智東西
編譯金碧輝
編輯程茜

智東西5月15日消息，據The Information昨日傍晚報道，繼OpenAI、谷歌之后，AI獨角獸Anthropic即將推出深度推理模型，推出Claude Sonnet和Claude Opus兩大模型升級版本，全球AI競賽進入“深度思考”新階段。

據知情人士透露，Anthropic將通過“推理-工具調用”動態切換機制，該機制可自主發現問題并修正錯誤，將AI系統的自主決策能力推向新高度。該技術已在代碼生成、市場分析等復雜場景驗證效能，Anthropic計劃在未來數周正式發布。

一、支持推理與工具調用無縫切換，可自主修正錯誤

不同于現有推理模型，Anthropic新模型首次實現了“推理模式”與“工具調用”的無縫轉換。當Anthropic新模型使用外部工具受阻時，該模型可立即切換至深度推理狀態，分析問題根源并自我修正。

雖然OpenAI等競爭對手宣稱其o3、o4-mini模型已具備和Anthropic類似的推理能力，但據外媒The Information爆料，Anthropic的深度思考模型在復雜任務處理效率上顯現優勢，在相同市場分析任務中，Anthropic新模型決策路徑縮短30%，數據調用精準度提升22%。

以曼哈頓咖啡店選址為例，Anthropic新模型的系統會先檢索全美趨勢數據，通過本地人口統計數據分析，自動修正初始方案的偏差。

在軟件開發場景，Anthropic新模型具備代碼自動測試功能。Anthropic新模型在生成代碼后能立即啟動自檢程序，發現錯誤即暫停執行，通過多維度推理定位問題并修正。

外媒The Information援引Anthropic新模型的測試人員證實，Anthropic新模型的系統處理“提升應用運行速度”等抽象指令時，可在無需人工干預情況下，自主完成方案設計、測試驗證全流程。

二、前代產品評價兩極分化，企業仍加大核心計算技術投入

盡管用戶對前代Claude 3.7 Sonnet的評價呈現兩極分化，但Anthropic仍持續加大“測試時計算量”投入。

一部分用戶對其稱贊有加，在復雜的會計分析和數據可視化任務中，Claude 3.7 Sonnet展現出極高效率，短短十秒即可完成任務。

但另一部分用戶則提出諸多質疑，如模型知識儲備存在局限，在回答重要問題時容易出錯，甚至在面對美國總統等常識性問題時也會誤答；使用成本高昂，每百萬輸入token費用為3美元（折合人民幣約為25.59元），每百萬輸出token費用達15美元（折合人民幣約為107.95元），特別是使用思考功能時開支顯著上升，對個人用戶和小團隊而言負擔較重；還有用戶反饋模型存在忽視指令、過度工程化傾向，以及在實際使用中上下文窗口利用效率存疑等問題。

這項支撐推理模型的核心技術，通過動態分配計算資源優化思考深度。據The Information報道，某知情人士指出，這種技術路線選擇凸顯企業對該架構的長期信心。

結語：Anthropic新框架預研，推動AI自主決策邁向實用

Anthropic的“推理-工具調用”框架雖仍處于預研階段，將AI自主決策能力推向實用化階段。該模型在代碼迭代、商業邏輯推演等場景中已顯現效能提升潛力。面對OpenAI等機構的技術路線競爭，以及模型指令對齊的行業性難題，相關系統的工程化路徑尚未完全定型。

隨著各大機構加速逼近自主決策的技術臨界點，如何在增強自主性與確保可控性之間取得平衡，或將成為下一代AI系統的關鍵挑戰。

來源：The Information

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.