智東西
編譯 金碧輝
編輯 程茜
智東西5月15日消息,據The Information昨日傍晚報道,繼OpenAI、谷歌之后,AI獨角獸Anthropic即將推出深度推理模型,推出Claude Sonnet和Claude Opus兩大模型升級版本,全球AI競賽進入“深度思考”新階段。
據知情人士透露,Anthropic將通過“推理-工具調用”動態切換機制,該機制可自主發現問題并修正錯誤,將AI系統的自主決策能力推向新高度。該技術已在代碼生成、市場分析等復雜場景驗證效能,Anthropic計劃在未來數周正式發布。
一、支持推理與工具調用無縫切換,可自主修正錯誤
不同于現有推理模型,Anthropic新模型首次實現了“推理模式”與“工具調用”的無縫轉換。當Anthropic新模型使用外部工具受阻時,該模型可立即切換至深度推理狀態,分析問題根源并自我修正。
雖然OpenAI等競爭對手宣稱其o3、o4-mini模型已具備和Anthropic類似的推理能力,但據外媒The Information爆料,Anthropic的深度思考模型在復雜任務處理效率上顯現優勢,在相同市場分析任務中,Anthropic新模型決策路徑縮短30%,數據調用精準度提升22%。
以曼哈頓咖啡店選址為例,Anthropic新模型的系統會先檢索全美趨勢數據,通過本地人口統計數據分析,自動修正初始方案的偏差。
在軟件開發場景,Anthropic新模型具備代碼自動測試功能。Anthropic新模型在生成代碼后能立即啟動自檢程序,發現錯誤即暫停執行,通過多維度推理定位問題并修正。
外媒The Information援引Anthropic新模型的測試人員證實,Anthropic新模型的系統處理“提升應用運行速度”等抽象指令時,可在無需人工干預情況下,自主完成方案設計、測試驗證全流程。
二、前代產品評價兩極分化,企業仍加大核心計算技術投入
盡管用戶對前代Claude 3.7 Sonnet的評價呈現兩極分化,但Anthropic仍持續加大“測試時計算量”投入。
一部分用戶對其稱贊有加,在復雜的會計分析和數據可視化任務中,Claude 3.7 Sonnet展現出極高效率,短短十秒即可完成任務。
但另一部分用戶則提出諸多質疑,如模型知識儲備存在局限,在回答重要問題時容易出錯,甚至在面對美國總統等常識性問題時也會誤答;使用成本高昂,每百萬輸入token費用為3美元(折合人民幣約為25.59元),每百萬輸出token費用達15美元(折合人民幣約為107.95元),特別是使用思考功能時開支顯著上升,對個人用戶和小團隊而言負擔較重;還有用戶反饋模型存在忽視指令、過度工程化傾向,以及在實際使用中上下文窗口利用效率存疑等問題。
這項支撐推理模型的核心技術,通過動態分配計算資源優化思考深度。據The Information報道,某知情人士指出,這種技術路線選擇凸顯企業對該架構的長期信心。
結語:Anthropic新框架預研,推動AI自主決策邁向實用
Anthropic的“推理-工具調用”框架雖仍處于預研階段,將AI自主決策能力推向實用化階段。該模型在代碼迭代、商業邏輯推演等場景中已顯現效能提升潛力。面對OpenAI等機構的技術路線競爭,以及模型指令對齊的行業性難題,相關系統的工程化路徑尚未完全定型。
隨著各大機構加速逼近自主決策的技術臨界點,如何在增強自主性與確保可控性之間取得平衡,或將成為下一代AI系統的關鍵挑戰。
來源:The Information
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.