OpenAI 前腳剛大幅下調了 o3 模型的價格,后腳就推出了其新的最強模型 o3-Pro。
當地時間 6 月 10 日,OpenAI 正式下調了其 o3 模型的 API 價格。調整后,每百萬輸入 token 的價格從 10 美元降至 2 美元,輸出 token 的價格從 40 美元降至 8 美元。這次 80% 的降價,讓 o3 的成本與 GPT-4.1 模型保持一致。
圖丨o3 的價格調整(來源:OpenAI)
在宣布 o3 降價的同時,OpenAI 推出了 o3-pro 模型。該模型在 API 和 ChatGPT Pro/Team 用戶的選擇列表中取代了此前的 o1-pro。企業版和教育版用戶則會在一周后獲得訪問權限(Plus 用戶暫時無緣使用)。與 o3 的降價策略形成鮮明對比,o3-pro 的定價顯著提高:每百萬輸入 token 為 20 美元,輸出 token 為 80 美元,是調整后 o3 價格的十倍。
根據 OpenAI 官方發布的評估數據,o3-pro 在多個維度的測試中均優于其前身。
在與人類測試者的對比評估中,o3-pro 在所有查詢類別中的綜合勝率達到了 64%。在具體的專業領域,其優勢更為明顯:在科學分析和數據分析任務中,勝率分別達到 64.9% 和 64.3%;在個人寫作和計算機編程方面,勝率則為 66.7% 和 62.7%。
圖丨o3-Pro 的評估表現(來源:OpenAI)
在“4/4 可靠性”基準測試中,o3-pro 同樣表現出突出。這項測試要求模型在四次獨立嘗試中全部正確回答同一個問題才算通過。在競爭性數學(AIME 2024)和博士級科學問題(GPQA Diamond)這類高難度測試中,o3-pro 的可靠性得分分別達到了 90% 和 76%,均高于 o3 和 o1-pro。在編程能力(Codeforces)的評估中,o3-pro 的 Elo 等級分也顯著高于前代模型,達到了 2301 分。這些硬性指標從數據層面證實了 o3-pro 在處理復雜、精確任務時的可靠性優勢。
許多用戶的實測也印證了其強大能力。
不過,能力的提升也帶來了時間和成本的增加。這一點在早期用戶的反饋中得到了證實。部分開發者反映該模型響應緩慢且費用高昂。
例如,Hyerbolic Labs 的 CTO Yuchen Jin 提到,一句簡單的“Hi,I'm Sam Altman”就足足讓模型思考了將近四分鐘,甚至最長能達到 13 分鐘。
圖丨相關推文(來源:X)
OpenAI 官方對此進行了解釋,稱 o3-pro 的設計目標是“進行更長時間的思考,并提供最可靠的響應”。公司表示,o3-pro 能夠訪問更多的軟件工具,包括網頁搜索、文件分析、視覺輸入推理和 Python 代碼執行,這些能力的調用使其響應時間比普通模型更長。OpenAI 的官方建議是,將 o3-pro 用于“可靠性比速度更重要的挑戰性問題”,認為在這些場景下,額外的等待時間是值得的。
對于能夠適應其特性的用戶,o3-pro 就表現出了不俗的能力。
Raindrop 公司的聯合創始人 Ben Hylak 在一篇詳細的評測中分享了他的使用經驗。他認為,使用 o3-pro 的正確方式是“像使用報告生成器一樣”,即一次性提供大量、詳盡的上下文信息,而不是進行來回的對話式交流。他將這一核心思想概括為“模型需要上下文”(God is hungry for context)。
為了驗證這一觀點,Hylak 和他的團隊進行了一項測試。他們收集了公司過往的規劃會議紀要、目標文檔和語音備忘錄,將這些海量、具體的內部信息作為上下文,輸入給 o3-pro,并要求其制定一份公司未來發展計劃。據 Hylak 描述,o3-pro 輸出的計劃非常具體且切合實際,包含了可量化的指標、明確的時間線和任務優先級,甚至對哪些項目應該停止給出了堅決的建議。他認為,這份計劃的深度和可操作性,已經“真正改變了我們對未來的思考方式”。
o3-pro 之所以能做到這一點,關鍵在于其更強的環境感知和工具調用能力。它能更好地理解自身所處的運行環境和能力的邊界。Hylak 提供了兩個例子:
1. 環境感知:當被要求渲染一段 HTML 代碼時,o3-pro 沒有像其他模型一樣嘗試在不支持的環境中執行,而是明確告知用戶它無法直接渲染,并清晰地描述了代碼的預期視覺效果,同時指導用戶如何本地查看。
(來源:Latent Space)
2. 智能澄清與工具引導:當被要求查找關于作家博爾赫斯的最新文章時,o3-pro 首先主動提問以澄清具體指代的人物和用戶需求。在發現自身工具鏈無法直接完成實時搜索后,它沒有給出“找不到”的簡單答復,而是為用戶生成了一個精確的谷歌搜索指令,幫助用戶自行解決問題。
這些例子表明,o3-pro 在辨別環境、溝通自身能力、在信息不足時提問以及為任務選擇合適工具等方面,相比前代模型有了顯著進步。它更像一個能夠與人類、外部數據和其他工具協作的智能體。
當然,Hylak 也提到,在上下文不足時,o3-pro 可能會對簡單問題“過度思考”,且它更擅長作為任務的“編排者”而非直接的執行者。這進一步證實了新的交互模式:用戶需要提供高質量的上下文和清晰的目標,AI 則在此基礎上進行深度分析和規劃。
在 OpenAI 進行產品線調整的同一時期,其 CEO 薩姆·奧特曼發表了一篇題為《溫和的奇點》(The Gentle Singularity)的博文,闡述了他對當前 AI 技術發展階段的個人看法。
圖丨相關推文(來源:Sam Altman)
文章的核心觀點是,技術奇點并非一個突然爆發、顛覆一切的戲劇性事件,而是一個“溫和”的、漸進的、并且已經開始的過程。他描述道:“我們已經越過了事件視界;起飛已經開始……至少到目前為止,它比想象中要平淡得多。”
奧特曼用“奇跡變成常態,然后成為基本要求”來形容這個進程。他認為,社會對于 AI 能力的期望值會快速適應和提升。今天看來令人驚嘆的技術,明天可能就會成為標準配置。這種快速的常態化,是“溫和奇點”的主要特征。
他認為,驅動這一進程的核心是一種“遞歸式自我改進”的早期形式。即,人類已經可以利用現有的 AI 工具來輔助和加速 AI 自身的研究。如果 AI 能幫助科學家將原本需要數年的研究周期縮短到數月甚至數周,那么整體的科技進步速度將發生質變。
在博文中,奧特曼展望了一個“智能和能源”都將變得極其豐富的未來。他認為,科學進步是整體社會進步的最大驅動力,而 AI 將極大地加速科學進步。他還提出了一個觀點,即在未來,那些擁有好想法但缺乏技術實現能力的人(他稱之為“the idea guys”),將迎來他們的時代,因為強大的 AI 工具可以幫助他們將想法變為現實。
當然,奧特曼也承認這條道路上面臨著巨大的挑戰。他重申了解決“對齊問題”(alignment problem)的重要性,即確保 AI 系統的發展和行為符合人類的長期集體意愿。同時,他也強調了將 AI 技術帶來的益處進行廣泛分配的必要性。
One more thing,OpenAI 還宣布推遲其備受期待的開源模型的發布時間。奧特曼表示,由于研究上取得了“意想不到的”進展,需要更多時間完善,因此發布將延后至夏末。
參考資料:
1.https://platform.openai.com/docs/models/o3-pro
2.https://www.latent.space/p/o3-pro
3.https://blog.samaltman.com/the-gentle-singularity
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.