大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

o3-pro答高難題文字游戲引圍觀,OpenAI前員工諷刺蘋果

0
分享至

西風 發自 凹非寺
量子位 | 公眾號 QbitAI

OpenAI“最新最強版”推理模型o3-pro,實際推理能力到底有多強?

全球首位全職提示工程師Riley Goodside來給它上難度:

  • 說出歌手Sabrina Carpenter的一首歌的歌名,回答這個問題時,每個單詞最后一個字母連起來看,也能對應這首歌名



結果,o3-pro在經過4分25秒的推理過后,成功給出正確答案。

經Sabrina Carpenter實測,o3只能做對個大概,通常只能把最后幾個字母湊對。



該測試引來OpenAI前AGI Readiness團隊負責人Miles Brundage的轉發關注。

雖然人已經不在OpenAI了,但Miles Brundage還是替老東家直接開大陰陽蘋果:如果這都不叫推理那什么叫推理。

PS:蘋果前幾天發了個新研究,用漢諾塔等四個小游戲測試大模型,稱推理模型全都沒在真正思考,只是另一種形式的“模式匹配”,所謂思考只是一種假象。



除了網友實測外,各大評測榜單已陸續同步更新排名。

總結來看,和官方給的測試結果略有不同。

官方測評中,o3-pro超越o3、o1-pro,成為當前最擅長編碼的OpenAI模型。



而在大模型權威榜單LiveBench上,o3-pro和o3編碼平均得分幾乎無差,o3-pro僅有0.07分的優勢。

智能體編碼平均得分方面,o3-pro甚至大比分落后于o3(31.67 vs 36.67)。



亞馬遜云科技&谷歌前高管Bindu Reddy表示:

  • 主要是它在智能體這塊不太行,工具使用也不咋擅長。
  • 昨天的大新聞不是o3-pro ,而是o3降價了!!



另外,針對大模型長上下文理解的基準測試Fiction.LiveBench也放榜了。

o3-pro在較短上下文場景下表現很出色,較o3有所提升。

然鵝,192k超長上下文處理依然是Gemini 2.5 Pro占優勢,Gemini 2.5 Pro得分90.6,而o3-pro僅得分65.6。



讓人困惑的是,在這個基準測試中,不管是o3-pro還是o3,在16k上下文中分數都下降了,到了32k,兩個模型得分又回到了100。



除此之外,蘋果&SpaceX前工程師Ben Hylak之前分享o1使用心得,得到不少網友關注,連奧特曼、Brockman都轉發了。

這次o3-pro他同樣沒放過,而且又被奧特曼翻了牌子。



蘋果&SpaceX前工程師分享使用心得

蘋果&SpaceX前工程師Ben Hylak的分享,好似恰巧解釋了o3-pro的官方測評和各大評測榜單結果有所出入的問題。



Ben Hylak曾任SpaceX軟件工程師、蘋果VisionOS人機交互設計師,目前在創業為AI產品提供分析服務。

此前o1 pro推出滿血$200/月版本時,Ben Hyla第一天就交了錢,整整測試了一天。



結果體驗很糟糕,很多人表示同感,但也有人強烈反對。Ben Hylak在與持不同觀點人激烈討論了一番后,意識到自己的使用方法完全錯了。

  • 我還在把o1當聊天模型來用,但o1已經不是聊天模型了。

后來,Ben Hylak從討厭o1轉變成了每天都在用它解決最重要的問題。這件事兒的反轉,讓Ben Hylak測試o3-pro更加用心。

他透露這次自己一周前就已經提前接觸到了3-pro,o3-pro“以不同方式測試,實際體驗會有所不同”。

從經常測評大模型的經驗來看,Ben Hylak認為“模型能力的發揮高度依賴背景信息”,他表示自己目前使用o3關鍵就是:

  • 不把它當聊天對象,而是當作報告生成器。給它背景信息、設定目標,然后讓它自由發揮。

由此,要看出o3-pro的真正實力,得給它多得多的背景信息。然鵝,Ben Hylak手頭的信息素材都快榨干了。于是,Ben Hylak換了種方法:

他和他的聯合創始人Alexis花時間把他們在Raindrop所有歷史會議記錄、目標全翻出來,甚至錄了語音備忘錄,一股腦塞給o3-pro,讓它做規劃。

結果,被o3-pro驚艷到了:

  • 它輸出的計劃精準踩中我們想要的點——目標數據、時間排期、優先級排序,連“必須砍哪些業務”都寫得明明白白。
  • o3給出的計劃合理、說得通;但o3-pro給出的計劃足夠具體、有依據,真真切切改變了我們對未來的思考方式。
  • 這在評估中很難體現出來。

除此之外,Ben Hylak認為如今的模型在孤立環境下表現已然十分出色,簡單測試難不倒它,真正的挑戰在于將其融入社會。

這種融入主要體現在工具調用方面,即模型與人類、外部數據以及其它AI協作得如何

經測試,Ben Hylak表示o3-pro在這方面有了實實在在的提升——

“它在識別自身所處環境、準確說明可使用的工具、知曉何時需詢問外部世界信息(而非假裝自己掌握相關信息或權限 )以及為任務挑選合適工具等方面,表現都明顯更優。”

下面是展示示例。Ben Hylak讓o3-pro和o3做一個日歷。

o3-pro顯然能更好地理解其所處環境的邊界,明確表示:

在這個聊天窗口中無法顯示實時交互的HTML預覽(我的環境僅支持純文本和代碼片段)

并且給出了要查看渲染后日歷的詳細步驟操作,還描述了用戶將看到的視覺內容。



相比之下,o3明明做不到還裝能做,表示可以“創建日歷小組件的實時交互預覽”。

下面這個例子,Ben Hylak讓模型找今年關于Borges的Substack文章。

o3-pro同樣明確表示進行實時Substack查詢所需的網頁搜索工具在當前環境未啟用,所以無法直接獲取最新鏈接。

而o3表示搜索了,但沒有找到2025年發布的Borges的Substack文章。



Ben Hylak還發現,需要給o3-pro提供更多上下文,要是不提供足夠的上下文,它會出現過度思考的情況。

  • 它在分析方面超強,也很擅長借助工具做事,但自己直接動手做事就沒那么在行。我覺得它會是個超棒的協調者。不過,有些ClickHouse SQL相關問題,o3處理得更好。實際效果因人而異。

o3-pro給Ben Hylak帶來的體驗與Claude Opus、Gemini 2.5 Pro相比,都不同。

Ben Hylak認為Claude Opus雖體量龐大,但沒讓他真切感受到這種“大”的獨特價值;而o3-pro的輸出更優,仿佛兩者完全處于不同的競爭維度。

他繼續補充道,OpenAI正沿著強化學習路徑深挖(比如Deep Research、Codex項目),不只是教模型“怎么用工具”,更是教它們“思考何時該用工具”。

最后,Ben Hylak總結認為推理模型的Prompt技巧核心邏輯不變,之前他寫的o1提示指南,現在依然適用o3-pro。

首先,“語境”是一切,就像給“餅干怪獸”喂餅干,精準投喂才有效,它是一種引導大語言模型激活“類記憶能力”的方式,但因為足夠精準,所以效果拔群。

另外,系統提示的影響極大。如今模型的可塑性超強,那些能讓模型“理解自身所處環境與目標”的LLM調教框架,能產生遠超預期的價值。


[1]https://www.latent.space/p/o3-pro
[2]https://x.com/Miles_Brundage/status/1932889744306024815
[3]https://x.com/ficlive/status/1932588629768982751
[4]https://x.com/bindureddy/status/1932889892562088086

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
央視新聞主持人,上新

央視新聞主持人,上新

大象新聞
2025-06-14 18:50:06
F1加拿大站:勒克萊爾低級錯誤!法拉利賽車嚴重損毀,只跑了3圈

F1加拿大站:勒克萊爾低級錯誤!法拉利賽車嚴重損毀,只跑了3圈

體育妞世界
2025-06-14 15:36:16
表現當然不算糟糕,但步行者鋒線大將還是有能力做得更好一些?

表現當然不算糟糕,但步行者鋒線大將還是有能力做得更好一些?

稻谷與小麥
2025-06-15 01:18:59
3-1爆冷歐洲勁旅!中國男排假扣真傳,上升第3,世聯賽最新積分榜

3-1爆冷歐洲勁旅!中國男排假扣真傳,上升第3,世聯賽最新積分榜

知軒體育
2025-06-14 17:39:07
特權高墻下的冷漠:解析伊朗民眾對高層遇刺的沉默邏輯

特權高墻下的冷漠:解析伊朗民眾對高層遇刺的沉默邏輯

步論天下事
2025-06-14 20:17:14
12星座床上最喜歡用的性姿勢!

12星座床上最喜歡用的性姿勢!

同道大叔
2025-06-14 22:05:01
保存荔枝,最忌直接放冰箱,教你7個妙招,放一個月不發黑不變味

保存荔枝,最忌直接放冰箱,教你7個妙招,放一個月不發黑不變味

绱美食啊
2025-06-14 14:30:21
搞不好成為第二個烏克蘭?美國防長放話:中國敢動手,美國就下場

搞不好成為第二個烏克蘭?美國防長放話:中國敢動手,美國就下場

林子說事
2025-06-14 16:22:58
巴克利:步行者沒能拿到賽點 系列賽已經結束了

巴克利:步行者沒能拿到賽點 系列賽已經結束了

北青網-北京青年報
2025-06-14 19:37:08
李嘉誠說:“只有窮人,才會癡迷技術,只有笨人,才會先把事做好

李嘉誠說:“只有窮人,才會癡迷技術,只有笨人,才會先把事做好

伊人河畔
2025-06-08 11:05:34
拒絕340萬底薪,又要面臨離隊!NBA真正硬漢球星,或許你該退役了

拒絕340萬底薪,又要面臨離隊!NBA真正硬漢球星,或許你該退役了

老梁體育漫談
2025-06-15 00:34:25
以色列的強大,超乎你的想象,說他是第二個美國也差不多

以色列的強大,超乎你的想象,說他是第二個美國也差不多

晨晨星
2025-04-28 09:15:23
從草地 3 勝 8 負到改寫 57 年紀錄鄭欽文三招逆襲讓全英主場閉嘴

從草地 3 勝 8 負到改寫 57 年紀錄鄭欽文三招逆襲讓全英主場閉嘴

獵奇密探
2025-06-14 19:10:06
300天靜默后,柬埔寨公布一個數字,讓所有人重新審視中國這步棋

300天靜默后,柬埔寨公布一個數字,讓所有人重新審視中國這步棋

任紀煙
2025-06-13 19:39:11
醫生坦言:男性若長期不喝酒,用不了多長時間,身體或有4個變化

醫生坦言:男性若長期不喝酒,用不了多長時間,身體或有4個變化

明月聊史
2025-06-07 16:12:23
果然,李嘉誠反擊了

果然,李嘉誠反擊了

妮妮玩不夠
2025-05-28 12:22:04
這妞厲害!來橫店三個月從配角到女二!

這妞厲害!來橫店三個月從配角到女二!

TVB的四小花
2025-06-14 01:16:34
張康陽時期發行!國米官方:提前贖回4億歐債券 連本帶利4.12億歐

張康陽時期發行!國米官方:提前贖回4億歐債券 連本帶利4.12億歐

直播吧
2025-06-13 22:51:24
剛剛!泡泡瑪特宣布:暫停銷售!

剛剛!泡泡瑪特宣布:暫停銷售!

證券時報
2025-06-14 21:17:21
太難!孩子去世無人贍養,老人到南京想找工作,沒錢餓得躺地發抖

太難!孩子去世無人贍養,老人到南京想找工作,沒錢餓得躺地發抖

大蘇專欄
2025-06-13 20:59:41
2025-06-15 01:55:01
量子位 incentive-icons
量子位
追蹤人工智能動態
10666文章數 176166關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

健康
本地
教育
公開課
軍事航空

呼吸科專家破解呼吸道九大謠言!

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

教育要聞

速看!北京中學招聘教師啦

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊媒:以色列國防部大樓被伊朗導彈擊中

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚欧色一区w666天堂| 伊人久久五月丁香综合中文亚洲| 国产成人啪精品视频免费网站软件| 国产午夜福利100集发布| 国产不卡视频一区二区三区| 九色综合九色综合色鬼| 成本人无码h无码动漫在线网站| 忘忧草社区在线播放日本韩国| 国产精品久久久久久久网| 久久免费观看午夜成人网站| 东北少妇不带套对白| 国产乱人伦精品一区二区| 欧洲熟妇色xxxx欧美老妇多毛网站| 日本免费一区二区三区在线播放| 免费午夜爽爽爽www视频十八禁| 亚洲 日韩 另类 天天更新| 中文字幕欧美人妻精品一区| 999久久久免费精品国产| 55夜色66夜色国产精品视频| 在线观看国产精品普通话对白精品| 国产福利无码一区二区在线| 亚洲av成人无码久久精品| 无码免费午夜福利片在线| 亚洲欧美日韩自偷自拍| 小sao货水好多真紧h无码视频| 欧美性猛交99久久久久99按摩| 亚洲午夜久久久久妓女影院| 国产成人av大片大片在线播放| 无码中出人妻中文字幕av| aaa欧美色吧激情视频| 影视先锋av资源噜噜| 蜜桃视频一区二区三区在线观看| 国产精品久久久久不卡无毒| av天堂亚洲区无码先锋影音| 国产乱子伦一区二区三区| 国产偷窥熟女高潮精品视频| 亚洲无人区午夜福利码高清完整版| 97se色综合一区二区二区| 国产旡码高清一区二区三区| 国产成人av综合久久视色| 男人的天堂免费a级毛片无码|