大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

<small id="mnrrc"><thead id="mnrrc"><strong id="mnrrc"></strong></thead></small>

<input id="mnrrc"></input>

<strong id="mnrrc"><center id="mnrrc"><th id="mnrrc"></th></center></strong>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

o3-pro答高難題文字游戲引圍觀，OpenAI前員工諷刺蘋果

2025-06-13 11:31:08　來源: 量子位

北京舉報

0

分享至

西風發自凹非寺
量子位 | 公眾號 QbitAI

OpenAI“最新最強版”推理模型o3-pro，實際推理能力到底有多強？

全球首位全職提示工程師Riley Goodside來給它上難度：

說出歌手Sabrina Carpenter的一首歌的歌名，回答這個問題時，每個單詞最后一個字母連起來看，也能對應這首歌名

結果，o3-pro在經過4分25秒的推理過后，成功給出正確答案。

經Sabrina Carpenter實測，o3只能做對個大概，通常只能把最后幾個字母湊對。

該測試引來OpenAI前AGI Readiness團隊負責人Miles Brundage的轉發關注。

雖然人已經不在OpenAI了，但Miles Brundage還是替老東家直接開大陰陽蘋果：如果這都不叫推理那什么叫推理。

PS：蘋果前幾天發了個新研究，用漢諾塔等四個小游戲測試大模型，稱推理模型全都沒在真正思考，只是另一種形式的“模式匹配”，所謂思考只是一種假象。

除了網友實測外，各大評測榜單已陸續同步更新排名。

總結來看，和官方給的測試結果略有不同。

官方測評中，o3-pro超越o3、o1-pro，成為當前最擅長編碼的OpenAI模型。

而在大模型權威榜單LiveBench上，o3-pro和o3編碼平均得分幾乎無差，o3-pro僅有0.07分的優勢。

智能體編碼平均得分方面，o3-pro甚至大比分落后于o3（31.67 vs 36.67）。

亞馬遜云科技&谷歌前高管Bindu Reddy表示：

主要是它在智能體這塊不太行，工具使用也不咋擅長。
昨天的大新聞不是o3-pro ，而是o3降價了！！

另外，針對大模型長上下文理解的基準測試Fiction.LiveBench也放榜了。

o3-pro在較短上下文場景下表現很出色，較o3有所提升。

然鵝，192k超長上下文處理依然是Gemini 2.5 Pro占優勢，Gemini 2.5 Pro得分90.6，而o3-pro僅得分65.6。

讓人困惑的是，在這個基準測試中，不管是o3-pro還是o3，在16k上下文中分數都下降了，到了32k，兩個模型得分又回到了100。

除此之外，蘋果&SpaceX前工程師Ben Hylak之前分享o1使用心得，得到不少網友關注，連奧特曼、Brockman都轉發了。

這次o3-pro他同樣沒放過，而且又被奧特曼翻了牌子。

蘋果&SpaceX前工程師分享使用心得

蘋果&SpaceX前工程師Ben Hylak的分享，好似恰巧解釋了o3-pro的官方測評和各大評測榜單結果有所出入的問題。

Ben Hylak曾任SpaceX軟件工程師、蘋果VisionOS人機交互設計師，目前在創業為AI產品提供分析服務。

此前o1 pro推出滿血$200/月版本時，Ben Hyla第一天就交了錢，整整測試了一天。

結果體驗很糟糕，很多人表示同感，但也有人強烈反對。Ben Hylak在與持不同觀點人激烈討論了一番后，意識到自己的使用方法完全錯了。

我還在把o1當聊天模型來用，但o1已經不是聊天模型了。

后來，Ben Hylak從討厭o1轉變成了每天都在用它解決最重要的問題。這件事兒的反轉，讓Ben Hylak測試o3-pro更加用心。

他透露這次自己一周前就已經提前接觸到了3-pro，o3-pro“以不同方式測試，實際體驗會有所不同”。

從經常測評大模型的經驗來看，Ben Hylak認為“模型能力的發揮高度依賴背景信息”，他表示自己目前使用o3關鍵就是：

不把它當聊天對象，而是當作報告生成器。給它背景信息、設定目標，然后讓它自由發揮。

由此，要看出o3-pro的真正實力，得給它多得多的背景信息。然鵝，Ben Hylak手頭的信息素材都快榨干了。于是，Ben Hylak換了種方法：

他和他的聯合創始人Alexis花時間把他們在Raindrop所有歷史會議記錄、目標全翻出來，甚至錄了語音備忘錄，一股腦塞給o3-pro，讓它做規劃。

結果，被o3-pro驚艷到了：

它輸出的計劃精準踩中我們想要的點——目標數據、時間排期、優先級排序，連“必須砍哪些業務”都寫得明明白白。
o3給出的計劃合理、說得通；但o3-pro給出的計劃足夠具體、有依據，真真切切改變了我們對未來的思考方式。
這在評估中很難體現出來。

除此之外，Ben Hylak認為如今的模型在孤立環境下表現已然十分出色，簡單測試難不倒它，真正的挑戰在于將其融入社會。

這種融入主要體現在工具調用方面，即模型與人類、外部數據以及其它AI協作得如何

經測試，Ben Hylak表示o3-pro在這方面有了實實在在的提升——

“它在識別自身所處環境、準確說明可使用的工具、知曉何時需詢問外部世界信息（而非假裝自己掌握相關信息或權限）以及為任務挑選合適工具等方面，表現都明顯更優。”

下面是展示示例。Ben Hylak讓o3-pro和o3做一個日歷。

o3-pro顯然能更好地理解其所處環境的邊界，明確表示：

在這個聊天窗口中無法顯示實時交互的HTML預覽（我的環境僅支持純文本和代碼片段）

并且給出了要查看渲染后日歷的詳細步驟操作，還描述了用戶將看到的視覺內容。

相比之下，o3明明做不到還裝能做，表示可以“創建日歷小組件的實時交互預覽”。

下面這個例子，Ben Hylak讓模型找今年關于Borges的Substack文章。

o3-pro同樣明確表示進行實時Substack查詢所需的網頁搜索工具在當前環境未啟用，所以無法直接獲取最新鏈接。

而o3表示搜索了，但沒有找到2025年發布的Borges的Substack文章。

Ben Hylak還發現，需要給o3-pro提供更多上下文，要是不提供足夠的上下文，它會出現過度思考的情況。

它在分析方面超強，也很擅長借助工具做事，但自己直接動手做事就沒那么在行。我覺得它會是個超棒的協調者。不過，有些ClickHouse SQL相關問題，o3處理得更好。實際效果因人而異。

o3-pro給Ben Hylak帶來的體驗與Claude Opus、Gemini 2.5 Pro相比，都不同。

Ben Hylak認為Claude Opus雖體量龐大，但沒讓他真切感受到這種“大”的獨特價值；而o3-pro的輸出更優，仿佛兩者完全處于不同的競爭維度。

他繼續補充道，OpenAI正沿著強化學習路徑深挖（比如Deep Research、Codex項目），不只是教模型“怎么用工具”，更是教它們“思考何時該用工具”。

最后，Ben Hylak總結認為推理模型的Prompt技巧核心邏輯不變，之前他寫的o1提示指南，現在依然適用o3-pro。

首先，“語境”是一切，就像給“餅干怪獸”喂餅干，精準投喂才有效，它是一種引導大語言模型激活“類記憶能力”的方式，但因為足夠精準，所以效果拔群。

另外，系統提示的影響極大。如今模型的可塑性超強，那些能讓模型“理解自身所處環境與目標”的LLM調教框架，能產生遠超預期的價值。

[1]https://www.latent.space/p/o3-pro
[2]https://x.com/Miles_Brundage/status/1932889744306024815
[3]https://x.com/ficlive/status/1932588629768982751
[4]https://x.com/bindureddy/status/1932889892562088086

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

AI代碼補全哪家強？兩個新指標+一套新框架，讓模型更懂開發者

量子位 2025-06-12 16:26:14
4 跟貼 4
比你還像你的AI，來了！

華商韜略 2025-04-29 10:31:57
0 跟貼 0

一句話生成任務專屬LoRA！Transformer作者創業公司顛覆LLM微調

量子位 2025-06-13 17:23:47
0 跟貼 0

所有AI工具共享記憶！MCP協議無需云端，Cursor、Claude都能用

量子位 2025-05-14 14:00:47
56 跟貼 56
一句話讓DeepSeek控制你的電腦！微軟開源神器OmniParser V2

量子位 2025-02-18 20:48:36
0 跟貼 0

騰訊混元圖像2.0一手實測，毫秒級響應

量子位 2025-05-18 12:49:08
1 跟貼 1

科大訊飛：AI孫悟空用日語回答日本老爺爺的提問

智東西 2025-04-18 23:31:04
0 跟貼 0
谷歌I/O大會放狠招，終極AI助手已來

機器之心Pro 2025-05-21 13:09:12
0 跟貼 0

老板想本地跑AI，只給10萬還想體驗滿血DS，我該咋辦？

量子位 2025-04-14 15:31:01
0 跟貼 0
機器人“滿場跑”！京東MALL北京二店開業劉強東“等比例復刻”能否帶火線下“618”？

每日經濟新聞 2025-06-14 18:55:38
9 跟貼 9
AI云，火山引擎如何“激進”？

鈦媒體APP 2025-06-13 19:09:03
0 跟貼 0
AI智能體上線，營銷人下線？ | AI無悖論

虎嗅APP 2025-06-15 01:00:27
0 跟貼 0
全球首次，Transformer「混血」速度狂飆65倍！英偉達已下注

新智元 2025-06-14 13:25:54
1 跟貼 1
AI輔助編碼帶來思維方式轉變：從人寫代碼到人審代碼

量子位 2025-04-18 17:04:43
0 跟貼 0
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
o3/o4-mini實測太炸裂：看照片反推定位

量子位 2025-04-17 22:23:17
0 跟貼 0
謝賽寧開炮，現場打臉CVPR評審！Sora開山之作DiT被拒，怒斥AI學術圈畸形

新智元 2025-06-14 16:49:57
0 跟貼 0
大模型正在打破教育領域的“不可能三角〞

量子位 2025-04-17 19:02:09
0 跟貼 0
研發自動化的初衷是讓每一個研究員都有Agent助理

量子位 2025-04-23 08:05:00
0 跟貼 0
下個萬億美元市場！老黃：人形機器人要落地

量子位 2025-05-19 20:06:49
0 跟貼 0
逝去的親友被AI“復活”，能再與他們對話。專家慌了：太危險

英國那些事兒 2025-06-14 23:41:16
0 跟貼 0
人人都能做開發者！連小學生都能輕松上手的0代碼開發平臺來了

量子位 2025-04-15 11:59:12
0 跟貼 0
AI正大大降低動漫等虛擬內容制作門檻

量子位 2025-04-25 14:16:10
0 跟貼 0
網友實測Veo3視頻旋風：模擬車展、上課、ASMR

量子位 2025-05-25 09:14:22
0 跟貼 0
AI的母語是什么？人類進化花了200萬年，AI只需一個晚上

量子位 2025-05-23 19:24:56
0 跟貼 0
AI的母語是什么？不是英語，不是漢語

量子位 2025-05-23 17:58:54
0 跟貼 0
還拿芯片當籌碼？介文汲：華為打臉美國，芯片被卡脖子已經突破了

青杉依舊啊啊 2025-06-13 01:54:45
0 跟貼 0
小米要做中國家電前三，和美的相互學習

每日經濟新聞 2025-05-19 23:45:08
405 跟貼 405
谷歌云服務嚴重宕機致OpenAI、Spotify等多項服務中斷

財聯社 2025-06-13 09:09:13
14 跟貼 14
小扎豪擲143億美元賭新「王」！28歲華人億萬富翁入職Meta，與谷歌決裂

新智元 2025-06-14 13:25:43
1 跟貼 1
小鵬絕地翻盤，頭號功臣是她！

華商韜略 2025-03-28 14:19:16
0 跟貼 0
洛杉磯騷亂出現“零元購”，蘋果、阿迪達斯等店遭到洗劫

海峽網 2025-06-12 19:44:52
0 跟貼 0
比亞迪李云飛：要忙在正道上，拒絕陰陽

每日經濟新聞 2025-06-06 17:55:12
150 跟貼 150
臺名嘴談印度客機墜毀謝寒冰：波音的股價絕對不會好！

正經娛閱 2025-06-12 22:23:47
1 跟貼 1
差分注意力機制引領變革，DIFF Transformer攻克長序列建模難題

機器之心Pro 2025-04-29 11:03:19
25 跟貼 25
女子花6800買了個蘋果手機，看到手機的那一刻差點哭了出來

探山城 2025-06-12 08:57:09
0 跟貼 0
美國干脆挑明，拒絕停飛波音，關鍵時刻，莫迪收到中方一份大禮？

快樂彼岸 2025-06-15 01:00:12
0 跟貼 0
美國沒想到，德法俄也沒想到！中國石油如今竟成為“遙遙領先”

君笙拂兮啊 2025-06-13 16:43:03
0 跟貼 0
蔡崇信∶很幸運能為蘋果提供AI服務

財聯社 2025-02-13 16:19:09
1 跟貼 1
華為pura80拍攝，就這畫面，蘋果提鞋都不配

小朱笑笑 2025-06-13 11:52:14
1 跟貼 1

體檢報告出現這幾個字，距離癌癥只有“一步之遙”！

體檢報告出現這幾個字，距離癌癥只有“一步之遙”！

福州晚報

2025-06-12 22:11:32

抗議蔓延全美！特朗普宣布暫停搜捕3個行業移民

抗議蔓延全美！特朗普宣布暫停搜捕3個行業移民

看看新聞Knews

2025-06-14 17:01:31

NBA動態：詹姆斯與湖人續簽1+1頂薪合同，威少合同細節待定

NBA動態：詹姆斯與湖人續簽1+1頂薪合同，威少合同細節待定

李斄在北漂

2025-06-14 16:24:40

新一輪事業單位改革后，單位一把手能不能開除事業編職工？

新一輪事業單位改革后，單位一把手能不能開除事業編職工？

職場生存牛皮卷

2025-06-14 18:47:11

中國的開戰邏輯

叫我大強

2025-06-14 12:21:32

國內有真正的恐怖片嗎？網友：真的心疼那些獻血的！

國內有真正的恐怖片嗎？網友：真的心疼那些獻血的！

娛樂圈人物大賞

2025-06-13 00:10:08

袁立和第三任丈夫游巴黎，52歲顏值狀態回春，變漂亮很多！

袁立和第三任丈夫游巴黎，52歲顏值狀態回春，變漂亮很多！

西瓜愛娛娛

2025-06-13 10:17:05

太突然！上海多家餐廳遭殃：大規模襲擊太嚇人，有的直接掉進客人碗里...太影響生意→

太突然！上海多家餐廳遭殃：大規模襲擊太嚇人，有的直接掉進客人碗里...太影響生意→

上觀新聞

2025-06-13 14:30:28

鄭欽文首輪對陣大滿貫冠軍，8強再戰薩巴倫卡

鄭欽文首輪對陣大滿貫冠軍，8強再戰薩巴倫卡

許礆很機智

2025-06-14 21:50:27

中國人，打起百倍精神盯緊這個比非洲鬣狗還要殘忍百倍的國家

中國人，打起百倍精神盯緊這個比非洲鬣狗還要殘忍百倍的國家

阿器談史

2025-06-09 07:40:17

中美談判細節曝光，美財長問：能給我中國最好的高超音速導彈嗎？

中美談判細節曝光，美財長問：能給我中國最好的高超音速導彈嗎？

頭條爆料007

2025-06-13 08:22:23

官宣！售價不超168萬元，廣汽首款量產飛行汽車開啟預訂

官宣！售價不超168萬元，廣汽首款量產飛行汽車開啟預訂

證券時報e公司

2025-06-12 14:55:06

發現一個現象：底層男人的性資源分配，已經徹底失衡了

發現一個現象：底層男人的性資源分配，已經徹底失衡了

特約前排觀眾

2025-06-09 00:10:06

主持人金昀離世僅43歲！好友曝原因：患肺動脈高壓13年臨終很痛苦

主持人金昀離世僅43歲！好友曝原因：患肺動脈高壓13年臨終很痛苦

娛樂圈圈圓

2025-06-14 17:24:20

孟曉蘇：居民新增存款48.8萬億，房價縮水讓居民財富丟了120萬億

孟曉蘇：居民新增存款48.8萬億，房價縮水讓居民財富丟了120萬億

重慶地產視野

2025-06-13 17:21:15

英德印澳等多國發聲！

環球時報新聞

2025-06-13 16:58:26

武漢大學通報“職工子女駕車逼停騎行學生”

武漢大學通報“職工子女駕車逼停騎行學生”

環球網資訊

2025-06-14 12:33:00

直播間沉默寡言，這次雷佳音的態度，終究沒給那爾那茜留一絲體面

直播間沉默寡言，這次雷佳音的態度，終究沒給那爾那茜留一絲體面

簡讀視覺

2025-06-13 17:48:41

工信部等八部門公開征求意見向境外提供5類汽車數據應申報安全評估

工信部等八部門公開征求意見向境外提供5類汽車數據應申報安全評估

每日經濟新聞

2025-06-13 19:22:13

《自然》：癌細胞吃維E續命！科學家首次證實，癌細胞通過吸收脂蛋白獲取維生素E，化解鐵死亡丨科學大發現

《自然》：癌細胞吃維E續命！科學家首次證實，癌細胞通過吸收脂蛋白獲取維生素E，化解鐵死亡丨科學大發現

奇點網

2025-06-13 18:43:28

追蹤人工智能動態

10666文章數 176166關注度

往期回顧全部

科技要聞

一輛新車比特斯拉FSD都便宜，全行業陪葬？

頭條要聞

以防長威脅哈梅內伊：若繼續發射導彈德黑蘭將成火海

頭條要聞

以防長威脅哈梅內伊：若繼續發射導彈德黑蘭將成火海

體育要聞

約戰天王山，步行者G4輸在了哪？

娛樂要聞

小S迎47歲生日，首個生日沒大S陪伴

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

藝術

游戲

公開課

軍事航空

本地新聞

最近的打工人，都在熬夜看這劇逐幀學習職場小技巧

藝術要聞

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

死掉的“賽博初戀”，有誰能夠打贏復活賽？

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
指紋識別有可能認錯人嗎？
李彥宏：百度離破產30天

軍事要聞

伊媒：以色列國防部大樓被伊朗導彈擊中

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：亚洲人成网77777色在线播放| 久久久国产精品| 免费午夜福利不卡片在线播放| 两个人看的www视频免费完整版| 无码国产精品一区二区av| 国产婷婷精品av在线| 亚洲色婷六月丁香在线视频| 中文字幕丰满乱子伦无码专区| 精品偷自拍另类在线观看| 国产成人一区二区三区在线观看| 日本japanese少妇高清| 久久人人爽人人爽人人片dvd| 国产免费久久久久久无码| 国产成人精品一区二区三区| 国产精品久久久久9999赢消| 国产一区二区三区日韩精品| 真实国产精品vr专区| 亚洲亚洲人成网站网址| 日韩国产一区二区三区四区五区| 亚洲综合激情七月婷婷| 国产三级精品三级在专区| 国精产品一区一区三区mba下载| 自愉自愉产区二十四区| 丝袜高跟麻麻浓精受孕人妻| 国产午夜片无码区在线播放| 舌头伸进去搅动好爽视频| 中文成人无码精品久久久| 无套无码孕妇啪啪| 午夜精品久久久久久久99老熟妇| 成年女人免费碰碰视频| 欧美与黑人午夜性猛交久久久| 人人爽人人澡人人高潮| 精产一二三产区m553| 成人动漫在线观看| 国产成人人综合亚洲欧美丁香花| 极品少妇被黑人白浆直流| 西西4444www大胆无码| 亚洲国产精品无码久久久| 日韩精品亚洲人旧成在线| 99尹人香蕉国产免费天天| 99精品视频在线观看免费|

<th id="uqmgs"><abbr id="uqmgs"></abbr></th>

<samp id="uqmgs"></samp>

<form id="uqmgs"></form>

<big id="uqmgs"><td id="uqmgs"></td></big><tfoot id="uqmgs"><code id="uqmgs"></code></tfoot>

<ruby id="uqmgs"><legend id="uqmgs"></legend></ruby>