大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

大模型玩不好數獨?排行榜:o3 Mini High變異數獨正確率僅2.9%

0
分享至

聞樂 發自 凹非寺
量子位 | 公眾號 QbitAI

大模型做數獨,總體正確率只有15%???



繼出場自帶十篇完整學術論文的史上首個“AI科學家”之后,Transformer作者Llion Jones又帶著他的創業公司Sakana AI來搞事情了。

這次,Sakana AI公布了一個AI模型解決數獨問題能力的排行榜

問題集是該公司推出的全新基準Sudoku-Bench,包含了從簡單的4x4到復雜的9x9現代數獨問題,旨在考驗大模型創造性推理能力

榜單顯示,大模型不僅總體正確率只有15%,在9×9的現代數獨中,即使是高性能模型o3 Mini High,正確率也只有2.9%。



Sudoku-Bench項目在2025NVIDIA GTC開發者大會上進行了展示。

NVIDIA首席執行官黃仁勛對此評價:

  • 像數獨這樣的謎題將有助于提高AI的推理能力。



Sudoku-Bench全新基準測試

Sudoku-Bench是Sakana AI在今年3月發布的一項由不同難度級別的數獨謎題組成的基準測試,用于衡量人工智能的多層次和創造性推理能力。

1、現有問題:大模型的 “記憶依賴癥”

目前大多數推理基準測試存在一個缺陷:大模型往往通過記憶標準答案或固定模式來完成任務,而不是真正運用邏輯推理能力

當遇到與訓練數據中 “類似” 的問題時,模型會直接套用記憶中的解決方案,而非通過邏輯推導得出答案。

對于全新規則或未見過的模式,模型往往無法有效應對,因為缺乏可直接匹配的記憶模板。

傳統數獨游戲對大模型來說可能已經 “太簡單”,它們可能只是記住了套路,而不是學會如何創造性地解決新問題。

2、解決方案:Sudoku-Bench用 “變異數獨” 考倒大模型

近年來,各種各樣具有獨特規則的衍生謎題出現。

這些“變異數獨”謎題需要多步驟和創造性的推理技巧,但只有一個正確答案,特點是無法通過記憶解決,必須通過多步邏輯推理找到 “突破口”

這些特點使得“變異數獨”成為測試AI推理能力的理想選擇。

以下就是一個“變異數獨”示例,你不僅需要遵循原始規則,而且沿著彩色線條排列的數字還需要遵循額外的規則。



Sudoku-Bench基準包括傳統和現代數獨(變異數獨)問題,難度分級,從當前模型可以解決的簡單問題到甚至最先進的推理模型也無法處理的極其困難的問題。



Sudoku-Bench還包含了由Nikoli(日本著名的數獨公司,數獨正是其名稱的由來)提供的100道手工數獨題



3、大模型的 “慘敗”:基線實驗結果

在今年3月該基準發布后,研究人員測試了多個AI模型,包括Gemini 2.5 Pro、GPT-4.1、Claude 3.7等在內的最先進大模型。

為了給模型一個公平的機會,團隊為模型提供了部分完成的謎題,并評估它們完成謎題的能力。



結果顯示,一些模型在這種輔助下表現得相當不錯,但關鍵結果在于最后兩列。

即使是最先進的模型,平均連一個正確的數字都放不下,而OpenAI最新的推理模型ChatGPT o3是唯一能夠解決基準測試中所有謎題的模型。

最新的排行榜顯示:

  • 無工具輔助時,所有模型在100個謎題中的總體正確率低于15%
  • 小網格(4x4)表現稍好(40%-73% 正確率),但9x9網格幾乎全敗,正確率接近0%,即使是高性能模型“o3 Mini High”的正確率也只有2.9%。
  • 模型常犯錯誤包括:錯誤解答、放棄解題、誤判規則矛盾,尤其是面對需要 “突破口” 的謎題時,只會盲目猜測,無法像人類一樣通過邏輯鏈縮小搜索范圍。



測試團隊詳細列出了模型在每個謎題上的表現,感興趣的朋友可戳文末鏈接查看~

關于Sakana AI

Sakana AI由前谷歌研究人員Llion Jones(Transformer作者之一)和David Ha于2023 年7月在東京成立,主要對生成文本和圖像的AI基本模型進行研究。

此前,該公司開源發布了AI科學家AI審稿人,前者一出場就獨自完成了十篇完整的學術論文,包括但不限于擴散模型方向、Transformer與強化學習等,引起了不小的轟動。

后者能對AI寫的論文進行評審,提供改進意見,主打“以我之矛攻我之盾”。



該公司還發布了一種名為“連續思維機器 (CTM)”的新型AI模型,通過像人類一樣“逐步”思考并學習世界的內部模型,超越了簡單的模式識別,并獲得了逐步解決迷宮等復雜問題的能力。

Sakana AI還與Cracking The Cryptic(YouTube 上最大的謎題評論頻道之一)合作,Cracking The Cryptic每天都會演示一些世界上最好的數獨謎題的邏輯解決方案。



Sakana AI獲得了這些視頻的文字記錄以及答題過程中采取的行動數據。這些數據可以作為訓練AI推理模型的理想數據,并與Sudoku-Bench一起發布。



著名的數獨出題人Marty Sears還為Sakana AI定制了一款名為“奇偶魚”的數獨游戲:沿著Sakana AI紅色標志線相鄰的任何數字都必須包含一個偶數和一個奇數。

感興趣的朋友可以嘗試一下(解答過程已附在文末)~



技術報告:https://arxiv.org/abs/2505.16135
排行榜:https://pub.sakana.ai/sudoku/
Github:https://github.com/SakanaAI/Sudoku-Bench
奇偶魚題目:https://sudokupad.app/wsj7iunsg6
解答過程:https://www.youtube.com/watch?v=JdHSSNKuIzU
[1]https://x.com/SakanaAILabs/status/1926905826465161629
[2]https://sakana.ai/sudoku-bench/

— 完 —

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
南京小伙自駕兩萬多公里往返英國留學,異國他鄉看到很多國產新能源車

南京小伙自駕兩萬多公里往返英國留學,異國他鄉看到很多國產新能源車

揚子晚報
2025-06-14 09:45:53
好消息:中國防空導彈再次擊落戰機!壞消息:被擊落的是中國戰機

好消息:中國防空導彈再次擊落戰機!壞消息:被擊落的是中國戰機

荷蘭豆愛健康
2025-06-12 18:47:39
以色列搬出了巴列維王子

以色列搬出了巴列維王子

桑未落
2025-06-14 11:28:32
不是韓旭!不是王思雨!波黑主帥盛贊兩名中國小將,將是未來核心

不是韓旭!不是王思雨!波黑主帥盛贊兩名中國小將,將是未來核心

老吳說體育
2025-06-14 00:25:14
特朗普突然打出一張“王牌”,下令拒絕對華出口?比關稅更危險!

特朗普突然打出一張“王牌”,下令拒絕對華出口?比關稅更危險!

阿筀田間生活
2025-06-14 03:44:10
父子“共用”一張臉!韋東奕父子早年合照曝光,韋爸牙齒同樣缺失

父子“共用”一張臉!韋東奕父子早年合照曝光,韋爸牙齒同樣缺失

面包夾知識
2025-06-11 17:45:03
突發!火箭打包10號簽和兩新星換2019年榜眼,斯通運作獲評A+

突發!火箭打包10號簽和兩新星換2019年榜眼,斯通運作獲評A+

埃文凱爾
2025-06-14 09:07:36
出大事了,全美多地陷入大亂,美戰機已出動,特朗普亮出“底牌”

出大事了,全美多地陷入大亂,美戰機已出動,特朗普亮出“底牌”

小笛科技
2025-06-13 22:59:58
印度墜機機長原計劃辭職照顧病重父親,副駕系寶萊塢男星親友

印度墜機機長原計劃辭職照顧病重父親,副駕系寶萊塢男星親友

瀟湘晨報
2025-06-13 17:53:09
張桂梅教育方式被質疑,網友:教育方式太苦,把孩子當學習機器!

張桂梅教育方式被質疑,網友:教育方式太苦,把孩子當學習機器!

青眼財經
2025-06-14 12:20:49
外圍崩了!昨晚歐美股市全線大跌,中概股重挫,原油大漲近8%!

外圍崩了!昨晚歐美股市全線大跌,中概股重挫,原油大漲近8%!

小舟談歷史
2025-06-14 09:40:38
汪小菲請館長吃飯,火出圈!沒提統一,卻能句句直戳兩岸網友心窩

汪小菲請館長吃飯,火出圈!沒提統一,卻能句句直戳兩岸網友心窩

溫讀史
2025-06-14 09:49:13
50年代江青與毛主席的一張罕見合影,年過30仍氣質猶存,容顏姣好

50年代江青與毛主席的一張罕見合影,年過30仍氣質猶存,容顏姣好

南書房
2025-06-12 14:30:08
記者談伊萬往事:上任發布會介紹教練團隊時,他悄悄看小手卡

記者談伊萬往事:上任發布會介紹教練團隊時,他悄悄看小手卡

直播吧
2025-06-14 11:49:27
島內三路人馬前往大陸,賴清德急召集人開會,侯友宜露出真面目

島內三路人馬前往大陸,賴清德急召集人開會,侯友宜露出真面目

大歪歪
2025-06-13 21:22:32
痛心!溫州一男一女,不幸身亡

痛心!溫州一男一女,不幸身亡

溫百君
2025-06-13 21:01:43
伊發動第4波導彈襲擊: 哈梅內伊誓言摧毀以色列,F-35殘骸照曝光

伊發動第4波導彈襲擊: 哈梅內伊誓言摧毀以色列,F-35殘骸照曝光

科技生活快訊
2025-06-14 11:50:08
馬克龍反對武統,卻在特朗普接到訪華邀請后,宣布:議員竄臺6日

馬克龍反對武統,卻在特朗普接到訪華邀請后,宣布:議員竄臺6日

阿鄖田間生活
2025-06-13 12:41:00
韓劇害人不淺,媳婦嫌棄奧迪A6L破爛,丈夫:我們連車都換不起

韓劇害人不淺,媳婦嫌棄奧迪A6L破爛,丈夫:我們連車都換不起

李子櫥
2025-04-04 17:15:06
加州政府開始行動,特朗普意識到事情鬧大了,緊急喊話不想內戰

加州政府開始行動,特朗普意識到事情鬧大了,緊急喊話不想內戰

獵火照狼山
2025-06-13 20:00:05
2025-06-14 15:15:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10659文章數 176166關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

摩薩德在伊朗境內建立無人機基地 部署精確制導武器

頭條要聞

摩薩德在伊朗境內建立無人機基地 部署精確制導武器

體育要聞

32隊爭10億獎金,全新世俱杯來了!

娛樂要聞

鳳凰傳奇曾毅手表引爭議 含性暗示元素

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

本地
健康
房產
時尚
公開課

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

呼吸科專家破解呼吸道九大謠言!

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

在時尚中國之夜,共赴榮耀東方時刻

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 人妻精品久久无码专区精东影业| 一色屋精品视频在线观看免费| 久久国产人妻一区二区| 国产又黄又爽无遮挡不要vip| 欧美最爽乱婬视频免费看| 加勒比色老久久爱综合网| 久久久亚洲精品一区二区三区浴池| 国模无码视频一区二区三区| 精品无码一区二区三区| 成人av片在线观看免费| 亚洲精品无码久久久久av麻豆| 色视频综合无码一区二区三区| 国产精品久久久一区二区| 浴室人妻的情欲hd三级国产| 亚洲大尺度无码无码专区| a欧美亚洲日韩在线观看| 人成午夜免费大片| 成人免费一区二区三区| 国产人妻xxxx精品hd| 欧美另类人妖| 成人久久久久久久久久久| 国产美女精品视频线免费播放| 小sao货水好多真紧h无码视频| 一区二区三区无码不卡无在线| av天堂久久天堂av| 久久久精品免费| 亚洲国产天堂一区二区三区| 亚洲中文字幕在线观看| 国产亚洲曝欧美不卡精品| 伊人久久大香线蕉综合影院| 精品人妻无码视频中文字幕一区二区三区| 欧美日韩精品乱国产| 日韩av无码免费大片bd| 亚洲国内精品自在线影院| 无码中文精品视视在线观看| 青春草在线视频观看| 国产精品久久久久久久久久久不卡| 国产真实交换配乱婬95视频| 国产午夜精品av一区二区麻豆| 亚洲中文字幕无码mv| 国内老熟妇对白hdxxxx|