大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大模型玩不好數(shù)獨(dú)?排行榜:o3 Mini High變異數(shù)獨(dú)正確率僅2.9%

0
分享至

聞樂 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

大模型做數(shù)獨(dú),總體正確率只有15%???



繼出場自帶十篇完整學(xué)術(shù)論文的史上首個(gè)“AI科學(xué)家”之后,Transformer作者Llion Jones又帶著他的創(chuàng)業(yè)公司Sakana AI來搞事情了。

這次,Sakana AI公布了一個(gè)AI模型解決數(shù)獨(dú)問題能力的排行榜

問題集是該公司推出的全新基準(zhǔn)Sudoku-Bench,包含了從簡單的4x4到復(fù)雜的9x9現(xiàn)代數(shù)獨(dú)問題,旨在考驗(yàn)大模型創(chuàng)造性推理能力

榜單顯示,大模型不僅總體正確率只有15%,在9×9的現(xiàn)代數(shù)獨(dú)中,即使是高性能模型o3 Mini High,正確率也只有2.9%。



Sudoku-Bench項(xiàng)目在2025NVIDIA GTC開發(fā)者大會(huì)上進(jìn)行了展示。

NVIDIA首席執(zhí)行官黃仁勛對此評價(jià):

  • 像數(shù)獨(dú)這樣的謎題將有助于提高AI的推理能力。



Sudoku-Bench全新基準(zhǔn)測試

Sudoku-Bench是Sakana AI在今年3月發(fā)布的一項(xiàng)由不同難度級別的數(shù)獨(dú)謎題組成的基準(zhǔn)測試,用于衡量人工智能的多層次和創(chuàng)造性推理能力。

1、現(xiàn)有問題:大模型的 “記憶依賴癥”

目前大多數(shù)推理基準(zhǔn)測試存在一個(gè)缺陷:大模型往往通過記憶標(biāo)準(zhǔn)答案或固定模式來完成任務(wù),而不是真正運(yùn)用邏輯推理能力

當(dāng)遇到與訓(xùn)練數(shù)據(jù)中 “類似” 的問題時(shí),模型會(huì)直接套用記憶中的解決方案,而非通過邏輯推導(dǎo)得出答案。

對于全新規(guī)則或未見過的模式,模型往往無法有效應(yīng)對,因?yàn)槿狈芍苯悠ヅ涞挠洃浤0濉?/p>

傳統(tǒng)數(shù)獨(dú)游戲?qū)Υ竽P蛠碚f可能已經(jīng) “太簡單”,它們可能只是記住了套路,而不是學(xué)會(huì)如何創(chuàng)造性地解決新問題。

2、解決方案:Sudoku-Bench用 “變異數(shù)獨(dú)” 考倒大模型

近年來,各種各樣具有獨(dú)特規(guī)則的衍生謎題出現(xiàn)。

這些“變異數(shù)獨(dú)”謎題需要多步驟和創(chuàng)造性的推理技巧,但只有一個(gè)正確答案,特點(diǎn)是無法通過記憶解決,必須通過多步邏輯推理找到 “突破口”

這些特點(diǎn)使得“變異數(shù)獨(dú)”成為測試AI推理能力的理想選擇。

以下就是一個(gè)“變異數(shù)獨(dú)”示例,你不僅需要遵循原始規(guī)則,而且沿著彩色線條排列的數(shù)字還需要遵循額外的規(guī)則。



Sudoku-Bench基準(zhǔn)包括傳統(tǒng)和現(xiàn)代數(shù)獨(dú)(變異數(shù)獨(dú))問題,難度分級,從當(dāng)前模型可以解決的簡單問題到甚至最先進(jìn)的推理模型也無法處理的極其困難的問題。



Sudoku-Bench還包含了由Nikoli(日本著名的數(shù)獨(dú)公司,數(shù)獨(dú)正是其名稱的由來)提供的100道手工數(shù)獨(dú)題



3、大模型的 “慘敗”:基線實(shí)驗(yàn)結(jié)果

在今年3月該基準(zhǔn)發(fā)布后,研究人員測試了多個(gè)AI模型,包括Gemini 2.5 Pro、GPT-4.1、Claude 3.7等在內(nèi)的最先進(jìn)大模型。

為了給模型一個(gè)公平的機(jī)會(huì),團(tuán)隊(duì)為模型提供了部分完成的謎題,并評估它們完成謎題的能力。



結(jié)果顯示,一些模型在這種輔助下表現(xiàn)得相當(dāng)不錯(cuò),但關(guān)鍵結(jié)果在于最后兩列。

即使是最先進(jìn)的模型,平均連一個(gè)正確的數(shù)字都放不下,而OpenAI最新的推理模型ChatGPT o3是唯一能夠解決基準(zhǔn)測試中所有謎題的模型。

最新的排行榜顯示:

  • 無工具輔助時(shí),所有模型在100個(gè)謎題中的總體正確率低于15%
  • 小網(wǎng)格(4x4)表現(xiàn)稍好(40%-73% 正確率),但9x9網(wǎng)格幾乎全敗,正確率接近0%,即使是高性能模型“o3 Mini High”的正確率也只有2.9%。
  • 模型常犯錯(cuò)誤包括:錯(cuò)誤解答、放棄解題、誤判規(guī)則矛盾,尤其是面對需要 “突破口” 的謎題時(shí),只會(huì)盲目猜測,無法像人類一樣通過邏輯鏈縮小搜索范圍。



測試團(tuán)隊(duì)詳細(xì)列出了模型在每個(gè)謎題上的表現(xiàn),感興趣的朋友可戳文末鏈接查看~

關(guān)于Sakana AI

Sakana AI由前谷歌研究人員Llion Jones(Transformer作者之一)和David Ha于2023 年7月在東京成立,主要對生成文本和圖像的AI基本模型進(jìn)行研究。

此前,該公司開源發(fā)布了AI科學(xué)家AI審稿人,前者一出場就獨(dú)自完成了十篇完整的學(xué)術(shù)論文,包括但不限于擴(kuò)散模型方向、Transformer與強(qiáng)化學(xué)習(xí)等,引起了不小的轟動(dòng)。

后者能對AI寫的論文進(jìn)行評審,提供改進(jìn)意見,主打“以我之矛攻我之盾”。



該公司還發(fā)布了一種名為“連續(xù)思維機(jī)器 (CTM)”的新型AI模型,通過像人類一樣“逐步”思考并學(xué)習(xí)世界的內(nèi)部模型,超越了簡單的模式識別,并獲得了逐步解決迷宮等復(fù)雜問題的能力。

Sakana AI還與Cracking The Cryptic(YouTube 上最大的謎題評論頻道之一)合作,Cracking The Cryptic每天都會(huì)演示一些世界上最好的數(shù)獨(dú)謎題的邏輯解決方案。



Sakana AI獲得了這些視頻的文字記錄以及答題過程中采取的行動(dòng)數(shù)據(jù)。這些數(shù)據(jù)可以作為訓(xùn)練AI推理模型的理想數(shù)據(jù),并與Sudoku-Bench一起發(fā)布。



著名的數(shù)獨(dú)出題人Marty Sears還為Sakana AI定制了一款名為“奇偶魚”的數(shù)獨(dú)游戲:沿著Sakana AI紅色標(biāo)志線相鄰的任何數(shù)字都必須包含一個(gè)偶數(shù)和一個(gè)奇數(shù)。

感興趣的朋友可以嘗試一下(解答過程已附在文末)~



技術(shù)報(bào)告:https://arxiv.org/abs/2505.16135
排行榜:https://pub.sakana.ai/sudoku/
Github:https://github.com/SakanaAI/Sudoku-Bench
奇偶魚題目:https://sudokupad.app/wsj7iunsg6
解答過程:https://www.youtube.com/watch?v=JdHSSNKuIzU
[1]https://x.com/SakanaAILabs/status/1926905826465161629
[2]https://sakana.ai/sudoku-bench/

— 完 —

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中國專列,以最快速度駛進(jìn)伊朗,伊朗總統(tǒng)也以最快速度訪問中國!

中國專列,以最快速度駛進(jìn)伊朗,伊朗總統(tǒng)也以最快速度訪問中國!

大道無形我有型
2025-06-14 11:32:10
李連杰宣布跟41歲兒子父親節(jié)重聚,久別30年攬實(shí)眼濕濕

李連杰宣布跟41歲兒子父親節(jié)重聚,久別30年攬實(shí)眼濕濕

快樂的小青瓦
2025-06-14 15:03:39
羅帥宇家屬稱已拿到醫(yī)院補(bǔ)償,醫(yī)院提高補(bǔ)償要求簽署保密協(xié)議

羅帥宇家屬稱已拿到醫(yī)院補(bǔ)償,醫(yī)院提高補(bǔ)償要求簽署保密協(xié)議

現(xiàn)代快報(bào)
2025-06-13 19:14:04
最新戰(zhàn)況:以色列損失慘重,F(xiàn)-35被擊落,到處都是爆炸聲

最新戰(zhàn)況:以色列損失慘重,F(xiàn)-35被擊落,到處都是爆炸聲

時(shí)時(shí)有聊
2025-06-14 11:54:59
1-2!鄭欽文輸球內(nèi)情曝光,賽后眼眶含淚,對手采訪說到了關(guān)鍵

1-2!鄭欽文輸球內(nèi)情曝光,賽后眼眶含淚,對手采訪說到了關(guān)鍵

侃球熊弟
2025-06-15 00:02:53
伊朗15分鐘向以色列進(jìn)行3次導(dǎo)彈齊射,哈梅內(nèi)伊:絕不讓以政權(quán)全身而退!以軍否認(rèn)F-35戰(zhàn)機(jī)被擊落

伊朗15分鐘向以色列進(jìn)行3次導(dǎo)彈齊射,哈梅內(nèi)伊:絕不讓以政權(quán)全身而退!以軍否認(rèn)F-35戰(zhàn)機(jī)被擊落

每日經(jīng)濟(jì)新聞
2025-06-14 13:47:08
伊朗軍頭被一鍋端的真相

伊朗軍頭被一鍋端的真相

難得君
2025-06-14 12:00:08
小玥兒陪父母直播!汪小菲玩女兒玩具,笑到起飛!網(wǎng)友:融洽!

小玥兒陪父母直播!汪小菲玩女兒玩具,笑到起飛!網(wǎng)友:融洽!

大笑江湖史
2025-06-14 22:56:07
國家級健身教練唐博濤去世,僅37歲,滿身肌肉很健碩,死因疑曝光

國家級健身教練唐博濤去世,僅37歲,滿身肌肉很健碩,死因疑曝光

180視角
2025-06-14 12:20:45
表面是正人君子,實(shí)則是流氓頭子,家暴惡魔,這些男星太令人作嘔

表面是正人君子,實(shí)則是流氓頭子,家暴惡魔,這些男星太令人作嘔

吐不滿的痰娛
2025-06-14 19:36:16
不再擔(dān)任湖南省紀(jì)委書記后,王雙全已任浙江省領(lǐng)導(dǎo)

不再擔(dān)任湖南省紀(jì)委書記后,王雙全已任浙江省領(lǐng)導(dǎo)

政知新媒體
2025-06-14 17:22:36
浙江一婚席吃掉50萬元,結(jié)賬嫌太貴拒付款,餐具供應(yīng)商:我的錢也沒給

浙江一婚席吃掉50萬元,結(jié)賬嫌太貴拒付款,餐具供應(yīng)商:我的錢也沒給

極目新聞
2025-06-14 10:52:54
伊朗革命衛(wèi)隊(duì)聲稱擊落F-35并俘獲女飛行員,以色列諷刺虛假宣傳

伊朗革命衛(wèi)隊(duì)聲稱擊落F-35并俘獲女飛行員,以色列諷刺虛假宣傳

明月聊史
2025-06-14 15:56:59
央視首次曝光!每臺(tái)4億美元重180噸,全世界最先進(jìn)光刻機(jī)揭開面紗

央視首次曝光!每臺(tái)4億美元重180噸,全世界最先進(jìn)光刻機(jī)揭開面紗

史紀(jì)文譚
2025-06-14 13:23:51
可不限次數(shù)往返香港!非深戶也可以!

可不限次數(shù)往返香港!非深戶也可以!

深圳本地寶
2025-06-14 22:11:44
連續(xù)發(fā)射6波導(dǎo)彈,伊朗反擊極為強(qiáng)硬,靜觀是否會(huì)與對手死磕到底

連續(xù)發(fā)射6波導(dǎo)彈,伊朗反擊極為強(qiáng)硬,靜觀是否會(huì)與對手死磕到底

國平視野
2025-06-14 18:09:17
40歲健身網(wǎng)紅唐博濤離世,妻子透露原因,常年健身經(jīng)常爬320層樓

40歲健身網(wǎng)紅唐博濤離世,妻子透露原因,常年健身經(jīng)常爬320層樓

娛樂圈圈圓
2025-06-14 15:20:50
羅帥宇冤不冤我說不準(zhǔn),但沒人會(huì)偷割你孩子的器官……

羅帥宇冤不冤我說不準(zhǔn),但沒人會(huì)偷割你孩子的器官……

基本常識
2025-06-14 22:42:03
美國戰(zhàn)爭研究所稱,俄軍將在2026年占領(lǐng)一半烏克蘭,實(shí)現(xiàn)劃江而治

美國戰(zhàn)爭研究所稱,俄軍將在2026年占領(lǐng)一半烏克蘭,實(shí)現(xiàn)劃江而治

碳基生物關(guān)懷組織
2025-06-13 16:30:42
上海專家發(fā)現(xiàn):吃甜食的老人,健康指數(shù)是吃蔬菜的人的5倍不止?

上海專家發(fā)現(xiàn):吃甜食的老人,健康指數(shù)是吃蔬菜的人的5倍不止?

華庭講美食
2025-06-14 13:52:03
2025-06-15 02:19:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
10666文章數(shù) 176166關(guān)注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業(yè)陪葬?

頭條要聞

以防長威脅哈梅內(nèi)伊:若繼續(xù)發(fā)射導(dǎo)彈 德黑蘭將成火海

頭條要聞

以防長威脅哈梅內(nèi)伊:若繼續(xù)發(fā)射導(dǎo)彈 德黑蘭將成火海

體育要聞

約戰(zhàn)天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個(gè)生日沒大S陪伴

財(cái)經(jīng)要聞

樓市權(quán)威發(fā)聲

汽車要聞

長城為了拿環(huán)塔冠軍有多拼?魏建軍在下一盤大棋!

態(tài)度原創(chuàng)

數(shù)碼
健康
教育
手機(jī)
軍事航空

數(shù)碼要聞

黃仁勛親筆簽名版 RTX 5090 鍍金顯卡以 24200 美元達(dá)成慈善拍賣

呼吸科專家破解呼吸道九大謠言!

教育要聞

速看!北京中學(xué)招聘教師啦

手機(jī)要聞

蘋果新系統(tǒng)引領(lǐng)新潮流?OPPO:不跟進(jìn)

軍事要聞

伊媒:以色列國防部大樓被伊朗導(dǎo)彈擊中

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲日韩精品无码一区二区三区| 国产又粗又猛又爽又黄的视频在线观看动漫| 亚洲伊人成综合人影院青青青| av香港经典三级级 在线| 日韩午夜理论免费tv影院| 国内无遮挡18禁无码网站免费| 精品影片在线观看的网站| 丰满人妻熟妇乱又伦精品视频三| 日本中文字幕乱码免费| 国产精品一区二区无线| 国产成人av大片大片在线播放| 豆国产95在线 | 亚洲| 亚洲精品久久久久久动漫器材一区| 国产成人av一区二区三区在线| 国产乱理伦片在线观看| 精品久久综合1区2区3区激情| 女人高潮抽搐喷液30分钟视频| 亚洲国产专区校园欧美| 国产av一二三无码影片| 豆国产95在线 | 亚洲| 一本久道久久综合狠狠爱| 亚洲av无码专区亚洲av网站| 久久视频这里只精品99| 日本熟妇乱人伦a片免费高清| 永久免费无码网站在线观看| 欧美综合精品久久久久成人影院| 婷婷五月婷婷五月| 久久精品中文字幕| 天天综合天天做天天综合| 公与淑婷厨房猛烈进出视频免费| 欧美群妇大交群| 天堂在/线中文在线资源 官网| 破了亲妺妺的处免费视频国产| 九月婷婷人人澡人人添人人爽| 精品一区二区成人精品| 日韩不卡手机视频在线观看| 国产高清精品综合在线网址| 亚洲精品久久无码av片软件| 尹人香蕉99久久综合网站| 欧美孕妇变态孕交粗暴| 国产在观线免费观看久久|