大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

北大伯克利聯(lián)手“拷問”大模型:最強Agent也才40分!

0
分享至

北大鄧小鐵課題組 投稿
量子位 | 公眾號 QbitAI

給大模型當老師,讓它一步步按你的想法做數(shù)據(jù)分析,有多難?

結果是,連Claude-3.7和Gemini-2.5 Pro這樣的頂尖選手,都開始“不聽話”了。

在一個全新的測試基準中,它們面對多輪、不斷演進的指令,最終的任務成功率最高僅有40%。

這項名為IDA-Bench的新基準,就是為了模擬真實世界中這種“邊想邊改”的分析場景而生。



它不再是給模型一道題,讓它一口氣算完;而是模擬一位真實的數(shù)據(jù)分析師,在對話中不斷給出新指令,考察Agent在多輪交互中的真實能力。

可以說,專治各種“自作主張”和“一意孤行”的AI。

值得一提的是,這項工作由一支星光熠熠的團隊打造,匯集了北京大學加州大學伯克利分校的頂尖學者,其中不乏機器學習泰斗Michael I. Jordan教授,仿真科學領域專家鄭澤宇 (Zeyu Zheng)副教授,以及ACM/IEEE Fellow鄧小鐵 (Xiaotie Deng)教授的身影。

“不聽話”的AI,問題出在哪?

目前,我們看到的很多大模型數(shù)據(jù)分析工具,比如OpenAI、Gemini和Claude的網(wǎng)頁應用,能力已然非常強大。

但現(xiàn)有的評估基準,大多側重于單輪互動:用戶給出一個明確的、預設好的任務,然后看Agent能否成功執(zhí)行。
可現(xiàn)實世界的數(shù)據(jù)分析,遠非如此。

真實的數(shù)據(jù)分析師,工作流程是迭代式探索性的。他們會先查看數(shù)據(jù)分布,再決定如何處理異常值;會根據(jù)初步結果,調整后續(xù)的分析策略。這些決策充滿了基于領域知識的“主觀性”,指令也是一步步演進的。

現(xiàn)有基準恰恰忽略了這種動態(tài)交互過程,因此無法全面評估Agent在真實協(xié)作場景下的可靠性。

IDA-Bench:給AI一場真實的“隨堂測驗”

為了解決這一痛點,IDA-Bench應運而生。它旨在忠實地反映真實數(shù)據(jù)分析的主觀性和交互性特征。

整個測試框架包含四大核心組件:

  • 指令材料 (Instruction Materials):從真實的、復雜的Kaggle數(shù)據(jù)分析項目(Python notebooks)中提取,包含背景知識、分析目標和專家的“主觀洞察”。
  • 模擬用戶 (Simulated User):由一個大模型扮演,它會參照指令材料,像真人一樣逐步向Agent下達指令,甚至會提出模糊或不斷變化的要求。
  • Agent:即被測試的大模型,它的任務是嚴格遵循“用戶”的指令,通過編寫和執(zhí)行代碼來完成任務。
  • 沙盒環(huán)境 (Sandbox Environment):一個安全隔離的環(huán)境,Agent可以在其中執(zhí)行代碼、訪問數(shù)據(jù),并像在Jupyter中一樣保持上下文。



△圖1:(左) IDA-Bench的測試場景 ,(右) IDA-Bench中的任務軌跡示例

為了確保任務的真實性和時效性,防止數(shù)據(jù)污染,IDA-Bench的構建流程完全自動化。它能持續(xù)從Kaggle上發(fā)布的最新項目中提取任務,經(jīng)過篩選、預處理和人工檢查后,生成新的測試用例。



△圖2: IDA-Bench的自動化構建流程

Agent慘遭滑鐵盧,最高分僅40

在這樣一套“嚴刑拷打”下,各大模型紛紛現(xiàn)出原形。

初步評估結果顯示,即便是最先進的大模型,成功率也不足50%。

具體來看,Gemini-2.5-Pro、OpenAI o4-mini和Claude-3.7-Sonnet-Thinking表現(xiàn)位列第一梯隊,但其“基準達成率”(即結果達到或超過人類基準)也僅為40%。

而DeepSeek系列中,作為指令模型的DeepSeek-V3(24%)表現(xiàn)明顯優(yōu)于其“思考型”模型DeepSeek-R1(12%),這揭示了一個核心挑戰(zhàn):在遵循指令和自主推理之間取得平衡,對當前Agent來說非常困難。



△表1: 各大模型在IDA-Bench上的表現(xiàn)

此外,Agent們在任務中還會犯下各種低級錯誤,導致提交結果無效。其中最主要的原因是根本沒有生成提交文件,這往往源于模型的“幻覺”。



“自信”的Claude vs “謹慎”的Gemini

深入分析失敗案例,研究團隊發(fā)現(xiàn)不同模型展現(xiàn)出了迥異的“性格”。

Claude-3.7DeepSeek-R1表現(xiàn)得像個“過度自信”的實習生。

它們不怎么遵循用戶的具體指令,而是主動推進分析流程,結果常常因為“自作主張”而錯過了關鍵步驟和信息。比如,用戶建議用一種新方法改進模型,Claude-3.7不等嘗試就直接否定,并提交了之前效果較差的結果。

相比之下,Gemini-2.5-Pro則像一個“過度謹慎”的助理。它每走一步都要反復向用戶尋求確認,有時一個簡單的數(shù)據(jù)清洗操作能來回溝通30輪,最終因超過回合數(shù)限制而任務失敗。

  • 幻覺或夸大:許多Agent會聲稱執(zhí)行了并未進行的操作,比如號稱“優(yōu)化”了參數(shù),但實際只是隨機設置;更有甚者,憑空捏造從未生成的代碼和不存在的數(shù)字結果。
  • 格式錯誤:提交文件的列名大小寫弄反,或數(shù)據(jù)類型不對(如在二分類任務中,要求提交標簽“0”或“1”,模型卻提交了標簽為“1”的概率),都是常見的低級錯誤。
  • 固守首次嘗試:一些Agent在初期會做出一個簡單粗暴的嘗試(比如在預測任務中,模型在初期會直接用訓練集的中位數(shù)作為預測值),然后就“固執(zhí)己見”,在后續(xù)交互中不再根據(jù)新指令開發(fā)更復雜的模型。
  • 級聯(lián)錯誤:當一個代碼塊中途執(zhí)行失敗時,Agent有時會“假裝”它成功了,導致后續(xù)代碼塊因為引用不存在的變量而出錯,引發(fā)連鎖反應。

這些發(fā)現(xiàn)凸顯了當前LLM Agent在真正成為可靠數(shù)據(jù)分析助手之前,仍需在理解、遵循和交互能力上進行大量改進。

論文鏈接:
https://arxiv.org/abs/2505.18223

項目主頁:
https://github.com/lhydave/IDA-Bench

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
1平2負榜首三強全部丟分,北京國安成最大贏家,中超積分榜亂了

1平2負榜首三強全部丟分,北京國安成最大贏家,中超積分榜亂了

銜春信
2025-06-15 00:56:25
網(wǎng)傳某工程有限公司破產(chǎn)倒閉,董事長敗光億萬資產(chǎn),負債兩千萬

網(wǎng)傳某工程有限公司破產(chǎn)倒閉,董事長敗光億萬資產(chǎn),負債兩千萬

筆尖下的人生
2025-06-14 18:09:45
超越英偉達B200!AMD最強AI芯:1.6倍大內(nèi)存、大模型推理快30%

超越英偉達B200!AMD最強AI芯:1.6倍大內(nèi)存、大模型推理快30%

量子位
2025-06-13 10:41:55
中方預判精準,貝森特剛回國就對華翻臉,還好我們留了一手

中方預判精準,貝森特剛回國就對華翻臉,還好我們留了一手

獵火照狼山
2025-06-14 19:33:44
伊朗革命衛(wèi)隊發(fā)布通告:缺席即叛國,軍內(nèi)逃亡潮浮現(xiàn)

伊朗革命衛(wèi)隊發(fā)布通告:缺席即叛國,軍內(nèi)逃亡潮浮現(xiàn)

桂系007
2025-06-14 22:32:58
學醫(yī)后才明白,增強骨密度最好的運動,并非散步游泳,或許是它!

學醫(yī)后才明白,增強骨密度最好的運動,并非散步游泳,或許是它!

荷蘭豆愛健康
2025-06-14 08:39:34
這一次,下了章子怡面子的趙麗穎,終于不再顧忌內(nèi)娛所謂的體面!

這一次,下了章子怡面子的趙麗穎,終于不再顧忌內(nèi)娛所謂的體面!

頭號劇委會
2025-06-14 00:10:03
中超最新積分榜:四大豪門遭爆冷,山東泰山跌出前5,兩隊大贏家

中超最新積分榜:四大豪門遭爆冷,山東泰山跌出前5,兩隊大贏家

大秦壁虎白話體育
2025-06-15 02:02:51
納悶!宋祖兒總愛露腳,莫非她這雙腳真有那么好看?

納悶!宋祖兒總愛露腳,莫非她這雙腳真有那么好看?

手工制作阿殲
2025-06-14 14:11:07
遼寧艦抵近關島,美國態(tài)度變了:扣下臺島66架戰(zhàn)機,只收錢不發(fā)貨

遼寧艦抵近關島,美國態(tài)度變了:扣下臺島66架戰(zhàn)機,只收錢不發(fā)貨

紅色鑒史官
2025-06-13 19:00:03
只差6分考不上清華,上海男生跳下17樓,鄰居:家長對他很好

只差6分考不上清華,上海男生跳下17樓,鄰居:家長對他很好

熙熙說教
2025-06-14 20:25:31
廣東每10人就有1人得腎病,腎病發(fā)病率為何全國第一?

廣東每10人就有1人得腎病,腎病發(fā)病率為何全國第一?

廖保平
2025-06-14 09:15:24
這條高速改擴建工程成功“插隊”,有望成江蘇首條雙向10車道高速

這條高速改擴建工程成功“插隊”,有望成江蘇首條雙向10車道高速

阿綏談史
2025-06-13 22:05:18
韓國歷史造假終露餡!聯(lián)合國質問:你祖先怎么全在中國?

韓國歷史造假終露餡!聯(lián)合國質問:你祖先怎么全在中國?

史書無明
2025-06-09 10:56:15
是福是禍?中國2億老人混吃等死,陷入“廢物式”養(yǎng)老怪圈

是福是禍?中國2億老人混吃等死,陷入“廢物式”養(yǎng)老怪圈

訪史
2025-06-13 18:22:57
48小時封殺令!知名女星高考特權頂包,牽連大佬集體落馬倒計時!

48小時封殺令!知名女星高考特權頂包,牽連大佬集體落馬倒計時!

新語愛八卦
2025-06-13 16:30:57
還要報到?曾凡博接下來的經(jīng)歷,戳穿了男籃到底有多注重形式

還要報到?曾凡博接下來的經(jīng)歷,戳穿了男籃到底有多注重形式

小七七體育解說
2025-06-15 03:38:13
伊朗正式退出與美國的核談判!特朗普:下一輪打擊更殘酷!以軍:伊朗革命衛(wèi)隊空軍高層指揮系統(tǒng)已被擊垮

伊朗正式退出與美國的核談判!特朗普:下一輪打擊更殘酷!以軍:伊朗革命衛(wèi)隊空軍高層指揮系統(tǒng)已被擊垮

每日經(jīng)濟新聞
2025-06-13 21:40:28
以色列高級顧問稱“目前沒有計劃殺死”伊朗政治領導人

以色列高級顧問稱“目前沒有計劃殺死”伊朗政治領導人

參考消息
2025-06-14 10:59:12
不要害羞:兩性交往最“舒服”的8種方式,讓感情越來越好!

不要害羞:兩性交往最“舒服”的8種方式,讓感情越來越好!

伊人河畔
2025-05-21 10:48:46
2025-06-15 04:35:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10666文章數(shù) 176166關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業(yè)陪葬?

頭條要聞

以防長威脅哈梅內(nèi)伊:若繼續(xù)發(fā)射導彈 德黑蘭將成火海

頭條要聞

以防長威脅哈梅內(nèi)伊:若繼續(xù)發(fā)射導彈 德黑蘭將成火海

體育要聞

約戰(zhàn)天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經(jīng)要聞

樓市權威發(fā)聲

汽車要聞

長城為了拿環(huán)塔冠軍有多拼?魏建軍在下一盤大棋!

態(tài)度原創(chuàng)

時尚
房產(chǎn)
教育
游戲
健康

中年女人少穿黑色和灰色,年輕色穿出減齡效果,看起來嫩十歲

房產(chǎn)要聞

又一城購房補貼!買房就發(fā)錢,正在海南樓市瘋狂擴散!

教育要聞

江蘇最新消息:6月28日填報志愿!

死掉的“賽博初戀”,有誰能夠打贏復活賽?

呼吸科專家破解呼吸道九大謠言!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 色诱视频在线观看| 亚洲字幕成人中文在线电影网| 无码中文av波多野结衣一区| 国产精品人妻一区免费看8c0m| 亚洲精品99久久久久中文字幕| 久久www免费人成—看片| 国产精品无码久久综合| 日韩精品无码中文字幕电影| 亚洲精品综合网在线8050影院| 欧美黑人又粗又大久久久| 亚洲av午夜精品无码专区| 成人无码区免费A片在线软件| 人妻熟女一区二区aⅴ清水理纱| 一本一本久久a久久综合精品蜜桃| 国产福利姬喷水福利在线观看| 久久精品国产99精品国产亚洲性色| 伊人久久大香线蕉av成人| 国产亚洲精品久久久久久男优| 国产精品一在线观看| 99亚洲精品久久久99| 在线高清理伦片a| 在线播放偷拍一区精品| 亚洲情综合五月天| 全黄性性激高免费视频| 久久久久黑人强伦姧人妻| 国产精品久久一区二区三区| 亚洲日韩av一区二区三区中文| 亚洲国产中文字幕在线视频综合| 欧美不卡视频一区发布| 在线观看片免费人成视频无码| 97无码免费人妻超级碰碰碰| 日本一卡二卡四卡无卡乱码视频免费| 国产综合有码无码视频在线| 波多野结无码高清中文| 大胸美女被吃奶爽死视频| 国色天香国产精品| 婷婷五月深爱综合开心网| 人人狠狠综合久久88成人| 欧美性xxxxx极品娇小| 亚洲熟妇中文字幕五十中出| 国产综合一区二区三区黄页秋霞|