大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI竟會(huì)「自己認(rèn)錯(cuò)」?破解多智能體協(xié)作「羅生門」,斬獲ICML 2025 Spotlight

0
分享至


新智元報(bào)道

編輯:定慧 好困

【新智元導(dǎo)讀】在多智能體AI系統(tǒng)中,一旦任務(wù)失敗,開發(fā)者常陷入「誰錯(cuò)了、錯(cuò)在哪」的謎團(tuán)。PSU、杜克大學(xué)與谷歌DeepMind等機(jī)構(gòu)首次提出「自動(dòng)化失敗歸因」,發(fā)布Who&When數(shù)據(jù)集,探索三種歸因方法,揭示該問題的復(fù)雜性與挑戰(zhàn)性。

你打造了一支「超級AI戰(zhàn)隊(duì)」——戰(zhàn)隊(duì)里每個(gè)AI都各司其職:有的收集信息、有的負(fù)責(zé)判斷,還有的協(xié)調(diào)執(zhí)行,一起協(xié)作攻克復(fù)雜任務(wù)。

這個(gè)愿望看似天衣無縫,結(jié)果卻往往以失敗告終。問題就出在:當(dāng)「問題」出現(xiàn)的時(shí)候,如何知道是哪個(gè)AI干的

就像代碼Debug一樣,從堆積如山的模型對話記錄、調(diào)用日志和中間結(jié)果找到哪個(gè)AI掉鏈子幾乎不可能,而且AI本身還是個(gè)「黑箱」。

這就是今天多智能體AI系統(tǒng)面臨的真實(shí)困境:不僅頻繁失敗,而且溯源問題困難。

為了解決這個(gè)「AI版羅生門」,賓夕法尼亞州立大學(xué)杜克大學(xué)聯(lián)合Google DeepMind等機(jī)構(gòu)的研究者們首次提出了自動(dòng)化失敗歸因(Automated Failure Attribution)——讓AI自己舉手:我錯(cuò)了!

目前,這篇論文不僅成功斬獲了頂會(huì)ICML 2025 Spotlight,而且配套的首個(gè)專用基準(zhǔn)數(shù)據(jù)集Who&When和相關(guān)代碼也已全部開源。


論文地址:https://arxiv.org/pdf/2505.00212

代碼地址:https://github.com/mingyin1/Agents_Failure_Attribution

都說模型即產(chǎn)品,就像現(xiàn)在的OpenAI o3、Gemini 2.5 Pro還有新發(fā)的DeepSeek-R1-0528越來越強(qiáng)大,那為何還需要多智能體的AI系統(tǒng)?

這是因?yàn)槟壳半A段依然單個(gè)AI能力有限,而LLM驅(qū)動(dòng)的多智能體系統(tǒng)在很多領(lǐng)域展現(xiàn)出巨大潛力。

然而,這些系統(tǒng)也存在著脆弱性:單個(gè)Agent的失誤,Agent之間的誤解,以及信息傳遞錯(cuò)誤,都可能導(dǎo)致整體任務(wù)失敗。


目前,一旦多智能體的AI系統(tǒng)「翻車」,開發(fā)者往往只能:

  • 手動(dòng)考古:逐條翻閱冗長的交互日志,試圖找出問題所在。

  • 依賴經(jīng)驗(yàn):這種調(diào)試過程高度依賴開發(fā)者對系統(tǒng)和任務(wù)的深入理解。

這種「大海撈針」式的排錯(cuò)方式,不僅效率低下,更嚴(yán)重阻礙了系統(tǒng)的快速迭代和可信賴度的提升。

目前迫切需要一種自動(dòng)化、系統(tǒng)化的方法來定位失敗原因,將「評估結(jié)果」與「系統(tǒng)改進(jìn)」有效連接起來。


核心貢獻(xiàn)

針對上述挑戰(zhàn),這篇論文做出了開創(chuàng)性的貢獻(xiàn):

1. 提出并定義新問題

首次將「自動(dòng)化失敗歸因」形式化為一個(gè)具體的研究任務(wù),明確了要找出導(dǎo)致失敗的責(zé)任Agent(failure-responsible agent)決定性錯(cuò)誤步驟(decisive error step)

2. 構(gòu)建首個(gè)數(shù)據(jù)集——Who&When

該數(shù)據(jù)集包含了從127個(gè)LLMMulti-Agent系統(tǒng)中收集的廣泛失敗日志。這些系統(tǒng)既有算法自動(dòng)生成的,也有人類專家精心打造的,確保了場景的真實(shí)性和多樣性。

每條失敗日志都配有細(xì)粒度的人工標(biāo)注

  • (Who)哪個(gè)Agent是「罪魁禍?zhǔn)住埂?/p>

  • 何時(shí)(When)決定性錯(cuò)誤發(fā)生在交互的哪一步。

  • 為何(Why)對失敗原因的自然語言解釋。


標(biāo)注關(guān)鍵錯(cuò)誤代理以及確定出錯(cuò)的具體步驟,對普通人和領(lǐng)域?qū)<襾碚f都是一項(xiàng)挑戰(zhàn)。

注釋者需要解析復(fù)雜的日志,理清每個(gè)代理的解決問題邏輯,并判斷每個(gè)動(dòng)作是正確的,還是會(huì)誤導(dǎo)整個(gè)問題解決過程。

例如,如果某個(gè)代理使用網(wǎng)頁瀏覽器獲取解決問題所需的重要信息,注釋者就必須檢查瀏覽器歷史記錄,并訪問每一個(gè)網(wǎng)站,以判斷失敗是由于網(wǎng)站上本身沒有相關(guān)信息,還是代理未能成功獲取。

如上圖(a)所示,三位注釋者分別花費(fèi)了30.9小時(shí)、30.2小時(shí)和23.2小時(shí)來完成注釋。這表明注釋過程非常耗時(shí),因此開始考慮開展自動(dòng)化故障歸因的研究。

此外,在很多數(shù)據(jù)實(shí)例中,出錯(cuò)的并不只是某一個(gè)代理,而是多個(gè)代理。人們需要識別出這些錯(cuò)誤,并挑選出其中最嚴(yán)重的錯(cuò)誤,因?yàn)檫@些錯(cuò)誤會(huì)直接導(dǎo)致問題解決失敗。由于錯(cuò)誤的嚴(yán)重程度有時(shí)較為細(xì)微,甚至帶有一定的主觀性,這一過程就變得更加困難。

如上圖(b)所示,展示了三位注釋者「不確定」標(biāo)注的比例,范圍從15%到30%不等。

圖(c)則可視化了不同注釋者在互相投票判斷彼此「不確定」數(shù)據(jù)時(shí)的分歧率。

可以看到,即使在投票環(huán)節(jié)仍存在一定程度的分歧,進(jìn)一步突顯了注釋工作本身的復(fù)雜性與挑戰(zhàn)性。

3. 探索初步的自動(dòng)化歸因方法

基于Who&When數(shù)據(jù)集,論文設(shè)計(jì)并評估了三種不同的自動(dòng)化失敗歸因方法:全局審視法(All-at-Once)逐步偵查法(Step-by-Step)二分定位法(Binary Search)

實(shí)驗(yàn)結(jié)果表明:這三種方法在準(zhǔn)確性、成本和分析粒度上各有千秋,沒有一種能在所有指標(biāo)上完勝。它們共同構(gòu)成了自動(dòng)化失敗歸因任務(wù)的初步「解法庫」。

· All-at-Once:一次性完成

向LLM提供用戶查詢和完整的故障日志,要求其一次性識別出故障責(zé)任Agent以及發(fā)生決定性錯(cuò)誤的具體步驟。

優(yōu)點(diǎn):一步到位,成本較低,可能擅長宏觀判斷責(zé)任。

缺點(diǎn):可能面臨「大海撈針」問題,難以從長上下文中精確定位具體錯(cuò)誤步驟。

· Step-by-Step:逐步

模擬人工調(diào)試,讓LLM從頭開始,一步步檢查交互日志,在每個(gè)環(huán)節(jié)判斷當(dāng)前是否出現(xiàn)錯(cuò)誤,直到揪出「真兇」。

優(yōu)點(diǎn):如同剝洋蔥般細(xì)致,在定位具體錯(cuò)誤環(huán)節(jié)上更具優(yōu)勢。

缺點(diǎn):需要多次詢問模型,調(diào)用成本較高,且局部判斷的累積誤差可能導(dǎo)致「誤判」。

· Binary Search:二分查找

這是一種折中策略,總成本和效果介于前兩者之間。

方法是將日志對半切分,利用LLM判斷錯(cuò)誤發(fā)生在前半段還是后半段,然后不斷在確定的半段中遞歸「二分」,最終鎖定問題步驟和相關(guān)Agent。

實(shí)驗(yàn)結(jié)果與主要發(fā)現(xiàn)

實(shí)驗(yàn)在兩種設(shè)定下進(jìn)行:LLM知道Multi-Agent系統(tǒng)需要解決的問題的真實(shí)答案(WithGround Truth不知道真實(shí)答案(Without Ground Truth)

主要使用GPT-4o,但也測試了其他模型(如Llama系列、Qwen系列、GPT系列、OpenAI o1、DeepSeek R1)

通過在Who&When數(shù)據(jù)集上對上述方法進(jìn)行了系統(tǒng)評估,得到了許多重要的發(fā)現(xiàn)

· 任重道遠(yuǎn),表現(xiàn)堪憂

目前的方法離完美還差得很遠(yuǎn)。即便是表現(xiàn)最好的單一方法,在識別「背鍋Agent」上的準(zhǔn)確率也僅有約53.5%,而在準(zhǔn)確定位「錯(cuò)誤步驟」上,準(zhǔn)確率更是低至14.2%!

這意味著,最牛的策略也只能勉強(qiáng)過半猜對誰是「內(nèi)鬼」,至于錯(cuò)在哪一步,基本靠「蒙」。

有些方法的表現(xiàn)甚至不如隨機(jī)猜測,足見任務(wù)之艱巨。

· 各有所長,難有全能冠軍

不同方法在不同子任務(wù)上表現(xiàn)各異,沒有萬能冠軍。

例如,All-at-Once方法對「Who」的判斷相對最好,能夠更準(zhǔn)確地找出哪個(gè)Agent應(yīng)該負(fù)責(zé);而Step-by-Step方法在鎖定具體錯(cuò)誤步驟(「When」)上效果更勝一籌,細(xì)粒度檢查帶來了優(yōu)勢;Binary Search方法則各方面居中,表現(xiàn)中規(guī)中矩。

由此體現(xiàn)出每種方案的權(quán)衡取舍:要么整體掃描擅長找「人」,要么逐步追查利于找「步驟」。


· 「組合拳效果更優(yōu),但代價(jià)高昂

研究者嘗試了組合不同方法的策略(例如,先使用「全局法」初步判斷責(zé)任Agent,再運(yùn)用「逐步法」精確定位錯(cuò)誤步驟)。

結(jié)果表明,這種混合方法確實(shí)能夠提升整體的歸因性能,但同時(shí)也帶來了顯著的計(jì)算成本增加。



· 現(xiàn)有SOTA模型集體啞火

最令人驚訝的是,即便是當(dāng)前最先進(jìn)的推理模型(如OpenAI o1和DeepSeek R1),在處理這一任務(wù)時(shí)也顯得力不從心。

這進(jìn)一步凸顯了「自動(dòng)化失敗歸因」任務(wù)本身的固有難度,其對AI推理能力的要求超越了當(dāng)前SOTA模型在常規(guī)任務(wù)上的表現(xiàn)。


明確的推理提示至關(guān)重要:在All-at-Once和Step-by-Step的提示中明確要求LLM給出歸因的理由,能起到提升性能的作用。


上下文長度對性能構(gòu)成制約:實(shí)驗(yàn)還發(fā)現(xiàn),隨著失敗日志上下文長度的增加,所有歸因方法的性能均呈現(xiàn)下降趨勢,尤其是在錯(cuò)誤步驟定位的準(zhǔn)確性方面更為敏感。


邁向更智能、更可靠的Multi-Agent系統(tǒng)

「自動(dòng)化失敗歸因」是Multi-Agent系統(tǒng)開發(fā)流程中不可或缺的一環(huán)。

它將幫助我們更深入地洞察Multi-Agent的失敗模式,將「哪里出錯(cuò)、誰之過」從令人頭疼的謎題,轉(zhuǎn)變?yōu)榭闪炕治龅膯栴}。

通過架起「評估」與「改進(jìn)」之間的橋梁,未來終將能夠打造出更可靠、更智能、更值得信賴的Multi-Agent協(xié)作系統(tǒng)。

作者介紹

Shaokun Zhang


賓夕法尼亞州立大學(xué)的三年級博士生,導(dǎo)師為Qingyun Wu教授。

近期的研究興趣集中在Agentic AI與強(qiáng)化學(xué)習(xí)的交叉領(lǐng)域。

目前,在NVIDIA實(shí)習(xí),專注于LLM智能體的研究。在此之前,于西安電子科技大學(xué)獲得計(jì)算機(jī)科學(xué)學(xué)士學(xué)位。

Ming Yin


杜克大學(xué)的一年級博士生,導(dǎo)師是陳怡然教授。

于2024年20歲時(shí)在中國科學(xué)技術(shù)大學(xué)少年班學(xué)院獲得了學(xué)士學(xué)位。

目前對LLM智能體、LLM推理和可信人工智能感興趣。

從2025年5月到8月在位于西雅圖的Zoom擔(dān)任生成式人工智能研究實(shí)習(xí)生。

參考資料:

https://arxiv.org/pdf/2505.00212

https://skzhang1.github.io/

https://mingyin1.github.io/



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊朗正認(rèn)真評估封鎖“全球石油命脈”霍爾木茲海峽,波及亞洲國家

伊朗正認(rèn)真評估封鎖“全球石油命脈”霍爾木茲海峽,波及亞洲國家

綠樹林子
2025-06-14 21:33:13
鄭欽文:我不是故意要摔倒兩次的,只是我還不懂怎么在草地上奔跑

鄭欽文:我不是故意要摔倒兩次的,只是我還不懂怎么在草地上奔跑

懂球帝
2025-06-14 07:19:09
趙麗穎20小時(shí)冷對章子怡!內(nèi)娛體面規(guī)矩被當(dāng)場掀翻

趙麗穎20小時(shí)冷對章子怡!內(nèi)娛體面規(guī)矩被當(dāng)場掀翻

心誠則靈了
2025-06-14 21:26:48
世界發(fā)生了3件大事,全世界意識到:必須重新評估中國的實(shí)力

世界發(fā)生了3件大事,全世界意識到:必須重新評估中國的實(shí)力

獵火照狼山
2025-06-09 19:47:06
年僅45歲!北京大學(xué)副教授因突發(fā)心臟病離世

年僅45歲!北京大學(xué)副教授因突發(fā)心臟病離世

雙一流高校
2025-06-15 00:10:56
開羅國民vs邁阿密國際:世俱杯揭幕戰(zhàn) 梅西遭遇豆腐渣防線難贏

開羅國民vs邁阿密國際:世俱杯揭幕戰(zhàn) 梅西遭遇豆腐渣防線難贏

智道足球
2025-06-14 21:10:13
中國男足新帥上任,東亞杯備戰(zhàn)開啟

中國男足新帥上任,東亞杯備戰(zhàn)開啟

7號觀察室
2025-06-14 02:07:44
《碟中諜》1-8電影主要女主角梳理

《碟中諜》1-8電影主要女主角梳理

東方不敗然多多
2025-06-03 09:13:46
這次破案了,以色列斬首六大核科學(xué)家:伊朗終于知道是誰出賣情報(bào)

這次破案了,以色列斬首六大核科學(xué)家:伊朗終于知道是誰出賣情報(bào)

帥先工場
2025-06-14 20:40:00
山村大爺救下受傷的金雕,痊愈后將其放走,10天后金雕叼走他孫子

山村大爺救下受傷的金雕,痊愈后將其放走,10天后金雕叼走他孫子

白云故事
2025-06-14 17:35:06
人品越差的人,越喜歡用這3種微信頭像,勸你別深交

人品越差的人,越喜歡用這3種微信頭像,勸你別深交

有故事的人
2025-06-12 06:48:13
我61歲,經(jīng)歷了3段晚年感情后才發(fā)現(xiàn),老年搭伙最需要的不是金錢

我61歲,經(jīng)歷了3段晚年感情后才發(fā)現(xiàn),老年搭伙最需要的不是金錢

詭譎怪談
2025-05-19 17:57:34
馬拉松中簽了,酒店卻住不起了…

馬拉松中簽了,酒店卻住不起了…

馬拉松跑步健身
2025-06-14 16:53:32
排隊(duì)內(nèi)第三?天空:維爾茨基礎(chǔ)周薪19.5萬鎊,未打破紅軍薪資結(jié)構(gòu)

排隊(duì)內(nèi)第三?天空:維爾茨基礎(chǔ)周薪19.5萬鎊,未打破紅軍薪資結(jié)構(gòu)

直播吧
2025-06-14 20:23:12
外媒:伊朗和以色列軍隊(duì)孰強(qiáng)孰弱?

外媒:伊朗和以色列軍隊(duì)孰強(qiáng)孰弱?

參考消息
2025-06-14 21:59:11
怒其不爭?港樂天后衛(wèi)蘭《歌手》為什么被光速淘汰?專業(yè)科普!

怒其不爭?港樂天后衛(wèi)蘭《歌手》為什么被光速淘汰?專業(yè)科普!

手工制作阿殲
2025-06-14 13:49:23
諶容僅病逝一年,嫁給英達(dá)28年的梁歡,讓馮小剛預(yù)言成扎心現(xiàn)實(shí)

諶容僅病逝一年,嫁給英達(dá)28年的梁歡,讓馮小剛預(yù)言成扎心現(xiàn)實(shí)

小聰明說科普
2025-06-06 00:43:40
人民日報(bào)評選:中國史上水平最高的十首詩詞!背過八首才算及格!

人民日報(bào)評選:中國史上水平最高的十首詩詞!背過八首才算及格!

智慧生活筆記
2025-05-21 01:00:14
比杜蘭特還慘!湖人養(yǎng)了個(gè)白眼狼,公開抱怨,那你離隊(duì)將成定局

比杜蘭特還慘!湖人養(yǎng)了個(gè)白眼狼,公開抱怨,那你離隊(duì)將成定局

八零后小伙兒
2025-06-14 08:03:11
雙色球25067期;首02尾24,獨(dú)藍(lán)09,012路比1:3:2

雙色球25067期;首02尾24,獨(dú)藍(lán)09,012路比1:3:2

王曉愛體彩
2025-06-15 03:05:24
2025-06-15 04:23:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時(shí)代
12876文章數(shù) 66068關(guān)注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業(yè)陪葬?

頭條要聞

以防長威脅哈梅內(nèi)伊:若繼續(xù)發(fā)射導(dǎo)彈 德黑蘭將成火海

頭條要聞

以防長威脅哈梅內(nèi)伊:若繼續(xù)發(fā)射導(dǎo)彈 德黑蘭將成火海

體育要聞

約戰(zhàn)天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個(gè)生日沒大S陪伴

財(cái)經(jīng)要聞

樓市權(quán)威發(fā)聲

汽車要聞

長城為了拿環(huán)塔冠軍有多拼?魏建軍在下一盤大棋!

態(tài)度原創(chuàng)

時(shí)尚
本地
手機(jī)
親子
家居

中年女人少穿黑色和灰色,年輕色穿出減齡效果,看起來嫩十歲

本地新聞

最近的打工人,都在熬夜看這劇逐幀學(xué)習(xí)職場小技巧

手機(jī)要聞

三星Galaxy Z Fold7渲染圖曝光:很輕薄、相機(jī)明顯凸起

親子要聞

給18個(gè)月幼兒灌酒,無論出于什么心態(tài)都不該寬恕|新京報(bào)快評

家居要聞

森林幾何 極簡灰調(diào)原木風(fēng)

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国产午夜福利在线机视频| 国产av一区二区精品久久凹凸| 人人爽人人爽人人片av| 国产精品欧美一区二区三区不卡| 亚洲处破女av日韩精品| 风韵多水的老熟妇| 伊人色综合网一区二区三区| 久久丫精品忘忧草西安产品| 粗大猛烈进出高潮视频大全| 亚洲精品综合在线影院| 国产无遮挡无码视频免费软件| 人人妻人人澡人人爽人人精品| 精品国产肉丝袜在线拍国语| 国产99视频精品免费视看6| 久久婷婷五月综合色和啪| 亚洲av无码久久精品狠狠爱浪潮| 粗壮挺进人妻水蜜桃成熟| 亚洲午夜免费福利视频| 免费无码的av片在线观看| 少妇精品无码一区二区三区| 亚洲欧美日韩精品成人| 亚洲国产天堂一区二区三区| 午夜精品射精入后重之免费观看| 成人免费看www网址入口| 国产拍揄自揄精品视频| 国精产品一区一区三区免费视频| 欧美无砖专区一中文字| 激情国产一区二区三区四区| 动漫精品啪啪一区二区三区| 久久99成人免费| 精品一区二区三区自拍图片区| 亚洲国产日韩欧美高清片| 久久不见久久见免费影院视频观看| 欧美国产精品久久久乱码| 日韩成人免费视频| 97人妻人人做人碰人人爽| 扒开?让我???蜜桃视频| 国产在热线精品视频99公交| 精品日韩欧美一区二区在线播放| 在线亚洲精品国产成人av剧情| 久久女人天堂精品av影院麻|