大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

大模型亂試錯(cuò)、盲調(diào)用?KnowSelf讓智能體有「知識(shí)邊界感知」能力

0
分享至




在 AI 領(lǐng)域,大模型智能體的發(fā)展日新月異。我們今天要介紹的這篇 ACL 2025 論文——《Agentic Knowledgeable Self-awareness》,聚焦于如何提升智能體的「知識(shí)邊界感知」能力,使其在復(fù)雜任務(wù)規(guī)劃中更加得心應(yīng)手,為智能體的可靠應(yīng)用提供了新思路。



  • 論文標(biāo)題:Agentic Knowledgeable Self-awareness
  • 論文鏈接:https://arxiv.org/abs/2504.03553
  • 代碼鏈接:https://github.com/zjunlp/KnowSelf

30 秒速讀版本

KnowSelf 聚焦于大模型智能體在決策過(guò)程中所面臨的「知識(shí)邊界感知」問(wèn)題。受人類決策機(jī)制啟發(fā),本文指出智能體應(yīng)具備三類行為模式的自主決策能力:快速反應(yīng)(快思考)、深度推理(慢思考),以及主動(dòng)調(diào)用外部工具(本文以外部知識(shí)增強(qiáng)為例)。

KnowSelf 通過(guò)學(xué)習(xí)自身的知識(shí)邊界,使智能體能在不同情境下自主判斷是否具備足夠知識(shí)進(jìn)行生成和推理,以減少無(wú)效試錯(cuò)與知識(shí)濫用。實(shí)驗(yàn)表明,KnowSelf 可提升智能體的知識(shí)調(diào)用準(zhǔn)確率、任務(wù)規(guī)劃效率和跨任務(wù)泛化能力。

研究背景:智能體規(guī)劃的困境

大模型智能體在諸多領(lǐng)域展現(xiàn)出巨大潛力,但現(xiàn)有智能體規(guī)劃方法存在弊端。傳統(tǒng)方法多采用「盲目灌輸」模式,將標(biāo)準(zhǔn)軌跡、外部反饋和領(lǐng)域知識(shí)無(wú)差別地注入智能體模型,完全忽視了人類決策過(guò)程中至關(guān)重要的「自我認(rèn)知」原則。

這種「無(wú)腦式」灌輸導(dǎo)致智能體在面對(duì)意外信號(hào)時(shí)極易崩潰,陷入模式崩塌困境,且過(guò)度試錯(cuò)與盲目知識(shí)融合在實(shí)際場(chǎng)景中往往不可行,還會(huì)大幅推高模型推理成本。

人類在決策時(shí),會(huì)根據(jù)面臨的情境動(dòng)態(tài)評(píng)估自身狀態(tài),靈活調(diào)整策略。比如,當(dāng)我們遇到簡(jiǎn)單問(wèn)題時(shí),能迅速做出判斷并行動(dòng);遇到棘手問(wèn)題,會(huì)放慢思考節(jié)奏,深入分析;而面對(duì)超出自身能力范圍的問(wèn)題,會(huì)主動(dòng)尋求外部知識(shí)或幫助。

然而,當(dāng)前大模型智能體普遍缺乏這種「知識(shí)邊界感知」能力,導(dǎo)致規(guī)劃行為低效且脆弱。

核心方法:KnowSelf 框架

為破解這一難題,論文提出了智能體「知識(shí)邊界感知」的思路,并基于此設(shè)計(jì)了數(shù)據(jù)驅(qū)動(dòng) KnowSelf 方法,讓大模型智能體能夠自主調(diào)節(jié)知識(shí)的運(yùn)用。



  • 知識(shí)系統(tǒng)構(gòu)建

對(duì)于外部工具(知識(shí)),并采用了一種簡(jiǎn)單高效知識(shí)收集方法,以極低成本完成知識(shí)庫(kù)的離線構(gòu)建。該知識(shí)系統(tǒng)由知識(shí)庫(kù)和知識(shí)選擇模塊組成,其中知識(shí)庫(kù)包含一系列知識(shí)條目,知識(shí)選擇模塊能依據(jù)智能體歷史軌跡從知識(shí)庫(kù)中精準(zhǔn)挑選所需知識(shí)。這種設(shè)計(jì)兼顧了知識(shí)系統(tǒng)的實(shí)用性和高效性。

  • 情境判斷標(biāo)準(zhǔn)

論文基于智能體的能力,將情境劃分為三類:快速思考(Fast Thinking)、慢速思考(Slow Thinking)和知識(shí)型思考(Knowledgeable Thinking)。并提出了啟發(fā)式情境判斷標(biāo)準(zhǔn),用于標(biāo)記智能體自我探索軌跡中的特殊標(biāo)記,從而針對(duì)智能體的能力構(gòu)建出訓(xùn)練數(shù)據(jù),為后續(xù)訓(xùn)練奠定基礎(chǔ)。

  • 快思考:智能體無(wú)需多慮,能直接給出正確行動(dòng)
  • 慢思考:智能體雖能給出正確行動(dòng),但需經(jīng)過(guò)多步思考與反思
  • 知識(shí)型思考:智能體自身無(wú)法提供正確行動(dòng),必須借助外部知識(shí)輔助思考
  • 自我認(rèn)知訓(xùn)練

KnowSelf 采用雙階段訓(xùn)練過(guò)程,先通過(guò)監(jiān)督式微調(diào)(SFT),讓智能體模型初步掌握自我認(rèn)知規(guī)劃模式;再引入 RPO 損失函數(shù),進(jìn)一步強(qiáng)化自我認(rèn)知能力。在這一體系下,智能體會(huì)生成特定特殊標(biāo)記,表明其對(duì)情境的判斷,在推理過(guò)程中實(shí)現(xiàn)知識(shí)查詢與反思的精準(zhǔn)調(diào)控。

實(shí)驗(yàn)成果

本文在兩個(gè)模擬大模型智能體規(guī)劃數(shù)據(jù)集 ALFWorld 和 WebShop 上,對(duì) KnowSelf 進(jìn)行了全面評(píng)估,涵蓋 Llama-8B 和 Gemma-2B 兩個(gè)不同規(guī)模的模型。實(shí)驗(yàn)結(jié)果顯示,KnowSelf 憑借極少的反思和知識(shí)使用,性能優(yōu)于多種基線方法。





與無(wú)知識(shí)基線方法對(duì)比,KnowSelf 在 Llama-8B 和 Gemma-2B 模型上均展現(xiàn)出卓越性能。與知識(shí)增強(qiáng)型基線方法相比,KnowSelf 僅用少量知識(shí),就超越了所有的 100% 知識(shí)增強(qiáng)基線方法,充分證明了并非知識(shí)越多越好,精準(zhǔn)的知識(shí)引入機(jī)制才是關(guān)鍵。

進(jìn)一步分析:深入探索智能體自我認(rèn)知

  • 智能體規(guī)劃模式過(guò)擬合



本文通過(guò)消融實(shí)驗(yàn),發(fā)現(xiàn)僅在標(biāo)準(zhǔn)軌跡上訓(xùn)練的模型更易陷入模式擬合,而引入反思和知識(shí)邊界感知后,智能體規(guī)劃能力提升。這表明,在許多情況下,智能體并非不能做出正確決策,而是受限于規(guī)劃模式。此外,過(guò)度引入知識(shí)可能會(huì)對(duì)性能產(chǎn)生負(fù)面影響,因此凸顯了精準(zhǔn)知識(shí)引入機(jī)制的重要性。

  • 智能體規(guī)劃泛化能力



在泛化能力測(cè)試中,KnowSelf 在 ALFWorld 的三項(xiàng)挑戰(zhàn)性任務(wù)上表現(xiàn)優(yōu)異,優(yōu)于基于提示的基線方法 Reflexion。這表明 KnowSelf 能有效打破傳統(tǒng)規(guī)劃軌跡訓(xùn)練的局限,使模型具備跨任務(wù)情境感知能力,在未見過(guò)的任務(wù)上能靈活運(yùn)用反思和知識(shí)引入策略。

  • 模型與數(shù)據(jù)規(guī)模影響



隨著模型規(guī)模擴(kuò)大和自我認(rèn)知訓(xùn)練數(shù)據(jù)量增加,KnowSelf 性能穩(wěn)步提升。當(dāng)自我認(rèn)知訓(xùn)練數(shù)據(jù)相對(duì)比例低于 40% 時(shí),模型性能可能出現(xiàn)波動(dòng)甚至下降,推測(cè)模型需達(dá)到一定自我認(rèn)知水平才能穩(wěn)定發(fā)揮效能。

  • 智能體自我認(rèn)知機(jī)制機(jī)理



本文在 Transformer 模型的各層計(jì)算不同情境標(biāo)記的平均概率,發(fā)現(xiàn) Reflection 標(biāo)記概率始終為零,Knowledge 標(biāo)記和 Action 標(biāo)記在模型最后幾層才出現(xiàn)。這表明智能體在內(nèi)部決策時(shí),僅在最后幾層隱藏層才決定是否調(diào)用外部知識(shí),且調(diào)用知識(shí)的決策可能更晚出現(xiàn),暗示智能體在 Token 空間內(nèi)通過(guò)隱式獎(jiǎng)勵(lì)引導(dǎo)進(jìn)行探索,最終做出決策。

結(jié)論與展望

本文提出的 KnowSelf 方法為智能體規(guī)劃提供了新思路,初步探索了智能體知識(shí)邊界感知這一問(wèn)題。在后 R1 時(shí)代,隨著 Search-R1、ReSearch、Deep Researcher 等工作的出現(xiàn),基于 RL 的智能體自主知識(shí)獲取工作展現(xiàn)了巨大的前景,KnowSelf 還只是在這個(gè)時(shí)代之前的初步產(chǎn)物,相信隨著技術(shù)的發(fā)展,基于 RL 的智能體自我認(rèn)知能迸發(fā)更大的活力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
特權(quán)高墻下的冷漠:解析伊朗民眾對(duì)高層遇刺的沉默邏輯

特權(quán)高墻下的冷漠:解析伊朗民眾對(duì)高層遇刺的沉默邏輯

步論天下事
2025-06-14 20:17:14
突發(fā)!蒼井空確認(rèn)復(fù)出,你最希望看到她的什么?

突發(fā)!蒼井空確認(rèn)復(fù)出,你最希望看到她的什么?

閑侃閑侃
2025-06-15 07:16:55
素材來(lái)了!!霍華德和史蒂芬森上演抱摔沖突 奧尼爾轉(zhuǎn)發(fā)

素材來(lái)了!!霍華德和史蒂芬森上演抱摔沖突 奧尼爾轉(zhuǎn)發(fā)

直播吧
2025-06-15 08:48:15
已確認(rèn)!是知名演員朱一龍!

已確認(rèn)!是知名演員朱一龍!

掌中邯鄲
2025-06-15 07:04:44
美國(guó)舉行閱兵式當(dāng)天,全美數(shù)十萬(wàn)人涌上街頭抗議特朗普政府,“有示威者向警方投擲石塊”

美國(guó)舉行閱兵式當(dāng)天,全美數(shù)十萬(wàn)人涌上街頭抗議特朗普政府,“有示威者向警方投擲石塊”

環(huán)球網(wǎng)資訊
2025-06-15 11:28:25
伊朗不打倒神棍政權(quán),國(guó)家將永無(wú)希望

伊朗不打倒神棍政權(quán),國(guó)家將永無(wú)希望

廖保平
2025-06-14 09:19:25
今年11月起,中國(guó)公民持有效澳大利亞簽證可免簽入境新西蘭

今年11月起,中國(guó)公民持有效澳大利亞簽證可免簽入境新西蘭

界面新聞
2025-06-15 09:39:47
一家三口先后離世!提醒:冰箱久放7種食物,是癌癥“幫兇”

一家三口先后離世!提醒:冰箱久放7種食物,是癌癥“幫兇”

小蜜情感說(shuō)
2025-06-14 11:00:34
一男子高聲怒罵館長(zhǎng)是“臺(tái)獨(dú)”狗

一男子高聲怒罵館長(zhǎng)是“臺(tái)獨(dú)”狗

代偉看世界
2025-06-15 01:13:56
新聞圖直出的美貌…

新聞圖直出的美貌…

阿廢冷眼觀察所
2025-06-14 01:19:01
剛剛!2025版美國(guó)“糖尿病逆轉(zhuǎn)”指南發(fā)布,減重≥15公斤,逆轉(zhuǎn)率高達(dá)86%!

剛剛!2025版美國(guó)“糖尿病逆轉(zhuǎn)”指南發(fā)布,減重≥15公斤,逆轉(zhuǎn)率高達(dá)86%!

醫(yī)脈通
2025-06-14 18:35:29
6萬(wàn)人見證!世俱杯首秀0-0:梅西中柱,38歲門將封神奪MVP

6萬(wàn)人見證!世俱杯首秀0-0:梅西中柱,38歲門將封神奪MVP

葉青足球世界
2025-06-15 10:07:11
美媒報(bào)道美閱兵式現(xiàn)場(chǎng):因天氣原因被迫提前,現(xiàn)場(chǎng)人群稀疏,美國(guó)務(wù)卿還被拍到打哈欠

美媒報(bào)道美閱兵式現(xiàn)場(chǎng):因天氣原因被迫提前,現(xiàn)場(chǎng)人群稀疏,美國(guó)務(wù)卿還被拍到打哈欠

環(huán)球網(wǎng)資訊
2025-06-15 11:11:14
美國(guó)人閱兵了,沒有鋼鐵洪流,一群大兵懶懶散散,不踢正步

美國(guó)人閱兵了,沒有鋼鐵洪流,一群大兵懶懶散散,不踢正步

說(shuō)說(shuō)史事
2025-06-15 10:10:44
央行重磅數(shù)據(jù)公布!貸款猛增、存款狂漲……

央行重磅數(shù)據(jù)公布!貸款猛增、存款狂漲……

魏家東
2025-06-15 07:40:00
東北大學(xué)不再采用林徽因設(shè)計(jì)的校徽,新校徽被調(diào)侃像“農(nóng)夫山泉”

東北大學(xué)不再采用林徽因設(shè)計(jì)的校徽,新校徽被調(diào)侃像“農(nóng)夫山泉”

火山詩(shī)話
2025-06-15 06:54:48
伊朗媒體稱伊又擊落一架以色列F-35戰(zhàn)機(jī)!以防長(zhǎng)警告伊朗:如果繼續(xù)襲擊,德黑蘭將化為火海

伊朗媒體稱伊又擊落一架以色列F-35戰(zhàn)機(jī)!以防長(zhǎng)警告伊朗:如果繼續(xù)襲擊,德黑蘭將化為火海

每日經(jīng)濟(jì)新聞
2025-06-15 00:21:17
美國(guó)明尼蘇達(dá)州兩名州議員遭槍擊,特朗普發(fā)聲:絕不容忍

美國(guó)明尼蘇達(dá)州兩名州議員遭槍擊,特朗普發(fā)聲:絕不容忍

環(huán)球網(wǎng)資訊
2025-06-15 08:48:47
南航“美女經(jīng)理”:除了生理期就沒閑過(guò),兩年半和上級(jí)開房410次

南航“美女經(jīng)理”:除了生理期就沒閑過(guò),兩年半和上級(jí)開房410次

就一點(diǎn)
2025-06-13 16:45:25
國(guó)防科大馬駿教授,違背了常識(shí)和理性,一派胡言惹眾怒

國(guó)防科大馬駿教授,違背了常識(shí)和理性,一派胡言惹眾怒

平老師666
2025-06-14 22:45:40
2025-06-15 12:44:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10640文章數(shù) 142338關(guān)注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴(yán)重缺貨

頭條要聞

義烏商家賣娃衣:做的非LABUBU娃衣 只適用于15cm玩偶

頭條要聞

義烏商家賣娃衣:做的非LABUBU娃衣 只適用于15cm玩偶

體育要聞

裁判可以噴,但也從步行者自身找找問(wèn)題?

娛樂(lè)要聞

鳳凰傳奇曾毅塌房?網(wǎng)友:別連累玲花

財(cái)經(jīng)要聞

以伊沖突持續(xù)升級(jí),對(duì)全球市場(chǎng)影響多大

汽車要聞

長(zhǎng)城為了拿環(huán)塔冠軍有多拼?魏建軍在下一盤大棋!

態(tài)度原創(chuàng)

時(shí)尚
教育
房產(chǎn)
本地
軍事航空

夏天最值得入手的6件單品,全在這了

教育要聞

黑龍江頂尖高分考生想報(bào)哈工大,哪些專業(yè)值得推薦?省排名多少?

房產(chǎn)要聞

又一城購(gòu)房補(bǔ)貼!買房就發(fā)錢,正在海南樓市瘋狂擴(kuò)散!

本地新聞

最近的打工人,都在熬夜看這劇逐幀學(xué)習(xí)職場(chǎng)小技巧

軍事要聞

伊朗最高領(lǐng)袖高級(jí)顧問(wèn)沙姆哈尼 因傷勢(shì)過(guò)重離世

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲欧美中文字幕日韩一区二区| 天堂а√中文最新版地址在线| 最新系列国产专区|亚洲国产| 亚洲制服丝袜中文字幕在线| 国产精品特黄aaaa片在线观看| 国产第一页屁屁影院| 色琪琪av中文字幕一区二区| 国产香蕉视频在线播放| 久久久久亚洲av无码专区桃色| 免费a级毛片无码a∨蜜芽试看| 青草精品国产福利在线视频| 99久久久无码国产aaa精品| 色yeye香蕉凹凸视频在线观看| 精品不卡一区二区| 国产乱码一区二区三区爽爽爽| 天堂av成年av影视| 福利一区二区三区视频在线观看| 国产美女露脸口爆吞精| 日韩精品无码中文字幕一区二区| 久在线观看福利视频| 国产v精品成人免费视频| 亚洲国产精品无码中文字2022| 亚洲欧美一区二区三区| 免费人成在线观看播放a| 国产精品自在自线视频| 久久99精品久久久影院老司机| 99精品国产一区二区三区| 日韩精品一区二区三区在线观看| 成年免费视频黄网站在线观看| 热久久99这里有精品综合久久| 国产无遮挡裸体免费视频在线观看| 老男人久久青草av高清| 免费看国产成年无码av片| 无码a级毛片免费视频内谢5j| 亚洲一区在线日韩在线深爱| 久久综合av免费观看| 国产精品无码专区在线播放| 欧美成人精品高清视频在线观看| 亚洲制服丝袜自拍中文字幕| 成人免费看吃奶视频网站| 毛片在线播放a|