大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

通義實驗室最新成果WebDancer:自主智能Deep Research的新時代

0
分享至



作者介紹: 本文作者來自通義實驗室 RAG 團隊,致力于面向下一代 RAG 技術進行基礎研究。該團隊 WebWalker 工作近期也被 ACL 2025 main conference 錄用。



  • 論文:https://arxiv.org/pdf/2505.22648
  • 代碼:https://github.com/Alibaba-NLP/WebAgent

一、背景:信息檢索的新需求與挑戰

在當今信息爆炸的時代,解決復雜問題不再僅僅是簡單的知識檢索,而是需要深入的信息挖掘和多步推理。從醫學研究到科技創新,從商業決策到學術探索,每一個領域都呼喚著能夠自主思考、自主決策的智能體。Deep Research 等系統已經為我們展示了自主多步研究的巨大潛力,但構建這樣的智能體并非易事。它們需要在復雜的網絡環境中感知、決策、行動,還要面對任務復雜度高、泛化能力弱等諸多挑戰。

但打造這樣一個 Deep Research 類智能體智能體,并不簡單!

  • 它得能看懂網頁,能做多步決策;
  • 它得能適應開放動態環境;
  • 它得能自主提問、自主行動、自主修正……

在這種背景下,WebDancer 的出現,走出了一條復現 Deep Research 類智能體的可行路徑。

自主信息檢索智能體的構建,或者如何復現 Deep Research 類的模型一直面臨著兩大棘手難題:高質量訓練數據的稀缺與開放環境訓練的復雜性。這兩大難題如同兩座大山,阻擋了眾多研究者和開發者前進的步伐。然而,WebDancer 的出現,就像一把鋒利的寶劍,成功地劈開了這兩座大山,為自主智能的發展開辟了一條全新的道路。

以下是一些運行的 case:


我們可以看到 WebDancer 可以完成多步的信息檢索,包含多步思考和 action 執行,在運行過程中進行完成自主的任務拆解、知識回溯和反復驗證。

二、訓練數據難獲得:WebDancer 的創新突破

(一)數據稀缺的困境

在自主信息檢索領域,高質量的訓練數據至關重要,OpenAI 的 Deep Research 積累了大量的 browsing data。然而,現實情況是,現有的問答數據集大多淺薄且單一,往往只能解決一兩步的簡單問題。這些數據集不僅數量有限,而且難以反映真實世界中的復雜信息需求。例如,GAIA 數據集僅有 466 個樣本,WebWalkerQA 也只有 680 個樣本,遠遠不足以支持有效的訓練。此外,許多數據集只有測試集或驗證集,缺乏足夠的訓練數據,這使得智能體的訓練面臨巨大的挑戰。

(二)WebDancer 的數據合成策略

面對數據稀缺的困境,WebDancer 采取了創新的數據合成策略,成功地解決了這一難題。WebDancer 通過兩種主要方式構建了高質量的深度信息檢索問答數據集:CRAWLQA 和 E2HQA。

  • CRAWLQA:通過爬取網頁信息,模擬人類瀏覽行為,從權威網站中提取有價值的知識,生成復雜的問答對。這種方法不僅能夠獲取大量數據,還能確保數據的多樣性和真實性。
  • E2HQA:通過逐步增強簡單問題的復雜度,從易到難構建問答對,激勵智能體從弱到強逐步進化。這種方法不僅能夠生成復雜的多步問題,還能確保問題的邏輯性和連貫性。

通過這兩種方法,WebDancer 成功地構建了海量的樣本,極大地豐富了訓練數據。這些數據不僅數量龐大,而且質量上乘,為智能體的訓練提供了堅實的基礎。

(三)ReAct 大道至簡,模型內化 agentic 能力

獲得 QA 對之后,我們使用廣泛使用的 ReAct 框架,用閉源的 GPT-4o 和開源的 QwQ 模型進行長短思維鏈蒸餾,獲得高質量的 agentic 數據。

為什么使用 ReAct,是因為這種方式足夠大道至簡,滿足我們對 Agentic Model 的需求,即只需要給其工具,就可以自主思考、執行、研究。

(四)數據過濾與質量提升

有了大量的數據,如何確保數據的質量呢?WebDancer 采用了多階段的數據過濾策略,確保了數據的高質量。具體來說,WebDancer 通過以下三個階段進行數據過濾:

  • 有效性控制 :直接丟棄不符合指令的數據。
  • 正確性驗證 :只保留正確結果的數據。
  • 質量評估 :通過規則過濾掉重復或冗余的數據點,確保數據的多樣性和邏輯性。

通過這些嚴格的過濾策略,WebDancer 確保了訓練數據的高質量,為智能體的高效學習提供了保障。



二、開放網絡環境難訓練:WebDancer 的高效解決方案

(一)開放環境訓練的挑戰

在開放環境中訓練智能體是一項極具挑戰性的任務。開放環境不僅動態變化,而且部分可觀測,這使得智能體的訓練變得極其復雜。例如,網絡環境中的信息不斷更新,智能體需要不斷適應新的信息和新的任務需求。此外,開放環境中的任務往往需要多步推理和復雜的決策,這對智能體的泛化能力和適應能力提出了更高的要求。

(二)WebDancer 的兩階段訓練策略

為了應對開放環境訓練的挑戰,WebDancer 采用了兩階段訓練策略:監督微調(SFT)和強化學習(RL)。

監督微調(SFT):SFT 階段是智能體的 “冷啟動” 階段。通過在高質量軌跡數據上進行微調,智能體能夠快速適應任務需求,掌握如何在復雜的環境中進行推理和決策。SFT 階段不僅提升了智能體的初始性能,還為后續的強化學習打下了堅實的基礎。

強化學習(RL):RL 階段是智能體性能的 “優化器”。通過與環境的交互,智能體不斷試錯,學習如何在復雜多變的環境中做出最優決策。WebDancer 采用了先進的 DAPO 算法,這種算法能夠動態采樣,充分利用未被充分利用的數據對,從而提高數據效率和策略的魯棒性。

(三)高效的數據利用與動態采樣

在開放環境中,數據的高效利用至關重要。WebDancer 通過動態采樣機制,確保了數據的高效利用。具體來說,DAPO 算法能夠動態調整采樣策略,優先采樣那些未被充分利用的數據對。這種方法不僅提高了數據的利用率,還增強了智能體的泛化能力。

(四)降低強化學習成本

強化學習階段的高計算成本和時間開銷一直是開放環境訓練的一大難題。WebDancer 通過優化算法和硬件資源的高效利用,顯著降低了強化學習的成本。具體來說,WebDancer 采用了高效的 rollout 機制和并行計算技術,將每次回滾的時間和成本降低到了最低。



三、實驗與結果:WebDancer 的卓越表現

WebDancer 的創新策略在 GAIA 和 WebWalkerQA 這兩個極具挑戰性的信息檢索基準測試中得到了充分驗證。

(一)GAIA 數據集

GAIA 數據集旨在評估通用人工智能助手在復雜信息檢索任務上的表現。WebDancer 在 GAIA 數據集上的表現尤為突出,不僅在 Level 1、Level 2 和 Level 3 的任務中均取得了高分,還在平均分上遙遙領先。這表明 WebDancer 能夠在不同難度的任務中保持穩定的高性能,展現了其強大的泛化能力。

(二)WebWalkerQA 數據集

WebWalkerQA 數據集專注于深度網絡信息檢索。WebDancer 在 WebWalkerQA 數據集上的表現同樣出色,尤其是在中等難度和高難度任務中,其性能提升更為明顯。這表明 WebDancer 不僅能夠處理簡單的問題,更能應對復雜的挑戰,真正實現了從簡單到復雜的跨越。

主實驗結果



我們分別用短思維鏈數據訓練了 Qwen-2.5-7B 和 Qwen-2.5-32B 模型,長思維鏈數據訓練了 QwQ 模型。實驗結果顯示,WebDancer 在這些基準測試中取得了顯著的成績,超越了 GPT-4o 等強大的基線模型。

在更具有挑戰的信息檢索任務上的性能



WebDancer 還在 BrowseComp(En.)和 BrowseComp-zh(Zh.)這兩個更具挑戰性的基準測試中進行了評估。在這些測試中,WebDancer 同樣展現出了強大的性能,進一步證明了其在處理復雜信息檢索任務方面的魯棒性和有效性。

實驗分析

我們也做了細致的分析實驗為后續研究者提供方向。



  • 分析實驗 1: RL 能對普通的 Instruction model 有顯著的提升,并且能顯著提高 Pass@1 的正確采樣效率,使之接近 Pass@3,但對 QwQ 這類 Reasoning 模型提升不是很顯著,只能提升采樣的穩定性,這可能和整個 agentic 軌跡長有關。



  • 分析實驗 2: Agentic 數據在于精而不在于多。我們最后僅適用 6k 條長思維鏈的數據在 QwQ 模型上就能在 GAIA 上獲得很好的效果。



  • 分析實驗 3: 長短思維鏈 pattern 在不同模型上不好輕易轉化學習。雖然長思維鏈在 instruction model 和 reasoning model 都能得到很好的效果,但是會帶來很高的非法率,通常是由重復導致的,在小一點的模型上該現象更明顯。

四、未來展望:WebDancer 的新征程

盡管 WebDancer 已經取得了令人矚目的成就,但它的發展之路還遠未結束。未來,WebDancer 將在多個方向上繼續探索和創新。

(一)更多工具的集成

目前,WebDancer 僅集成了兩種基本的信息檢索工具,未來計劃引入更多復雜的工具,如瀏覽器建模和 Python 沙盒環境。這些工具將使智能體能夠執行更復雜的任務,如網頁瀏覽、數據抓取、API 調用等,從而拓展智能體的能力邊界,使其能夠應對更廣泛的挑戰。

(二)任務泛化與基準擴展

目前的實驗主要集中在短答案信息檢索任務上,未來 WebDancer 將擴展到開放域的長文本寫作任務。這將對智能體的推理能力和生成能力提出更高的要求,需要設計更可靠和更有效的獎勵信號。同時,WebDancer 也將參與更多基準測試,以驗證其在不同任務類型和領域中的泛化能力。

五、討論:Post-train Agentic Models

相比于一些驅動于強大的具有很強的 agentic 能力的閉源模型,例如 gpt-o4,claude 的 promtpting 工程框架,本研究的側重點在從頭訓練一個具有強大 agent 能力的模型,這對于實現 agent model 的開源以及推進我們對 agent 在開放系統中如何產生和 scale 的基本理解至關重要。我們使用的的原生 ReAct 框架秉持著簡潔性,體現了大道至簡的原則。

Agentic models 是指那些在交互式環境中,天生支持推理、決策以及多步驟工具使用的 foundation models。這些模型僅通過任務描述的提示,就能展現出諸如規劃、自我反思以及行動執行等突發性能力(emergent capabilities)。

近期的 DeepSearch 和 Deep Research 等系統,展示了強大的底層模型如何作為智能體的核心,通過其對工具調用和迭代推理的天然支持,實現自主的網絡交互。然而,由于網絡環境本質上是動態的且部分可觀察的,強化學習在提升智能體的適應性和魯棒性方面發揮了關鍵作用。在本研究中,我們的目標是通過有針對性的后訓練(post-training),在開源模型中激發自主智能體的能力。

六、結語:WebDancer,開啟自主智能的新時代

WebDancer 的出現,不僅是信息檢索領域的一個重大突破,更是自主智能發展的一個重要里程碑。它通過系統化的訓練范式,從數據構建到算法設計,為構建長期信息檢索智能體,開源模型復現 Deep Research 提供了清晰的指導。WebDancer 的成功,讓我們看到了自主智能體在未來科學研究、教育和生產力提升中的巨大潛力。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
我幫鄰居女兒補數學,高考后她舉報我收費,成績公布那天她哭著上門

我幫鄰居女兒補數學,高考后她舉報我收費,成績公布那天她哭著上門

黃家湖的憂傷
2025-06-11 16:58:32
男子網購黃牛當寵物,商家承諾“永不長大”長大可免費換,數月后牛長到了三百斤

男子網購黃牛當寵物,商家承諾“永不長大”長大可免費換,數月后牛長到了三百斤

張曉磊
2025-06-11 09:33:29
島內三路人馬前往大陸,賴清德急召集人開會,侯友宜露出真面目

島內三路人馬前往大陸,賴清德急召集人開會,侯友宜露出真面目

獵火照狼山
2025-06-14 19:41:19
烏克蘭富家女嫁到河南農村,31歲的丈夫因病逝世,她立馬把3個兒子國籍全改了,公婆說:她是恩人!

烏克蘭富家女嫁到河南農村,31歲的丈夫因病逝世,她立馬把3個兒子國籍全改了,公婆說:她是恩人!

LULU生活家
2025-06-09 18:27:46
注意了,公職人員下班后也要管起來,教師是被涵蓋其中的

注意了,公職人員下班后也要管起來,教師是被涵蓋其中的

讀鬼筆記
2025-06-13 21:09:41
69歲老太被兒媳送養老院,偷賣掉留兒子的9套大平層,3月后兒媳懵了

69歲老太被兒媳送養老院,偷賣掉留兒子的9套大平層,3月后兒媳懵了

風起青萍之未
2025-06-09 18:08:37
電車強企的恐懼,在SUV市場全面敗退,市場悄然變天

電車強企的恐懼,在SUV市場全面敗退,市場悄然變天

柏銘銳談
2025-06-14 21:56:52
“快遞放門口了”新騙局曝光!北京有人遇到……

“快遞放門口了”新騙局曝光!北京有人遇到……

新豐臺
2025-06-14 23:59:13
記者:浙江隊夏窗有望被特批引進兩名外援,最快下輪中超到位

記者:浙江隊夏窗有望被特批引進兩名外援,最快下輪中超到位

懂球帝
2025-06-15 10:56:24
美記:杜蘭特正在幕后參與交易 他不確定自己是否適合森林狼

美記:杜蘭特正在幕后參與交易 他不確定自己是否適合森林狼

直播吧
2025-06-15 08:29:56
身處異國他鄉的陪讀媽媽,為解決兒子青春期的困擾,竟決定這么做

身處異國他鄉的陪讀媽媽,為解決兒子青春期的困擾,竟決定這么做

南山青松
2025-06-11 17:01:44
農村男孩高考只差清華1分,父親托關系查卷,卷上8字讓他淚流滿面

農村男孩高考只差清華1分,父親托關系查卷,卷上8字讓他淚流滿面

程哥講堂
2025-06-13 18:48:52
以色列挑釁沙特,要炸東風基地?沙特:中國士兵在那,敢炸試試!

以色列挑釁沙特,要炸東風基地?沙特:中國士兵在那,敢炸試試!

東方點兵
2025-06-12 09:48:59
7月1日正式開通!湖北兩地高鐵可直達重慶

7月1日正式開通!湖北兩地高鐵可直達重慶

魯中晨報
2025-06-14 17:10:04
50歲王艷露臺起舞,故宮變背景!網友:排隊3小時不如她推窗看

50歲王艷露臺起舞,故宮變背景!網友:排隊3小時不如她推窗看

開心熬夜觀影
2025-06-14 16:16:44
臺網紅“館長”赴陸強化兩岸和平!最新街訪臺北年輕人“偏見變了”

臺網紅“館長”赴陸強化兩岸和平!最新街訪臺北年輕人“偏見變了”

海峽導報社
2025-06-15 09:23:03
以伊沖突引爆市場!7大受益板塊及核心龍頭股名單曝光

以伊沖突引爆市場!7大受益板塊及核心龍頭股名單曝光

K線論勢
2025-06-14 20:29:10
3000萬資產移民新西蘭走了?發長文的阿里離職員工,被網友怒斥…

3000萬資產移民新西蘭走了?發長文的阿里離職員工,被網友怒斥…

火山詩話
2025-06-13 06:27:44
女籃vs波黑15日前瞻:張子宇或離隊一戰 宮魯鳴能否率隊完成雙殺

女籃vs波黑15日前瞻:張子宇或離隊一戰 宮魯鳴能否率隊完成雙殺

狼叔評論
2025-06-14 16:41:05
涉嫌嚴重違紀違法!廣東一公安局分局原副局長被查

涉嫌嚴重違紀違法!廣東一公安局分局原副局長被查

花young的生活
2025-06-13 23:42:03
2025-06-15 11:31:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10640文章數 142338關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

印度空難幸存者:機身撞出巨大裂口 爬出去后發生爆炸

頭條要聞

印度空難幸存者:機身撞出巨大裂口 爬出去后發生爆炸

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

鳳凰傳奇曾毅塌房?網友:別連累玲花

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

家居
本地
數碼
時尚
公開課

家居要聞

森林幾何 極簡灰調原木風

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

數碼要聞

消息稱 AMD 將推出 R7 9700F 無核顯處理器,目標價位 250 美元

夏天最值得入手的6件單品,全在這了

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 色综合色狠狠天天综合色| 国产精品亚洲视频在线观看| 久久99精品久久久久久齐齐| 国产亚洲日韩在线aaaa| 亚洲中文字幕无码乱线久久视| 国产av激情无码久久天堂| 亚洲av综合a色av中文| 亚洲国产制服丝袜无码av| 亚洲国产精品无码专区影院| 色偷偷色噜噜狠狠网站久久| 性色av一区二区三区夜夜嗨| 亚洲国产激情一区二区三区| 欧美性猛交ⅹxxx乱大交妖精| 日本免费精品一区二区三区| 亚洲国产精品久久久久爰色欲| 欧美成人片一区二区三区| 无码av免费毛片一区二区| 国产精品乱码人妻一区二区三区| 韩国无码av片在线观看| 日本一卡精品视频免费| 九九99久久精品在免费线18| 无码啪啪熟妇人妻区| 亚洲精品久久久久久一区| 自拍偷自拍亚洲精品被多人伦好爽| 无码专区狠狠躁天天躁| 日韩一欧美内射在线观看| 国产亚洲精品久久久久久无挡照片| 少妇私密推油呻吟在线播放| 激情都市 校园 人妻 武侠| 羞羞视频在线免费观看| 国产精品久久久久7777按摩| 久久婷婷五月综合色丁香花| 亚洲精品一区中文字幕乱码| 亚洲国产成人综合精品| 老司机午夜精品99久久免费| 97视频热人人精品免费| 青青青国产免费线在| 国产成年女人特黄特色毛片免| 国产精品高清视亚洲中文| 久久久av男人的天堂| 国产成人无码va在线播放|