作者介紹: 本文作者來自通義實驗室 RAG 團隊,致力于面向下一代 RAG 技術進行基礎研究。該團隊 WebWalker 工作近期也被 ACL 2025 main conference 錄用。
- 論文:https://arxiv.org/pdf/2505.22648
- 代碼:https://github.com/Alibaba-NLP/WebAgent
一、背景:信息檢索的新需求與挑戰
在當今信息爆炸的時代,解決復雜問題不再僅僅是簡單的知識檢索,而是需要深入的信息挖掘和多步推理。從醫學研究到科技創新,從商業決策到學術探索,每一個領域都呼喚著能夠自主思考、自主決策的智能體。Deep Research 等系統已經為我們展示了自主多步研究的巨大潛力,但構建這樣的智能體并非易事。它們需要在復雜的網絡環境中感知、決策、行動,還要面對任務復雜度高、泛化能力弱等諸多挑戰。
但打造這樣一個 Deep Research 類智能體智能體,并不簡單!
- 它得能看懂網頁,能做多步決策;
- 它得能適應開放動態環境;
- 它得能自主提問、自主行動、自主修正……
在這種背景下,WebDancer 的出現,走出了一條復現 Deep Research 類智能體的可行路徑。
自主信息檢索智能體的構建,或者如何復現 Deep Research 類的模型一直面臨著兩大棘手難題:高質量訓練數據的稀缺與開放環境訓練的復雜性。這兩大難題如同兩座大山,阻擋了眾多研究者和開發者前進的步伐。然而,WebDancer 的出現,就像一把鋒利的寶劍,成功地劈開了這兩座大山,為自主智能的發展開辟了一條全新的道路。
以下是一些運行的 case:
我們可以看到 WebDancer 可以完成多步的信息檢索,包含多步思考和 action 執行,在運行過程中進行完成自主的任務拆解、知識回溯和反復驗證。
二、訓練數據難獲得:WebDancer 的創新突破
(一)數據稀缺的困境
在自主信息檢索領域,高質量的訓練數據至關重要,OpenAI 的 Deep Research 積累了大量的 browsing data。然而,現實情況是,現有的問答數據集大多淺薄且單一,往往只能解決一兩步的簡單問題。這些數據集不僅數量有限,而且難以反映真實世界中的復雜信息需求。例如,GAIA 數據集僅有 466 個樣本,WebWalkerQA 也只有 680 個樣本,遠遠不足以支持有效的訓練。此外,許多數據集只有測試集或驗證集,缺乏足夠的訓練數據,這使得智能體的訓練面臨巨大的挑戰。
(二)WebDancer 的數據合成策略
面對數據稀缺的困境,WebDancer 采取了創新的數據合成策略,成功地解決了這一難題。WebDancer 通過兩種主要方式構建了高質量的深度信息檢索問答數據集:CRAWLQA 和 E2HQA。
- CRAWLQA:通過爬取網頁信息,模擬人類瀏覽行為,從權威網站中提取有價值的知識,生成復雜的問答對。這種方法不僅能夠獲取大量數據,還能確保數據的多樣性和真實性。
- E2HQA:通過逐步增強簡單問題的復雜度,從易到難構建問答對,激勵智能體從弱到強逐步進化。這種方法不僅能夠生成復雜的多步問題,還能確保問題的邏輯性和連貫性。
通過這兩種方法,WebDancer 成功地構建了海量的樣本,極大地豐富了訓練數據。這些數據不僅數量龐大,而且質量上乘,為智能體的訓練提供了堅實的基礎。
(三)ReAct 大道至簡,模型內化 agentic 能力
獲得 QA 對之后,我們使用廣泛使用的 ReAct 框架,用閉源的 GPT-4o 和開源的 QwQ 模型進行長短思維鏈蒸餾,獲得高質量的 agentic 數據。
為什么使用 ReAct,是因為這種方式足夠大道至簡,滿足我們對 Agentic Model 的需求,即只需要給其工具,就可以自主思考、執行、研究。
(四)數據過濾與質量提升
有了大量的數據,如何確保數據的質量呢?WebDancer 采用了多階段的數據過濾策略,確保了數據的高質量。具體來說,WebDancer 通過以下三個階段進行數據過濾:
- 有效性控制 :直接丟棄不符合指令的數據。
- 正確性驗證 :只保留正確結果的數據。
- 質量評估 :通過規則過濾掉重復或冗余的數據點,確保數據的多樣性和邏輯性。
通過這些嚴格的過濾策略,WebDancer 確保了訓練數據的高質量,為智能體的高效學習提供了保障。
二、開放網絡環境難訓練:WebDancer 的高效解決方案
(一)開放環境訓練的挑戰
在開放環境中訓練智能體是一項極具挑戰性的任務。開放環境不僅動態變化,而且部分可觀測,這使得智能體的訓練變得極其復雜。例如,網絡環境中的信息不斷更新,智能體需要不斷適應新的信息和新的任務需求。此外,開放環境中的任務往往需要多步推理和復雜的決策,這對智能體的泛化能力和適應能力提出了更高的要求。
(二)WebDancer 的兩階段訓練策略
為了應對開放環境訓練的挑戰,WebDancer 采用了兩階段訓練策略:監督微調(SFT)和強化學習(RL)。
監督微調(SFT):SFT 階段是智能體的 “冷啟動” 階段。通過在高質量軌跡數據上進行微調,智能體能夠快速適應任務需求,掌握如何在復雜的環境中進行推理和決策。SFT 階段不僅提升了智能體的初始性能,還為后續的強化學習打下了堅實的基礎。
強化學習(RL):RL 階段是智能體性能的 “優化器”。通過與環境的交互,智能體不斷試錯,學習如何在復雜多變的環境中做出最優決策。WebDancer 采用了先進的 DAPO 算法,這種算法能夠動態采樣,充分利用未被充分利用的數據對,從而提高數據效率和策略的魯棒性。
(三)高效的數據利用與動態采樣
在開放環境中,數據的高效利用至關重要。WebDancer 通過動態采樣機制,確保了數據的高效利用。具體來說,DAPO 算法能夠動態調整采樣策略,優先采樣那些未被充分利用的數據對。這種方法不僅提高了數據的利用率,還增強了智能體的泛化能力。
(四)降低強化學習成本
強化學習階段的高計算成本和時間開銷一直是開放環境訓練的一大難題。WebDancer 通過優化算法和硬件資源的高效利用,顯著降低了強化學習的成本。具體來說,WebDancer 采用了高效的 rollout 機制和并行計算技術,將每次回滾的時間和成本降低到了最低。
三、實驗與結果:WebDancer 的卓越表現
WebDancer 的創新策略在 GAIA 和 WebWalkerQA 這兩個極具挑戰性的信息檢索基準測試中得到了充分驗證。
(一)GAIA 數據集
GAIA 數據集旨在評估通用人工智能助手在復雜信息檢索任務上的表現。WebDancer 在 GAIA 數據集上的表現尤為突出,不僅在 Level 1、Level 2 和 Level 3 的任務中均取得了高分,還在平均分上遙遙領先。這表明 WebDancer 能夠在不同難度的任務中保持穩定的高性能,展現了其強大的泛化能力。
(二)WebWalkerQA 數據集
WebWalkerQA 數據集專注于深度網絡信息檢索。WebDancer 在 WebWalkerQA 數據集上的表現同樣出色,尤其是在中等難度和高難度任務中,其性能提升更為明顯。這表明 WebDancer 不僅能夠處理簡單的問題,更能應對復雜的挑戰,真正實現了從簡單到復雜的跨越。
主實驗結果
我們分別用短思維鏈數據訓練了 Qwen-2.5-7B 和 Qwen-2.5-32B 模型,長思維鏈數據訓練了 QwQ 模型。實驗結果顯示,WebDancer 在這些基準測試中取得了顯著的成績,超越了 GPT-4o 等強大的基線模型。
在更具有挑戰的信息檢索任務上的性能
WebDancer 還在 BrowseComp(En.)和 BrowseComp-zh(Zh.)這兩個更具挑戰性的基準測試中進行了評估。在這些測試中,WebDancer 同樣展現出了強大的性能,進一步證明了其在處理復雜信息檢索任務方面的魯棒性和有效性。
實驗分析
我們也做了細致的分析實驗為后續研究者提供方向。
- 分析實驗 1: RL 能對普通的 Instruction model 有顯著的提升,并且能顯著提高 Pass@1 的正確采樣效率,使之接近 Pass@3,但對 QwQ 這類 Reasoning 模型提升不是很顯著,只能提升采樣的穩定性,這可能和整個 agentic 軌跡長有關。
- 分析實驗 2: Agentic 數據在于精而不在于多。我們最后僅適用 6k 條長思維鏈的數據在 QwQ 模型上就能在 GAIA 上獲得很好的效果。
- 分析實驗 3: 長短思維鏈 pattern 在不同模型上不好輕易轉化學習。雖然長思維鏈在 instruction model 和 reasoning model 都能得到很好的效果,但是會帶來很高的非法率,通常是由重復導致的,在小一點的模型上該現象更明顯。
四、未來展望:WebDancer 的新征程
盡管 WebDancer 已經取得了令人矚目的成就,但它的發展之路還遠未結束。未來,WebDancer 將在多個方向上繼續探索和創新。
(一)更多工具的集成
目前,WebDancer 僅集成了兩種基本的信息檢索工具,未來計劃引入更多復雜的工具,如瀏覽器建模和 Python 沙盒環境。這些工具將使智能體能夠執行更復雜的任務,如網頁瀏覽、數據抓取、API 調用等,從而拓展智能體的能力邊界,使其能夠應對更廣泛的挑戰。
(二)任務泛化與基準擴展
目前的實驗主要集中在短答案信息檢索任務上,未來 WebDancer 將擴展到開放域的長文本寫作任務。這將對智能體的推理能力和生成能力提出更高的要求,需要設計更可靠和更有效的獎勵信號。同時,WebDancer 也將參與更多基準測試,以驗證其在不同任務類型和領域中的泛化能力。
五、討論:Post-train Agentic Models
相比于一些驅動于強大的具有很強的 agentic 能力的閉源模型,例如 gpt-o4,claude 的 promtpting 工程框架,本研究的側重點在從頭訓練一個具有強大 agent 能力的模型,這對于實現 agent model 的開源以及推進我們對 agent 在開放系統中如何產生和 scale 的基本理解至關重要。我們使用的的原生 ReAct 框架秉持著簡潔性,體現了大道至簡的原則。
Agentic models 是指那些在交互式環境中,天生支持推理、決策以及多步驟工具使用的 foundation models。這些模型僅通過任務描述的提示,就能展現出諸如規劃、自我反思以及行動執行等突發性能力(emergent capabilities)。
近期的 DeepSearch 和 Deep Research 等系統,展示了強大的底層模型如何作為智能體的核心,通過其對工具調用和迭代推理的天然支持,實現自主的網絡交互。然而,由于網絡環境本質上是動態的且部分可觀察的,強化學習在提升智能體的適應性和魯棒性方面發揮了關鍵作用。在本研究中,我們的目標是通過有針對性的后訓練(post-training),在開源模型中激發自主智能體的能力。
六、結語:WebDancer,開啟自主智能的新時代
WebDancer 的出現,不僅是信息檢索領域的一個重大突破,更是自主智能發展的一個重要里程碑。它通過系統化的訓練范式,從數據構建到算法設計,為構建長期信息檢索智能體,開源模型復現 Deep Research 提供了清晰的指導。WebDancer 的成功,讓我們看到了自主智能體在未來科學研究、教育和生產力提升中的巨大潛力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.