近期,美國明尼蘇達大學與伊利諾伊大學芝加哥分校等聯合團隊提出并實現了一個名為 InfantAgent-Next 的通用型多模態智能體系統,其能夠通過文字、圖像、音頻等方式與計算機進行自動化交互。
它的核心創新在于,打破了現有系統普遍采用的“單一依賴”模式(或依賴工具,或依賴視覺模型),轉而采用高度模塊化的混合式架構。
目前,研究團隊已在多個真實交互任務中驗證了 InfantAgent-Next 的有效性,包括辦公軟件操作、網頁編輯、音頻理解等任務場景,性能超過了多個現有基線。例如,在 OSWorld 任務中準確率達到 35.3%,超過了 Claude 計算機代理等系統。
此外,他們還開源了完整代碼與評估腳本,希望推動社區進一步研究真正可落地的多模態通用智能體。
近日,相關論文以《InfantAgent-Next:多模態通用代理的計算機自動交互技術》(InfantAgent-Next: A Multimodal Generalist Agent for Automated Computer Interaction)為題發表在預印本網站arXiv上 [1]。明尼蘇達大學博士生雷斌和伊利諾伊大學芝加哥分校博士生康偉泰是共同第一作者,明尼蘇達大學丁才文教授擔任通訊作者。
圖丨相關論文(來源:arXiv)
可用于數字辦公助手等場景
該團隊持續關注通用 AI 代理(AI Agent)技術未來潛力。在他們看來,一個真正高效的智能代理,應該能夠自主理解用戶的意圖,并像“數字助手”一樣,在不依賴人類干預的情況下完成各類跨模態任務,從而真正解放人類的操作時間和注意力。
康偉泰對 DeepTech 表示,這項技術一旦成熟,有望在辦公自動化、內容編輯、復雜信息檢索與決策支持等領域帶來革命性變革,使人類能夠將精力集中于更具創造性和戰略性的工作。
圖丨康偉泰(來源:康偉泰)
研究團隊發現,現有方法主要面臨兩類主要問題:
一類是工具驅動型的系統,通常由大模型負責整個流程的決策,并調用預設工具。這類方法往往需要人類提前為每個任務場景精心設計工具調用邏輯,其存在泛化性差和維護成本高的局限性。
另一類則是純視覺驅動的系統,盡管其具有一定通用性,但由于推理和執行全靠單一模型完成,受制于電腦屏幕的高分辨率視覺理解的挑戰。因此,它常常在界面點擊、文本定位、文件編輯等細節操作上出錯,缺乏執行層面的魯棒性。
研究團隊的突破性地引入了一種模塊分工協作機制——不再依賴單個模型解決所有問題,而是根據任務需求將不同子任務路由給專長不同的“專家模型”。
舉例來說,語言模型用于任務規劃、視覺模型用于定位界面元素、音頻模型用于解析語音提示等。所有模塊共享統一的上下文,子模塊的輸出也會被回寫進系統歷史中,進而實現端到端的多模態協作。
這種架構帶來的新知識包括:充分利用了工具模型與視覺模型在不同任務類型中的互補性;實現了“任務分解-專家路由-上下文融合”的設計范式;證明了高度模塊化智能體架構在多個基準任務中,具備更強的泛化能力和執行準確性。
(來源:arXiv)
研究團隊認為,InfantAgent-Next 的應用前景廣闊。它的核心能力是讓智能體能夠像“虛擬人類用戶”一樣理解多模態輸入(如文字、圖片、聲音等),并以高度準確、可控和自動化的方式操作計算機界面。
這種能力在未來有望嵌入到多種實際應用場景中:
數字辦公助手:InfantAgent-Next 可用于自動完成文檔撰寫、表格處理、幻燈片制作、郵件收發等任務,尤其適合需要圖文混合操作,幫助用戶節省大量重復勞動時間。
無障礙輔助系統:對于視力障礙或行動不便人群,InfantAgent-Next 能通過語音和圖像理解,幫助他們自動化地與電腦或網頁界面交互,從而提升數字可及性。
跨模態客服與運維機器人:InfantAgent-Next 在電商、政務、金融等行業可用于后臺自動填寫系統表單、抓取頁面數據、處理用戶請求等,以智能化方式完成原本需要人工介入的操作流程。
教育與訓練平臺中的模擬用戶:它可以被用作“虛擬學生”或“虛擬操作員”,在軟件培訓、系統測試等領域幫助構建仿真環境。
軟件自動化測試與交互驗證:與傳統的 UI 自動化腳本相比,InfantAgent-Next 更具通用性和彈性,適用于快速生成測試流程、發現交互邏輯錯誤。
“長遠來看,我們相信這類通用型 AI Agent 將逐漸成為每個人計算設備中的常駐助手,像系統級能力一樣無處不在,并不斷進化。”康偉泰說。
希望推動通用多模態 AI Agent 實際落地
回憶這次研究經歷,最讓康偉泰和雷斌難忘的是研究團隊從最初的滿腔熱情,到逐步意識到實現這樣一個多模態通用 AI Agent,實際上比研究團隊預想中要困難得多。
起初,他們制定了清晰的分工合作流程:代碼實現、benchmark 測試和論文構思、撰寫,并按時間節點推進。但現實遠比計劃復雜——研究團隊需要兼容多個 benchmark,開發支持它們的測試代碼本身就極為繁瑣。
而且,由于他們所設計的是一個“通用型”智能體,涉及的子領域非常多。為了把各項功能落地,研究團隊花了大量時間去調研 GUI-VG(GUI Visual Grounding)相關工作,分析不同大語言模型的能力差異、API 調用成本等。然而,這些工作均無法直接復用現有方案,必須從頭構建。
研究過程中,團隊還遭遇了諸多突發問題,包括 API 成本超預算、GUI-VG 模塊的迭代優化、論文寫作方向的調整等,導致原計劃一再被打亂。面對這些挑戰,團隊成員始終保持緊密協作,尤其在論文成型前的最后階段,他們每天通過 Zoom 召開遠程“戰斗會議”,甚至通宵修改論文。
這段經歷不僅產出了一項重要科研成果,更成為一場關于團隊協作、韌性堅持和動態調整的寶貴實踐。最終,團隊成功按預期完稿,這一成果讓所有成員倍感自豪,同時也讓他們深刻認識到,高質量的科研工作并非線性推進,而是一場充滿不確定性的博弈,需要靈活應對和緊密協作。
圖丨INFANTAGENT-NEXT 在 OSWorld 上的性能(來源:arXiv)
目前,研究團隊已經在規劃后續的研究方向,并希望不斷打磨和提升 InfantAgent-Next 的實際可用性與研究價值。
他們計劃從以下幾個方面持續推進:
提升整體 pipeline 的效率:當前系統中仍存在部分調用流程復雜、響應速度較慢的問題,研究團隊計劃對 Agent 的任務調度、模塊協作和執行機制進行優化,使其更加高效流暢。
降低對外部 API 的依賴與成本:目前系統在多模態理解和推理方面仍需依賴一些高質量的商用 API,這在成本和穩定性上都帶來挑戰。他們正在探索更多開源、可自部署的替代方案,以增強系統的可控性和可持續性。
增強各子模塊的模型能力:無論是視覺理解、語音分析還是多輪推理,相關模型的精度和魯棒性都直接影響 Agent 的表現。研究團隊將持續跟進最新研究成果并訓練子模塊模型,不斷迭代子模塊的選擇與性能。
持續開源,服務社區:研究團隊將保持 InfantAgent-Next 的開源更新,包括代碼、評測腳本和工具鏈,也歡迎社區開發者、研究者或對 AI Agent 感興趣的同學基于研究團隊的工作進行改進或擴展,以推動整個領域的發展。
康偉泰表示:“我們希望這個項目不僅是一個‘能跑起來的系統’,而且是能成為社區中的基石去推動通用多模態 AI Agent 科研探索和實際落地?!?/p>
目前,InfantAgent-Next 的代碼和評測腳本已經開放在 GitHub 上,研究團隊也在持續高頻率地更新。據團隊預計,開源版本中的 Agent 很可能在未來幾輪迭代中,能力有望遠超當前論文所展示的水平。
參考資料:
1.https://arxiv.org/pdf/2505.10887
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.