當你在快餐店等待一份現(xiàn)制三明治時,是否設想過這樣的場景:如果機器人能夠像人類廚師一樣靈活協(xié)調雙臂——一邊煎制培根,一邊涂抹醬料,同時整理餐盒,那么顧客的等待時間很可能大幅縮短。
如今,這一構想正隨著機器人技術的發(fā)展而逐漸走向現(xiàn)實。北京航空航天大學助理研究員范肇心團隊與北京人形機器人創(chuàng)新中心合作,為解決并行高效操作難題,提出了一種名為 RoboPARA 的雙機械臂任務規(guī)劃框架。
該框架的核心創(chuàng)新在于采用基于大模型的兩階段規(guī)劃策略:第一階段通過構建依賴圖生成任務邏輯,并通過檢索增強生成消除語義冗余;第二階段則通過圖重遍歷算法對雙臂的并行調度進行深度優(yōu)化。這種“雙重優(yōu)化”機制顯著提升了機械臂的協(xié)作效率。
(來源:該團隊)
從應用前景來看,這項技術在需要復雜操作協(xié)同的領域展現(xiàn)出廣泛的應用潛力:在服務業(yè)可應用于智能售賣廳和智慧廚房(包括烹飪機器人及家務機器人);在工業(yè)領域適用于柔性制造生產(chǎn)線和汽車生產(chǎn)車間;在醫(yī)療輔助(如手術機器人)、農業(yè)自動化、災后救援以及家庭服務等場景也具有重要的應用價值。
經(jīng)實際驗證,該技術已在包括天工人形機器人、Franka 和 UR5e 在內的多種機器人平臺上完成測試。實驗數(shù)據(jù)顯示,其工作效率和任務成功率優(yōu)于現(xiàn)有方法。值得一提的是,為促進學術交流和技術發(fā)展,研究團隊即將開源項目代碼和完整數(shù)據(jù)集。
(來源:該團隊)
日前,相關論文以《RoboPARA:面向多任務的雙臂機器人并行分配重組規(guī)劃方法》(RoboPARA: Dual-Arm Robot Planning with Parallel Allocation and Recomposition Across Tasks)為題發(fā)表在預印本網(wǎng)站arXiv上 [1]。北京航空航天大學研究生段仕英和北京人形機器人創(chuàng)新中心任沛是共同第一作者,北京航空航天大學范肇心、中國人民大學孫怡帆教授和北京人形機器人創(chuàng)新中心任沛擔任共同通訊作者。
圖丨相關論文(來源:arXiv)
如今,大模型雖已成功應用于活動規(guī)劃等任務,但在處理復雜規(guī)劃場景時仍面臨顯著瓶頸,其實際能力尚需更全面的驗證。
針對這一挑戰(zhàn),研究團隊從日常生活場景中獲得關鍵啟發(fā)——以早晨起床后的多任務處理為例,人們需要同時協(xié)調燒水、洗漱、整理衣物等一系列活動,這些任務有的可以并行執(zhí)行,有的則存在先后依賴關系,或者需要在等待間隙插入其他任務。
然而,規(guī)劃任務本質上具有多解性,團隊研究發(fā)現(xiàn),直接使用大模型進行任務規(guī)劃時,由于模型自身的推理能力有限,可能會產(chǎn)生“規(guī)劃幻覺”現(xiàn)象。具體表現(xiàn)為:模型可能以高度自信的態(tài)度輸出規(guī)劃結果,但這些方案卻存在實質性錯誤,例如遺漏關鍵操作步驟或違反物理約束條件。
圖丨RoboPARA 框架(來源:arXiv)
為系統(tǒng)解決大模型在復雜規(guī)劃中的固有缺陷,RoboPARA 框架創(chuàng)新性地提出了兩階段處理流程,實現(xiàn)了對傳統(tǒng)規(guī)劃范式的突破性改進。
在第一階段的依賴圖規(guī)劃候選生成中,系統(tǒng)通過構建有向無環(huán)圖(DAG,Directed Acyclic Graph)精確建模任務間的拓撲關系,智能識別并消除冗余操作節(jié)點。
范肇心對 DeepTech 舉例說道:“在廚房場景下,RoboPARA 如同一位技藝精湛的主廚,面對多份訂單時能統(tǒng)籌規(guī)劃不同套餐的切配、烹制和裝盤流程,使機器人獲得像人類那樣的全局調度能力。”
圖丨范肇心老師和博士同學(來源:范肇心)
在第二階段的圖重遍歷優(yōu)化中,算法通過對 DAG 的智能遍歷,在確保任務邏輯完整性的前提下,實現(xiàn)雙臂操作并行度的最大化。以工廠裝配線為例,該技術可讓雙機械臂像配合默契的工人搭檔,同步執(zhí)行差異化操作從而顯著提升產(chǎn)線效率。“通過這種方式,能夠有效避免大模型幻覺帶來的問題。”范肇心表示。
為了驗證 RoboPARA 的有效性,該團隊開發(fā)了首個專門設計用于評估雙臂任務并行性的數(shù)據(jù)集——X-DAPT(Cross-Scenario Dual-Arm Parallel Task)數(shù)據(jù)集。范肇心表示:“為更好地應對工業(yè)界應用的復雜情況,我們在制作數(shù)據(jù)集時充分考慮了商業(yè)場景的需求。”
與現(xiàn)有實驗室導向數(shù)據(jù)集不同的是,X-DAPT 包含 1000 余個任務模塊,覆蓋了從廚房烹飪到農業(yè)溫室管理,從辦公室服務到工廠組裝等 10 類核心場景,每個場景又細分為簡單、中等、困難三級難度梯度。
圖丨X-DAPT 數(shù)據(jù)集的統(tǒng)計評估(來源:arXiv)
大量實驗表明,RoboPARA 在各項指標上均顯著優(yōu)于現(xiàn)有方法。在復雜任務組合中,它實現(xiàn)了更高的效率和可靠性。與傳統(tǒng)方法相比,RoboPARA 的平均并行協(xié)作步驟超過 4.5 倍,執(zhí)行時間減少 30% 至 50%。在具有挑戰(zhàn)性的任務中,其成功率比其他方法的平均水平高出 34%,展現(xiàn)出高穩(wěn)定性和適應性。
雖然當前研究在數(shù)據(jù)集構建和算法設計中尚未系統(tǒng)性地考慮動態(tài)環(huán)境因素,但 RoboPARA 框架已展現(xiàn)出初步的動態(tài)適應能力。這種能力主要源于算法設計之初就集成的檢索增強機制,其多模態(tài)輸入特性(不僅包含文本指令,還整合了視覺感知數(shù)據(jù))為動態(tài)響應提供了基礎支撐。
以制作熱狗三明治套餐為例,當接收到文字指令后,機器人并非立即執(zhí)行操作,而是會先通過視覺系統(tǒng)捕捉環(huán)境狀態(tài),識別食材和工具的實時空間分布,評估資源完備性,繼而生成適應性規(guī)劃方案。
這種“感知-理解-決策”的閉環(huán)機制,使得系統(tǒng)在面對新任務場景(如不同套餐訂單)時,能夠通過環(huán)境感知、記憶檢索和大模型推理的協(xié)同作用,實現(xiàn)一定程度的自主決策和動態(tài)調整。
(來源:arXiv)
需要說明的是,當前系統(tǒng)的動態(tài)能力主要體現(xiàn)在任務級適應(如新訂單處理)而非操作級適應(如動態(tài)物體抓取),這也構成了未來研究的重要拓展方向。
然而,不可忽視的是,該框架在任務規(guī)劃過程中仍面臨死鎖問題的嚴峻挑戰(zhàn)。從技術實現(xiàn)層面來看,死鎖現(xiàn)象源于 DAG 遍歷時的循環(huán)依賴:當大模型生成的規(guī)劃方案在任務圖上形成閉環(huán)時,系統(tǒng)會陷入有限幾個任務的無限循環(huán)而無法推進。
范肇心坦言:“在研發(fā)初期,我們嘗試了多種方法引導大模型生成無死鎖的規(guī)劃圖,但在當前版本中仍未完全解決這個問題。”為此,團隊引入傳統(tǒng)規(guī)劃方法作為補充機制來破解死鎖問題。
這種兩階段的折中方案雖然保證了系統(tǒng)的基本可用性,但從長遠來看,研究人員希望未來能夠發(fā)展出端到端的規(guī)劃范式——要么完全擺脫對規(guī)劃圖的依賴,要么實現(xiàn)圖的智能生成與死鎖預防,從而消除對傳統(tǒng)解鎖方法的依賴。
基于此,研究團隊正著眼于以下三個關鍵發(fā)展方向:
首先是架構革新,致力于構建更簡潔的端到端規(guī)劃系統(tǒng),逐步降低框架復雜度。
其次是模型輕量化,在保持規(guī)劃性能的前提下,探索如何將算法部署到包括北航團隊開發(fā)的 TinyLLaVA、阿里千問等 7B 參數(shù)以下的輕量級基座,以增強端側適用性。
最后是深入到控制層面,推動研究從任務級規(guī)劃向動作級控制延伸,實現(xiàn)“視覺-語言-動作”的深度融合。“這三個方向不僅具有學術價值,也有望推動雙臂機器人在工業(yè)界的落地應用。”范肇心說。
參考資料:
1.https://arxiv.org/abs/2506.06683
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.