大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

NUS邵林團隊提出全新機器人裝配技能學習框架Manual2Skill

0
分享至



本文共同第一作者為新加坡國立大學博士生鐵宸睿和多倫多大學研究助理/本科生孫圣翔。合作者為朱錦軒、劉益偉、郭京翔、胡越、陳浩楠、陳俊廷、吳睿海。通訊作者為新加坡國立大學計算機學院助理教授邵林,研究方向為機器人和人工智能。

視覺語言模型(Vision-Language Models, VLMs),為真實環境中的機器人操作任務提供了極具潛力的解決方案。

盡管 VLMs 取得了顯著進展,機器人仍難以勝任復雜的長時程任務(如家具裝配),主要受限于人類演示數據和訓練樣本的稀缺性。

為解決這一問題,研究團隊提出 Manual2Skill,一種基于 VLMs 的創新框架,使機器人能通過高級視覺說明書自主理解并執行家具裝配任務,模仿人類學習裝配的過程。該方法彌合了抽象指令與物理執行之間的鴻溝,顯著提升了機器人在真實操作場景中的實用性。

目前,該論文已被機器人領域頂級會議 Robotics: Science and Systems XXI(RSS 2025)接收。



  • 論文標題:Manual2Skill: Learning to Read Manuals and Acquire Robotic Skills for Furniture Assembly Using Vision-Language Models
  • 論文鏈接:https://arxiv.org/abs/2502.10090
  • 項目主頁:https://owensun2004.github.io/Furniture-Assembly-Web/

研究背景

家具裝配是一項復雜的長時程任務,要求機器人:(A) 理解所有零件的拼接關系和順序;(B) 估計每一步拼接時部件的位姿;(C) 生成物理可行的動作以完成部件組裝。

盡管許多計算機視覺方法通過幾何或語義技術在部件位姿預測(B)方面取得顯著成果,但它們大多忽視了同樣關鍵的拼接順序理解(A)和動作生成(C)環節 [1, 2]。

現有的端到端機器人裝配系統通常依賴模仿學習或強化學習。雖然在某些場景下有效,但這些方法需要大規模數據集和大量計算資源,難以推廣至真實環境中的通用長時程操作任務 [3, 4]。

近年來,視覺語言模型(VLMs)在高層規劃、環境理解甚至直接機器人控制方面展現出潛力。部分研究嘗試整合這些能力用于機器人裝配,但多局限于簡單幾何物體且在真實裝配場景中魯棒性不足 [5]。

關鍵問題在于,現有 VLM 方法(乃至多數當前方法)缺乏對結構化外部指導(如人工設計的說明書)的利用。這種缺失限制了它們在依賴抽象符號指令的復雜裝配任務中的表現。

相比之下,人類能夠從抽象的說明書中提取信息并學習操作技能,這揭示了機器人能力的一個重要缺口:從抽象的、為人類設計的指導信息中學習物體操作技能。

憑借強大的視覺與語言推理能力,VLMs 為彌合這一缺口提供了獨特機遇。通過挖掘說明書中的結構化知識,VLMs 可使機器人更高效可靠地完成復雜多步驟裝配任務。

Manual2Skill:

基于 VLM 的說明書引導式機器人裝配框架

為解決復雜長時程裝配的局限性,研究團隊開發了 Manual2Skill —— 一種創新框架,利用 VLMs 將基于說明書的視覺指令轉化為機器人裝配技能。

Manual2Skill 包含三個核心階段:

  • 層級化裝配圖生成:通過 VLM 解析說明書圖像,構建描述家具部件結構關系的層級化裝配圖。
  • 分步驟位姿估計:預測每個裝配步驟中涉及的家具部件的精確 6D 位姿。
  • 動作生成與執行:將位姿信息轉化為可執行的機器人軌跡。



圖 1:Manual2Skill 框架

該框架解決了現有機器人裝配方法的兩大核心限制:

  • 通過將人類理解的抽象示意圖轉化為結構化裝配層級圖與部件位姿,使機器人能從說明書提取可操作信息,避免了對大規模高質量演示數據集的依賴。
  • 將裝配層級圖作為結構化裝配信息的核心表征,為真實裝配任務提供通用解決方案,適用于所有多步驟復雜裝配問題。

階段 I: 層級化裝配圖生成

Manual2Skill 的首階段將人類可理解的說明書轉化為機器人可執行的任務規劃。通過視覺語言模型(GPT-4o)對說明書示意圖和預裝配場景圖像進行聯合推理,生成編碼家具部件與子組件結構關系的層級化裝配圖。

在此圖中:

  • 葉節點代表原子部件。
  • 非葉節點表示通過連接部件/子組件形成的復合結構。
  • 從葉節點向根節點遍歷可獲得完整的逐步裝配流程。

為構建該圖,Manual2Skill 通過整合多模態輸入,特別是多張圖像的視覺信息與文本指令組成的多輪提示序列,完成兩個關鍵子階段:

  • 跨域視覺理解:通過視覺提示技術(如 Set-Of-Marks 和 GroundingDINO)和幾何視覺推理,GPT-4o 將預裝配場景圖片中的物理部件與其說明書圖示進行語義關聯,從而解析每個部件的作用與位置。

  • 結構化信息提?。夯谝炎R別的部件信息,使用鏈式思維(Chain-of-Thought)、由簡至繁(Least–To–Most)和上下文學習(In-Context Learning)等提示技術,判斷說明書中每個步驟涉及的特定部件。

該結構化圖表征為下游位姿估計與運動規劃奠定基礎,確保復雜裝配任務的精準順序執行。

階段 II: 分步驟裝配位姿估計

在層級化裝配圖確定部件組合與裝配順序后,本階段預測每個裝配步驟中所有部件的 6D 位姿,實現部件間的精確物理對齊。

與過往方法通常一次預測整個裝配過程中所有零件的位姿不同,這里我們對每個裝配步驟,預測這一步中涉及到的所有部件/子組件的位姿,這一設置既更貼合真實世界中的拼裝過程,也能使模型避免單次輸入部件數量過多引起的性能下降。

同時我們還發現,盡管家具的形態有很大差別,但其基本部件的連接方式(比如板和棍的連接)較為固定,這種分步預測的方法能使模型更好地學習到這種基本連接方式,從而對測試集的物體實現更高的預測精度。

為實現此目標,跨模態位姿估計模型對說明書圖像與家具部件 3D 點云進行聯合推理。模型架構包含四個核心組件:

  • 圖像編碼器(E_I):從說明書圖像提取語義特征,捕獲部件關系與朝向的視覺線索。
  • 點云編碼器(E_P):編碼各部件的點云數據。
  • 跨模態融合(E_G):使用圖神經網絡(GNN)整合圖像與點云特征。
  • 位姿回歸器(R):從融合特征預測各部件的 SE(3) 位姿。



為確保預測的魯棒性與準確性,模型采用復合損失函數:

  • SE(3) 變換誤差(旋轉測地距離 + 平移 MSE)
  • 點云對齊損失(Chamfer 距離)
  • 可互換部件的置換不變損失(評估所有有效排列并選擇最小損失方案)

該設計使模型能夠處理可變數量的輸入部件,適應視覺相似/對稱部件,以及泛化到訓練集上未見過的新物體。

階段 III: 機器人裝配動作生成與執行

最終階段將預測位姿轉化為真實世界的機器人動作,實現裝配計劃的自主執行。我們在這一階段使用基于啟發式的抓取策略和穩健的運動規劃算法,讓機械臂抓取對應部件,并將其放置在預測位姿。

  • 抓取規劃與部件操控

我們使用 FoundationPose 與 SAM 估計場景中所有部件的初始位姿。根據部件幾何特征應用啟發式抓取策略:

  • 棒狀部件:沿主軸在質心處抓取。
  • 扁平薄片部件:使用夾具/平臺固定后沿邊界穩定抓取。

  • 運動規劃與執行

抓取后,機器人使用 RRT-Connect(基于采樣的運動規劃器)計算從當前位姿到目標位姿的無碰撞軌跡。所有其他物體被視為避障點云。通過錨定位姿在軌跡中段重新評估抓取部件位置,確保精確跟蹤與控制。

  • 裝配插入

最終部件插入是涉及精確對齊與力反饋的接觸密集型任務。由于閉環插入的復雜性,目前由人類專家完成。我們會在未來的研究中,整合觸覺與力傳感器實現自主插入。

實驗結果與分析

實驗在仿真與真實環境中對多款宜家家具進行,驗證 Manual2Skill 的魯棒性與有效性。

  • 層級化裝配圖生成



圖 2:層級化裝配圖生成結果

我們在 102 本真實宜家家具說明書上測試了我們提出的層級化裝配圖生成方法的表現,可以看出,對于簡單和中等復雜程度的家具(部件數 ≤ 6),我們的方法能比較準確地生成裝配圖,同時在所有復雜程度的家具上,我們的方法表現均顯著優于基線方法。盡管所有方法在復雜家具上表現受限,但隨著 VLM 性能的提升,我們方法的表現會隨之提升。



圖 3:層次化裝配圖可視化

  • 位姿估計

我們從 PartNet 數據集中選取了三類物體(椅子、臺燈、桌子),每類物體各 100 個,并且在 Blender 中渲染出這些物體部件組合的示意圖作為說明書圖片。



圖 4:位姿估計實驗結果

實驗結果表明,憑借多模態特征融合與 GNN 空間關系建模,本方法在全部四個評價指標上超越基線方法。



圖 5:位姿估計可視化

  • 仿真測試

在 50 件簡單至中等難度家具的仿真測試中,Manual2Skill 達成 58% 成功率,顯著超越現有啟發式方法,驗證了層級化裝配圖、位姿估計與運動規劃結合的有效性。

  • 實物實驗

我們在四款真實宜家家具(Flisat 凳、Variera 架、Sundvik 椅、Knagglig 箱)上測試了我們整套框架,體現了我們的框架在真實機器人裝配任務中的可行性和出色表現。



圖 6:真實世界家具裝配過程可視化









  • 零樣本擴展

本方法可零樣本推廣至輪軸、玩具飛機甚至機械臂等手冊引導式裝配任務,成功率 100%,彰顯 VLM-based 方案相比其他方法的泛化優勢。



圖 7:零樣本擴展可視化

結論與展望

本文提出Manual2Skill,一種開創性框架,通過 VLMs 使機器人能解析人工設計的視覺說明書并自主執行復雜家具裝配任務。通過引入層級化圖式指令解析與魯棒位姿估計,Manual2Skill 有效彌合了抽象說明書與物理執行之間的鴻溝。

Manual2Skill 提出了一種新的機器人學習范式,機器人可以從為人類設計的說明書中學習復雜長程的操作技能,相比起收集大量人工示范數據做模仿學習,顯著降低了復雜操作技能獲取的成本和復雜度。同時,說明書通過抽象圖表和符號表示傳達操作知識,這種抽象化的表達方式捕獲了操作過程的底層結構和核心邏輯,而非僅僅記錄表面的動作序列。這種深層次的理解使得獲得的技能能夠在不同的物體配置、環境條件和機器人實體間實現有效泛化。

參考文獻

[1] Yun-Chun Chen, Haoda Li, Dylan Turpin, Alec Jacobson, and Animesh Garg. 「Neural shape mating: Self-supervised object assembly with adversarial shape priors」. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12724–12733, 2022.

[2] Benjamin Jones, Dalton Hildreth, Duowen Chen, Ilya Baran, Vladimir G Kim, and Adriana Schulz. 「Automate: A dataset and learning approach for automatic mating of cad assemblies」. ACM Transactions on Graphics (TOG), 40(6):1–18, 2021.

[3] Mingxin Yu, Lin Shao, Zhehuan Chen, Tianhao Wu, Qingnan Fan, Kaichun Mo, and Hao Dong. 「Roboassembly: Learning generalizable furniture assembly policy in a novel multi-robot contact-rich simulation environment」. arXiv preprint arXiv:2112.10143, 2021.

[4] Zuyuan Zhu and Huosheng Hu. 「Robot learning from demonstration in robotic assembly: A survey」. Robotics, 7(2):17, 2018.

[5] Andrew Goldberg, Kavish Kondap, Tianshuang Qiu, Zehan Ma, Letian Fu, Justin Kerr, Huang Huang, Kaiyuan Chen, Kuan Fang, and Ken Goldberg. 「Blox-net: Generative design-for-robot-assembly using vlm supervision, physics simulation, and a robot with reset」. arXiv preprint arXiv:2409.17126, 2024.

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
女網最新戰報!袁悅首盤兵敗如山倒,2次被破發,大比分0-4落后!

女網最新戰報!袁悅首盤兵敗如山倒,2次被破發,大比分0-4落后!

劉姚堯的文字城堡
2025-06-13 20:13:08
68歲嗩吶演奏家、四川音樂學院教授張放逝世

68歲嗩吶演奏家、四川音樂學院教授張放逝世

澎湃新聞
2025-06-13 10:54:28
外媒分析:以色列為何此時對伊朗“動手”

外媒分析:以色列為何此時對伊朗“動手”

參考消息
2025-06-13 22:08:56
美國拿到稀土解禁令,不到24小時,白宮態度大變,中方被擺了一道

美國拿到稀土解禁令,不到24小時,白宮態度大變,中方被擺了一道

大白話瞰世界
2025-06-13 16:05:41
茅臺黃牛轉賣拉布布!泡泡瑪特199元新品炒至2500元

茅臺黃牛轉賣拉布布!泡泡瑪特199元新品炒至2500元

南方都市報
2025-06-13 16:19:11
股市永遠賺錢的一種人:只需死記"五個數字"10、20、50、60、721

股市永遠賺錢的一種人:只需死記"五個數字"10、20、50、60、721

股經縱橫談
2025-06-13 16:34:34
194票贊成!韓投票結果出來了,尹錫悅或被送進大牢?樸槿惠失聲

194票贊成!韓投票結果出來了,尹錫悅或被送進大牢?樸槿惠失聲

星辰故事屋
2025-06-13 12:20:28
好消息:中國防空導彈再次擊落戰機!壞消息:被擊落的是中國戰機

好消息:中國防空導彈再次擊落戰機!壞消息:被擊落的是中國戰機

荷蘭豆愛健康
2025-06-12 18:47:39
國務院原副總理耿飚長女,所有資產一夜被封后,撂下狠話出走美國

國務院原副總理耿飚長女,所有資產一夜被封后,撂下狠話出走美國

曉徙歷史
2024-12-12 16:00:23
白酒崩了!整個板塊全軍覆沒,貴州茅臺連跌一個月,這是怎么了?

白酒崩了!整個板塊全軍覆沒,貴州茅臺連跌一個月,這是怎么了?

八百者也
2025-06-13 13:24:28
母女倆共享私人訂制高考?那爾那茜被曝更大的瓜,其母爭議更大!

母女倆共享私人訂制高考?那爾那茜被曝更大的瓜,其母爭議更大!

青青子衿
2025-06-12 18:02:33
6月,重慶發生了4件極其反常的事!

6月,重慶發生了4件極其反常的事!

大衛聊地產
2025-06-13 11:58:59
臺灣地區“反賴大聯盟”成立,民眾黨黃珊珊卻與綠營政客頻繁密會

臺灣地區“反賴大聯盟”成立,民眾黨黃珊珊卻與綠營政客頻繁密會

埃文凱爾
2025-06-13 12:17:58
女子相親帶男閨蜜,男子一看上車就走,女子賴著不走,男子要報警

女子相親帶男閨蜜,男子一看上車就走,女子賴著不走,男子要報警

辣媒專欄記錄
2025-06-13 10:55:03
成都一裝修公司收預付款后跑路,超200名業主維權陷困局; 法院:已凍結企業賬戶

成都一裝修公司收預付款后跑路,超200名業主維權陷困局; 法院:已凍結企業賬戶

大風新聞
2025-06-13 14:18:10
伊朗剛做出反擊,沒想到導彈無人機被這國攔截,我國正式亮明立場

伊朗剛做出反擊,沒想到導彈無人機被這國攔截,我國正式亮明立場

DS北風
2025-06-13 19:21:09
太辛酸!47歲港星長沙街頭擺攤,含淚回應,曾9個月沒和人說話

太辛酸!47歲港星長沙街頭擺攤,含淚回應,曾9個月沒和人說話

侃侃娛季
2025-06-13 13:46:37
22萬開奧迪!5月萬人搶購的Q5L,真香還是智商稅?

22萬開奧迪!5月萬人搶購的Q5L,真香還是智商稅?

艾米手工作品
2025-06-13 12:13:31
正式加盟!你好,快船核心!又一支全套NBA世界強隊

正式加盟!你好,快船核心!又一支全套NBA世界強隊

籃球實戰寶典
2025-06-12 22:26:21
輸不起?26歲中國金花進8強卻遭對手訓斥!不滿其激動慶祝+叫聲吵

輸不起?26歲中國金花進8強卻遭對手訓斥!不滿其激動慶祝+叫聲吵

我愛英超
2025-06-13 02:50:03
2025-06-13 22:35:01
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10640文章數 142337關注度
往期回顧 全部

科技要聞

報志愿非得花上萬元找"張雪峰"?AI行不行

頭條要聞

媒體:伊朗支持的多組織都受重創 留給其的時間不多了

頭條要聞

媒體:伊朗支持的多組織都受重創 留給其的時間不多了

體育要聞

世界第一和他背后的智囊

娛樂要聞

宋茜壓軸風波升級!官方下場暗示順序

財經要聞

5月M2同增7.9% 前5個月存款增14.73萬億

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

藝術
親子
時尚
數碼
教育

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

親子要聞

你的聲音可能會決定孩子的一生

從功能到情緒:品牌如何接住這屆消費者的「心動信號」?

數碼要聞

盯盯拍推出 MINI Pro 3K 行車記錄儀:海思芯片,售價 199 元起

教育要聞

高考500分-580分,推薦報考這19所大學,畢業直接進央國企!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲成av人片天堂网| 午夜精品久久久久久| 色综合av综合无码综合网站| 成人无码小视频在线观看| 97国产露脸精品国产麻豆| 麻豆av字幕无码中文| 天天综合网在线观看视频| 国产高清色高清在线观看| 国产欧美国日产高清| 99久久国语露脸精品国产| 国产高跟黑色丝袜在线| 成年无码av片| 久久精品人人做人人综合试看| 亚洲 小说 欧美 另类 社区| 亚洲人成网站在线播放动漫| 成年女人午夜毛片免费视频| 国产精品va无码免费麻豆| 人妻在线无码一区二区三区| 精品亚洲国产成人av| 色综合久久天天综合| 少妇富婆高级按摩出水高潮| 黑人巨大videos极度另类| 成人午夜国产内射主播| 国产精品岛国久久久久| 国产粉嫩嫩00在线正在播放| 国产成人综合色视频精品| 少妇人妻大乳在线视频| 欧美亚洲综合久久偷偷人人| 久久免费99精品国产自在现线| 无码三级av电影在线观看| 国产成人无码精品xxxx| 99久久精品国产第一页| 性做久久久久久久久| 麻豆丰满少妇chinese| 无码欧精品亚洲日韩一区| 亚洲线精品一区二区三区影音先锋| 少妇粉嫩小泬白浆流出| 日本一区二区三区免费视频| 亚洲日韩精品一区二区三区无码| 国产一区二区三区小说| 麻豆国产精品va在线观看|