本工作于 2024 年 11 月完成,目前已經(jīng)被 CVPR 2025 接收并評(píng)選為 Highlight,第一作者為龍宇星,導(dǎo)師為北京大學(xué)董豪老師。課題組致力于研究統(tǒng)一的物體表征操作研究,以實(shí)現(xiàn)具有可解釋性和泛化能力的物體操作策略。
自 19 世紀(jì)末愛(ài)迪生發(fā)明電燈以來(lái),電器的發(fā)展和革新不斷提升人類的生活水平。如今,電器已經(jīng)走進(jìn)千家萬(wàn)戶,成為我們的得力助手,與我們的生活密不可分。賦予機(jī)器人使用家電的能力具有重要的學(xué)術(shù)價(jià)值和廣闊的應(yīng)用前景。
目前在機(jī)器人操作領(lǐng)域,一般物體(如剛體和鉸接物體)的操作研究已經(jīng)取得一定進(jìn)展,但是現(xiàn)有操作策略主要執(zhí)行單步原子操作。對(duì)于設(shè)備(如家電)而言,必須按照正確順序和方式進(jìn)行多步操作,才能正確完成高層次任務(wù)。因此,參照說(shuō)明書(shū)進(jìn)行長(zhǎng)程操作規(guī)劃對(duì)于家電操作而言十分必要。
然而,受限于以下三大挑戰(zhàn),基于說(shuō)明書(shū)的長(zhǎng)程家電操作探索幾乎處于空白狀態(tài):
- 缺乏研究可用的家電說(shuō)明書(shū)和配套數(shù)字資產(chǎn):互聯(lián)網(wǎng)上的家用電器說(shuō)明書(shū)受到公司的版權(quán)保護(hù),難以用于學(xué)術(shù)研究。此外,這些真實(shí)說(shuō)明書(shū)沒(méi)有對(duì)應(yīng)的家電資產(chǎn)模型,無(wú)法滿足仿真評(píng)測(cè)需求。
- 缺乏洞察家電操作問(wèn)題的評(píng)測(cè)任務(wù):現(xiàn)有的家電操作評(píng)測(cè)任務(wù)仍然主要集中在對(duì)于原子動(dòng)作能力的評(píng)估,未充分考慮基于說(shuō)明書(shū)的長(zhǎng)程家電操作中存在的識(shí)別,規(guī)劃和執(zhí)行等復(fù)雜問(wèn)題。
- 缺乏基于說(shuō)明書(shū)的操作規(guī)劃模型:當(dāng)前的機(jī)器人家電操作模型主要實(shí)現(xiàn)單一的原子動(dòng)作,尚未具備結(jié)合說(shuō)明書(shū)內(nèi)容和高層任務(wù)指令進(jìn)行長(zhǎng)程操作規(guī)劃的能力。
為應(yīng)對(duì)上述挑戰(zhàn),北京大學(xué)聯(lián)合智元機(jī)器人團(tuán)隊(duì)提出了全新的家用電器操作評(píng)測(cè)基準(zhǔn) CheckManual,這是首個(gè)專為研究基于說(shuō)明書(shū)的家電操作而設(shè)計(jì)的評(píng)測(cè)框架
- 論文標(biāo)題:CheckManual: A New Challenge and Benchmark for Manual-based Appliance Manipulation
- 論文鏈接:http://arxiv.org/abs/2506.09343
- 項(xiàng)目主頁(yè):https://sites.google.com/view/checkmanual
- GitHub 鏈接:https://github.com/LYX0501/CheckManual
CheckManual 具有以下三個(gè)創(chuàng)新性優(yōu)勢(shì):
(1)圖片和文字內(nèi)容擬真的家電說(shuō)明書(shū)和多樣的數(shù)字資產(chǎn)
通過(guò)廣泛調(diào)研真實(shí)說(shuō)明書(shū)圖文內(nèi)容和格式,構(gòu)造超過(guò) 1100 份擬真的家用電器說(shuō)明書(shū)。說(shuō)明書(shū)中含有部位介紹圖,操作說(shuō)明圖,任務(wù)表格等豐富內(nèi)容,涵蓋 11 類共計(jì) 182 種生活中常見(jiàn)家電的數(shù)字資產(chǎn)。
(2)契合實(shí)際要求的一系列全新評(píng)測(cè)任務(wù)
針對(duì)基于說(shuō)明書(shū)的家電操作任務(wù)需求,設(shè)計(jì)三種不同導(dǎo)向的評(píng)測(cè)任務(wù),全方位評(píng)測(cè)模型在說(shuō)明書(shū)理解,操作規(guī)劃,以及動(dòng)作執(zhí)行上的能力。
(3)首個(gè)基于說(shuō)明書(shū)的操作規(guī)劃模型 ManualPlan
提出第一個(gè)基于說(shuō)明書(shū)的操作規(guī)劃模型,能夠理解任務(wù)指令中關(guān)鍵信息,解析說(shuō)明書(shū)內(nèi)容,并規(guī)劃部件層次的具體操作。
CheckManual 介紹
(一)家電說(shuō)明書(shū)自動(dòng)化生成和人工校驗(yàn)
Figure 1. CheckManual 說(shuō)明書(shū)生成管線
(1)準(zhǔn)備階段(Figure 1 左):首先從互聯(lián)網(wǎng)收集 110 份來(lái)自不同國(guó)家和地區(qū)的電器說(shuō)明書(shū),分析發(fā)現(xiàn)說(shuō)明書(shū)中功能性部件通常通過(guò)點(diǎn) - 線格式標(biāo)注,操作方法導(dǎo)則通過(guò)純文本、多模態(tài)圖示(包括部件放大圖和部位移動(dòng)示意圖)等多種方式進(jìn)行介紹。此外,從 PartNet-Mobility 數(shù)據(jù)集篩選總共包括 11 類共計(jì) 182 個(gè)家電 CAD 模型,包括洗衣機(jī),冰箱,微波爐等常見(jiàn)家用電器,用于說(shuō)明書(shū)生成。
(2)說(shuō)明書(shū)素材創(chuàng)造階段(Figure 1 中):根據(jù)規(guī)則自動(dòng)生成關(guān)于家用電器的部位點(diǎn) - 線注釋圖,并通過(guò)多模態(tài)大模型根據(jù)家電的類別和外觀特點(diǎn)編寫(xiě)每個(gè)部位的功能和狀態(tài)類型。在此基礎(chǔ)上,進(jìn)一步采用大語(yǔ)言模型編寫(xiě)家用電器支持的操作任務(wù)和詳細(xì)的引導(dǎo)步驟。為了保證大模型生成內(nèi)容正確合理,對(duì)所有生成結(jié)果都進(jìn)行仔細(xì)的人工檢驗(yàn),并對(duì)不合理的部分進(jìn)行重編寫(xiě)。此外,自動(dòng)化生成說(shuō)明書(shū)封面,操作方法說(shuō)明,警告標(biāo)識(shí)等內(nèi)容作為說(shuō)明書(shū)的圖片內(nèi)容。
(3)說(shuō)明書(shū)生成階段(Figure 1 右):所有先前階段生成的文字內(nèi)容和圖片鏈接都通過(guò)大語(yǔ)言模型整合成格式多樣的 LaTex 代碼,這些代碼進(jìn)一步被編譯成 PDF 格式的家電說(shuō)明書(shū)。在 Figure 2 中展示來(lái)自 CheckManual 數(shù)據(jù)集的家電說(shuō)明書(shū)示例。
根據(jù)統(tǒng)計(jì)分析,CheckManual 數(shù)據(jù)集中共包含 1107 份不同內(nèi)容的說(shuō)明書(shū),涵蓋 2211 個(gè)不同的可操作部位,1464 個(gè)關(guān)于家用電器的操作任務(wù)。該數(shù)據(jù)規(guī)模和多樣性可以有效支撐基于說(shuō)明書(shū)的家用電器操作任務(wù)評(píng)測(cè)需求。
Figure 2. 來(lái)自 CheckManual 數(shù)據(jù)集的家電說(shuō)明書(shū)示例
(二)CheckManual 仿真環(huán)境評(píng)測(cè)任務(wù)
基于 CheckManual 數(shù)據(jù)集,團(tuán)隊(duì)提出一系列針對(duì)基于說(shuō)明書(shū)的家用電器操作規(guī)劃和執(zhí)行的評(píng)測(cè)任務(wù),它們分別是說(shuō)明書(shū) - CAD 模型 - 家電對(duì)齊的操作規(guī)劃任務(wù),基于說(shuō)明書(shū)和 CAD 模型的操作執(zhí)行任務(wù)以及完全基于說(shuō)明書(shū)的操作執(zhí)行任務(wù)。這些任務(wù)的可用輸入和預(yù)測(cè)目標(biāo)如 Table 1 所示。關(guān)于任務(wù)詳細(xì)定義和評(píng)測(cè)指標(biāo)介紹請(qǐng)參考論文。
Table 1. CheckManual 數(shù)據(jù)集評(píng)測(cè)任務(wù)的可用輸入和預(yù)測(cè)目標(biāo)
(三)基于說(shuō)明書(shū)的家電操作規(guī)劃模型 ManualPlan 和動(dòng)作執(zhí)行
Figure 3. ManualPlan 家電操作規(guī)劃模型
針對(duì)基于說(shuō)明書(shū)的家用電器操作任務(wù),團(tuán)隊(duì)設(shè)計(jì) ManualPlan 模型。該模型首先采用 OCR 和多模態(tài)大模型對(duì)說(shuō)明書(shū)文字內(nèi)容和視覺(jué)內(nèi)容進(jìn)行提取和解析,然后 ManualPlan 根據(jù)任務(wù)指令規(guī)劃出詳細(xì)的操作步驟。為了便于后續(xù)操作執(zhí)行,模型進(jìn)一步根據(jù)說(shuō)明書(shū)示意圖,將電器部件名稱和相機(jī)觀測(cè)視野中的部件對(duì)齊。由此模型可以預(yù)測(cè)每個(gè)部件的操作順序和操作方式。
ManualPlan 的預(yù)測(cè)結(jié)果既可以控制基于家電 CAD 模型的操作原子動(dòng)作,也可以控制如 VoxPoser 這樣的開(kāi)放詞匯操作模型來(lái)實(shí)現(xiàn)與家用電器的真實(shí)交互,從而完成家用電器操作任務(wù)。
Table 2. CheckManual 數(shù)據(jù)集評(píng)測(cè)結(jié)果
團(tuán)隊(duì)分別在 CheckManual 數(shù)據(jù)集上評(píng)測(cè) ManualPlan 的操作規(guī)劃能力,以及基于原子技能和開(kāi)放詞匯操作模型 VoxPoser 的家用電器操作執(zhí)行能力。Tabel 2 中 Track 1 的評(píng)測(cè)結(jié)果按照「對(duì)齊成功率 / 任務(wù)規(guī)劃成功率」呈現(xiàn),Track 2 和 3 的結(jié)果按照「完成率 / 成功率」呈現(xiàn)。
從實(shí)驗(yàn)結(jié)果中可以觀察到,說(shuō)明書(shū)有效提升操作規(guī)劃的成功率,但長(zhǎng)程家電操作對(duì)現(xiàn)有 - 原子動(dòng)作和開(kāi)放詞匯操作模型而言仍然十分有挑戰(zhàn)性。長(zhǎng)程操作中的錯(cuò)誤累積使得家用電器操作成功率仍然有巨大的提升空間,值得未來(lái)更加深入的研究。
以下展示 ManualPlan 在真實(shí)世界中操控家電完成長(zhǎng)程任務(wù)的效果。
Figure 4. ManualPlan 操作電飯煲「煮小米粥」
Figure 5. ManualPlan 控制微波爐「加熱牛排」
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.