西風(fēng) 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
波士頓動(dòng)力帶機(jī)器人看世界,Altas重磅升級了!
現(xiàn)在,它具備3D空間感知實(shí)時(shí)物體追蹤能力,可以自主執(zhí)行更復(fù)雜的工業(yè)任務(wù)。
請看Altas在汽車工廠打工VCR:
視頻鏈接:https://mp.weixin.qq.com/s/05nJ-EY5z4KVbdZxGr0s1w
小哥故意將汽車零部件丟在地上,只見它360°轉(zhuǎn)動(dòng)頭部環(huán)顧四周,隨后成功識別并將其放入正確位置:
視頻鏈接:https://mp.weixin.qq.com/s/05nJ-EY5z4KVbdZxGr0s1w
(就是偷感好重,笑死)
故意移動(dòng)裝置位置,它也能精準(zhǔn)感知到變化
然后依舊穩(wěn)穩(wěn)地將零部件放入槽內(nèi):
頭部和腰部都可360°旋轉(zhuǎn),干起活來那叫一個(gè)麻利:
據(jù)介紹,Altas的一系列功能升級源于波士頓動(dòng)力團(tuán)隊(duì)對Altas感知系統(tǒng)進(jìn)行的全新設(shè)計(jì),融合了2D與3D感知技術(shù)、物體位姿追蹤,以及基于物理特性的精確校準(zhǔn)方案。
網(wǎng)友看到該新成果后紛紛叫好。光是官方在YouTube上發(fā)布的視頻就引來了十余萬人圍觀,點(diǎn)贊量近8k
網(wǎng)友紛紛表示Altas能夠觀察到物品掉落還會環(huán)顧四周觀察,這個(gè)能力非常炫酷。
還有網(wǎng)友表示迫不及待希望看到它們能夠在實(shí)際工作環(huán)境中投入使用。
除此之外,關(guān)于全新能力具體實(shí)現(xiàn),官方發(fā)布了技術(shù)Blog。
背后技術(shù)解析
波士頓動(dòng)力團(tuán)隊(duì)表示,拿起一個(gè)汽車零件并將其放入正確的插槽,這一看似簡單的任務(wù)對于機(jī)器人來說實(shí)際上并不容易。
它需要將這個(gè)任務(wù)拆解為多個(gè)步驟,而每個(gè)步驟都需要關(guān)于環(huán)境的廣泛知識
Altas得先檢測并識別物體,工廠中許多零件有的是金屬材質(zhì)的具有光澤感,有的對比度低顏色深暗,所以機(jī)器人攝像頭如何清晰區(qū)分就是一大挑戰(zhàn)。
然后,Altas需要推斷物體的位置進(jìn)行抓取,它是在桌子上敞開放置,還是在視線受限的容器內(nèi)?
拿起物體后,Altas還需要決定將其放置在何處以及如何送達(dá)該位置。
最后,Altas要精確放置物體,任何方向偏差幾厘米都可能導(dǎo)致物體卡住或掉落。
因此,它還要能在出現(xiàn)問題時(shí)采取糾正措施。
例如,若插入失敗,它可以利用基于工廠零件訓(xùn)練的基礎(chǔ)視覺模型的通用性和其本身大活動(dòng)范圍,搜索并從地面撿起掉落的零件。
下面具體來看波士頓動(dòng)力是如何解決這些問題的。
2D感知:環(huán)境中有哪些物體?
首先機(jī)器人需要具備2D感知能力,確定周圍的環(huán)境是否存在障礙物、目標(biāo)物體或地面風(fēng)險(xiǎn)。
波士頓動(dòng)力透露其2D物體檢測系統(tǒng)主要通過物體標(biāo)識、邊界框、關(guān)鍵點(diǎn)的形式,為機(jī)器人提供環(huán)境信息
比如在開頭所展示的Atlas存儲汽車零件的場景中,系統(tǒng)重點(diǎn)檢測存儲汽車零件的大型貨架這一固定裝置。
這些裝置形狀尺寸各異,Atlas需識別其類型并定位空間占位,以規(guī)避碰撞風(fēng)險(xiǎn)。除了檢測和識別所有固定裝置外,系統(tǒng)還將裝置邊角定義為關(guān)鍵點(diǎn),通過匹配內(nèi)部存儲的裝置模型,實(shí)現(xiàn)感知環(huán)境與虛擬模型的坐標(biāo)對齊。
而這其中,固定裝置的關(guān)鍵點(diǎn)是2D像素點(diǎn),分為兩種類型:
- 外部點(diǎn)(綠色):捕捉裝置外部輪廓,如貨架正面的四個(gè)邊角,用于快速定位裝置整體位置;
- 內(nèi)部點(diǎn)(紅色):數(shù)量更多且形式多樣,捕捉特定固定裝置內(nèi)貨架和小隔間的內(nèi)部分布,從而實(shí)現(xiàn)對單個(gè)插槽的精確定位。
另外,為了執(zhí)行固定裝置分類和關(guān)鍵點(diǎn)預(yù)測,Atlas使用了輕量級網(wǎng)絡(luò)架構(gòu),平衡了性能與實(shí)時(shí)感知能力,這對Atlas的敏捷性至關(guān)重要。
3D感知:物體相對于Atlas的位置在哪里?
接下來,Atlas若想精準(zhǔn)操作固定裝置內(nèi)的物體,必先明確自身與目標(biāo)裝置的相對空間關(guān)系。
其核心依賴基于關(guān)鍵點(diǎn)的固定裝置定位模塊,該模塊可實(shí)時(shí)估算Atlas相對于周圍所有裝置的位置與朝向
定位系統(tǒng)接收來自物體檢測流程的內(nèi)部、外部關(guān)鍵點(diǎn),通過最小化重投影誤差將這些關(guān)鍵點(diǎn)與預(yù)設(shè)空間分布模型對齊。
系統(tǒng)還會接收運(yùn)動(dòng)里程計(jì)數(shù)據(jù)(用于測量Atlas的移動(dòng)距離和方向),以便在統(tǒng)一坐標(biāo)系中融合固定裝置的位姿估計(jì),提升對關(guān)鍵點(diǎn)噪聲的魯棒性。
其中的一個(gè)關(guān)鍵挑戰(zhàn)是處理頻繁的遮擋和超出視野的關(guān)鍵點(diǎn)。例如,當(dāng)Atlas靠近某個(gè)固定裝置或視角傾斜時(shí),部分外部關(guān)鍵點(diǎn)可能不在視野內(nèi)或者不可靠。
這時(shí),定位系統(tǒng)轉(zhuǎn)而依賴固定裝置內(nèi)部插槽分隔線的拐角關(guān)鍵點(diǎn)(與物體取放直接相關(guān)的區(qū)域)來解決這一問題。
但這又帶來了2D關(guān)鍵點(diǎn)與3D拐角的關(guān)聯(lián)挑戰(zhàn),即圖像中的每個(gè)關(guān)鍵點(diǎn)對應(yīng)哪個(gè)3D拐角?
Atlas首先通過外部關(guān)鍵點(diǎn)進(jìn)行初步近似,從而對內(nèi)部關(guān)鍵點(diǎn)的關(guān)聯(lián)做出初步猜測,然后結(jié)合內(nèi)外部關(guān)鍵點(diǎn)生成更可靠的固定裝置及其所有插槽的位姿估計(jì)。
其次,部分固定裝置在視覺上完全相同,這種情況在工廠中非常常見,也給實(shí)際場景帶來了額外挑戰(zhàn)。
Atlas通過結(jié)合時(shí)間一致性和不同固定裝置間相對位置的先驗(yàn)知識(例如,假設(shè)裝置A位于裝置B右側(cè)半米處)來解決這一問題。
所有這些特性共同構(gòu)成了一個(gè)可靠且敏捷的固定裝置感知系統(tǒng)。
所以,當(dāng)有人移動(dòng)Atlas身后的固定裝置時(shí),機(jī)器人會迅速識別預(yù)期位置與實(shí)際位置的差異,重新定位裝置,并相應(yīng)地重新規(guī)劃行為。
物體位姿估計(jì):Atlas如何與物體交互?
接下來再看看,Atlas是如何與物體交互的。
據(jù)介紹,Atlas物體操作能力依賴于準(zhǔn)確、實(shí)時(shí)的以物體為中心的感知。其物體位姿跟蹤系統(tǒng)SuperTracker融合了多源信息,包括機(jī)器人運(yùn)動(dòng)學(xué)數(shù)據(jù)、視覺數(shù)據(jù),必要時(shí)還包含力反饋數(shù)據(jù)。
具體來說,來自Atlas關(guān)節(jié)編碼器的運(yùn)動(dòng)學(xué)信息可幫助確定Atlas的抓手在空間中的位置。當(dāng)Atlas識別出它已經(jīng)抓取到一個(gè)物體時(shí),這些信息為Atlas在移動(dòng)身體時(shí)物體應(yīng)該處于的位置提供了強(qiáng)有力的先驗(yàn)知識。
通過融合運(yùn)動(dòng)數(shù)據(jù),Atlas可以處理物體在視覺上被遮擋或不在攝像頭視野中的情況,并感知物體是否從抓手中滑落。
當(dāng)物體處于攝像頭視野內(nèi)時(shí),Atlas使用一種“渲染-比較”方法來估計(jì)單目圖像中的位姿,背后是一個(gè)物體位姿估計(jì)模型
該模型通過大規(guī)模合成數(shù)據(jù)訓(xùn)練而成,在給定CAD模型的情況下可對新物體進(jìn)行零樣本泛化。當(dāng)使用3D位姿先驗(yàn)初始化時(shí),模型會迭代地細(xì)化該先驗(yàn),以最小化渲染的CAD模型與捕獲的攝像頭圖像之間的差異。
此外,位姿估計(jì)器也可通過2D感興趣區(qū)域先驗(yàn)(如物體掩碼)初始化,隨后生成一批位姿假設(shè)并輸入評分模型,最終對最優(yōu)假設(shè)進(jìn)行優(yōu)化。
波士頓動(dòng)力透露,Atlas的位姿估計(jì)器已在數(shù)百種工廠資產(chǎn)上通過了可靠驗(yàn)證,這些資產(chǎn)均已在內(nèi)部完成建模和紋理映射。
SuperTracker將視覺位姿估計(jì)作為3D先驗(yàn)接收。在Atlas面臨的操作場景中,由于遮擋、部分可見性和光照變化,視覺位姿估計(jì)可能存在歧義。
為此,系統(tǒng)使用一系列濾波器驗(yàn)證位姿估計(jì):
- 自洽性:不依賴單一的位姿先驗(yàn),而是使用一批擾動(dòng)初始值,并通過基于最大團(tuán)的一致性算法驗(yàn)證輸出,確保收斂到相同的預(yù)測位姿;
- 運(yùn)動(dòng)學(xué)一致性:作為強(qiáng)制接觸的代理,拒絕任何導(dǎo)致手指與物體距離異常過大的預(yù)測位姿。
運(yùn)動(dòng)學(xué)和攝像頭輸入通過固定滯后平滑器異步處理。該平滑器接收來自Atlas關(guān)節(jié)編碼器的高速率運(yùn)動(dòng)輸入歷史,以及機(jī)器學(xué)習(xí)模型的低速率視覺位姿估計(jì),進(jìn)而確定最優(yōu)的6自由度物體軌跡。
校準(zhǔn):Atlas是否真的處于其“認(rèn)為”的位置?
波士頓動(dòng)力團(tuán)隊(duì)還強(qiáng)調(diào),在執(zhí)行精確操作任務(wù)時(shí),不能低估經(jīng)過良好校準(zhǔn)的手眼協(xié)調(diào)的重要性,即Atlas的“視覺感知”與“動(dòng)作執(zhí)行”之間精確可靠的映射關(guān)系。
上圖顯示了Atlas的機(jī)身內(nèi)部模型疊加在實(shí)時(shí)攝像頭畫面上的效果,其手臂、腿部和軀干與機(jī)器人“認(rèn)知”中的位置幾乎完全對齊。
而這背后是一套精心設(shè)計(jì)的攝像頭和運(yùn)動(dòng)校準(zhǔn)程序,用于補(bǔ)償機(jī)器人機(jī)身制造和組裝中的不精確性,以及因溫度變化或反復(fù)物理沖擊等外部因素導(dǎo)致的隨時(shí)間產(chǎn)生的物理變化。
波士頓動(dòng)力團(tuán)隊(duì)表示,根據(jù)他們的經(jīng)驗(yàn),“精確的手眼校準(zhǔn)是實(shí)現(xiàn)高性能操作和感知驅(qū)動(dòng)自主能力的關(guān)鍵前提”。
One More Thing
團(tuán)隊(duì)還透露了未來計(jì)劃——正專注于為Atlas構(gòu)建統(tǒng)一的基礎(chǔ)模型
未來的發(fā)展將超越傳統(tǒng)感知范疇,推動(dòng)感知與動(dòng)作從分離過程向融合過程轉(zhuǎn)變,實(shí)現(xiàn)從空間人工智能到“運(yùn)動(dòng)智能”的范式升級。
[1]https://bostondynamics.com/blog/making-atlas-see-the-world/
[2]https://www.youtube.com/watch?v=oe1dke3Cf7I
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.