鷺羽 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
好家伙,機(jī)器人進(jìn)廠打工原視頻流出,整整60分鐘,完全未剪輯。
前幾天Figure 02曬1分鐘物流分揀視頻,網(wǎng)友們完全沒(méi)看夠啊。
于是Figure創(chuàng)始人立馬60分鐘進(jìn)廠打工vlog(未刪減版)奉上。
可靈活處理更多類型包裹,更接近人類水平的硬件運(yùn)動(dòng),仔細(xì)看機(jī)器人在工作時(shí),還會(huì)實(shí)時(shí)查看新數(shù)據(jù)來(lái)觀察學(xué)習(xí)。
可以很輕松地從一堆非結(jié)構(gòu)化的雜亂對(duì)象中抽出包裹,并在推走一個(gè)包裹的同時(shí),伸手去取另外一個(gè)包裹。
要知道,3個(gè)月前它還是這樣的:
短時(shí)間內(nèi)整體性能飛速提升,到底發(fā)生了什么?
剛剛官方同步釋出的完整技術(shù)解讀文檔來(lái)答疑解惑了。
受益于高質(zhì)量演示數(shù)據(jù)集的擴(kuò)展,以及對(duì)Figure自研的Helix神經(jīng)網(wǎng)絡(luò)的視覺(jué)電機(jī)策略(visuo-motor policy)進(jìn)行架構(gòu)改進(jìn),機(jī)器人在高速工作負(fù)載下的穩(wěn)定性得以長(zhǎng)足發(fā)展。
另外通過(guò)啟動(dòng)狀態(tài)感知和力感應(yīng),在不犧牲效率的情況下還全面增強(qiáng)了機(jī)器人的穩(wěn)健性和適應(yīng)性。
更多詳細(xì)技術(shù)細(xì)節(jié)如下。
數(shù)據(jù)擴(kuò)展
將前后兩次視頻對(duì)比,物流任務(wù)明顯擴(kuò)展至更多形態(tài)的包裹,除了標(biāo)準(zhǔn)的硬紙盒,現(xiàn)在還可以處理聚乙烯袋、信封和其它可折疊、皺縮或彎曲的物品。
這讓機(jī)器人完成包裹反轉(zhuǎn),并抓取和定位標(biāo)簽的難度陡然提升。
針對(duì)不同形態(tài)包裹,Helix采取即時(shí)調(diào)整抓取策略解決,例如碰到紙盒就雙手上下一翻,碰到信封則一只手扶住,另一只手輕輕捏住邊緣翻轉(zhuǎn)。
值得注意的是,機(jī)器人還會(huì)輕輕拍打塑料包裝以撫平起皺的貨物條形碼,這是機(jī)器人自己從演示中學(xué)習(xí)到的自適應(yīng)行為,側(cè)面凸顯出端到端學(xué)習(xí)的優(yōu)勢(shì)。
盡管包裹的形狀質(zhì)地都得以擴(kuò)展,還有新動(dòng)作的產(chǎn)生,但絲毫沒(méi)有影響工作效率。
實(shí)驗(yàn)表明,增加訓(xùn)練數(shù)據(jù)可以顯著提高吞吐量和準(zhǔn)確性,在10到60小時(shí)中,包裹的平均處理速度約為4.05s,吞吐量提高了58%,條形碼成功率也從88.2%升至94.4%。
總之,這些改進(jìn)都表明了這是一個(gè)更加靈巧和可靠的系統(tǒng),可以在廣泛的實(shí)際包裹中,更接近人類水平的速度和準(zhǔn)確性。
架構(gòu)改進(jìn)
研究團(tuán)隊(duì)對(duì)Helix的視覺(jué)電機(jī)策略的架構(gòu)進(jìn)行了針對(duì)性改進(jìn),引入了新的內(nèi)存和傳感模塊,能更好地幫助機(jī)器人感知環(huán)境變化。
具體來(lái)說(shuō),可以分為視覺(jué)記憶、狀態(tài)歷史、力反饋三個(gè)部分:
- 視覺(jué)記憶
Helix配備了一個(gè)新的內(nèi)存模塊,可以從系列視頻幀中組合特征,再形成短期視覺(jué)記憶。
例如,在初始攝像機(jī)圖像中沒(méi)有完全顯示標(biāo)簽,Helix就可以調(diào)用前一時(shí)刻的圖像幀,并控制手部將包裹旋轉(zhuǎn)至標(biāo)簽可見(jiàn)的記憶角度。
期間,機(jī)器人還可以記住它已經(jīng)檢查過(guò)的包裝側(cè)面,避免重復(fù)檢查,提高成功率。
從本質(zhì)上講,視覺(jué)記憶為Helix提供了時(shí)間背景感,可以更有效地通過(guò)多次小型旋轉(zhuǎn)或視點(diǎn)調(diào)整來(lái)查找條形碼位置。
- 狀態(tài)歷史
該策略在固定持續(xù)時(shí)間內(nèi)的動(dòng)作分塊(action chunk)中運(yùn)行,也就是將連續(xù)動(dòng)作序列分割為固定長(zhǎng)度的小段進(jìn)行規(guī)劃和執(zhí)行。
首先會(huì)觀察當(dāng)前狀態(tài)(手、軀干和頭部)并輸出一小段運(yùn)動(dòng)軌跡,反復(fù)重新觀察多次后,再將全部狀態(tài)合并輸入,以確保模塊間的連續(xù)性。
由于狀態(tài)歷史記錄保留了上下文,即使重新規(guī)劃或面對(duì)干擾,機(jī)器人仍能保持穩(wěn)健,例如當(dāng)包裹抓取失敗時(shí),Helix會(huì)以最小的延遲迅速糾正運(yùn)動(dòng),顯著縮短了處理時(shí)間。
- 力反饋
為了賦予Helix觸感,機(jī)器人施加在環(huán)境和目標(biāo)上的力,被反饋送至神經(jīng)網(wǎng)絡(luò)狀態(tài)輸入中,以幫助機(jī)器人動(dòng)態(tài)調(diào)整運(yùn)動(dòng)過(guò)程,例如當(dāng)它檢測(cè)到與傳送帶接觸時(shí),會(huì)暫停向下繼續(xù)運(yùn)動(dòng)。
通過(guò)一個(gè)閉合回路,Helix可以實(shí)現(xiàn)更精準(zhǔn)的控制,提高運(yùn)動(dòng)的成功率和一致性,也更能適應(yīng)不同形態(tài)重量的物流包裹。
在啟用新策略后,條形碼定向朝下的成功率提高到94%,平均處理時(shí)間降至4.05s,同時(shí)精度保持在92%以上。
另外,F(xiàn)igure 02除了可以完成自主分揀,其端對(duì)端模型還可以輕松建立人機(jī)交互。
無(wú)需單獨(dú)的程序或模式開(kāi)關(guān),僅通過(guò)神經(jīng)網(wǎng)絡(luò)的視覺(jué)調(diào)節(jié),當(dāng)站在一旁的人類伸出手,機(jī)器人就會(huì)自動(dòng)認(rèn)定這是交出物品的提示,并將包裹遞交給人類而不是傳送帶。
這反映了Helix神經(jīng)網(wǎng)絡(luò)的靈活性,只需少量演示,即可學(xué)習(xí)新的上下文相關(guān)行為。
One More Thing
視頻一出,F(xiàn)igure創(chuàng)始人的評(píng)論區(qū)就炸開(kāi)了鍋。
有網(wǎng)友樂(lè)見(jiàn)其成,贊嘆Figure不搞demo,直接放一小時(shí)視頻的自信。
有網(wǎng)友看到機(jī)器人參與物流工作帶來(lái)的效率和成本考量。
自然也少不了老生常談的話題:人類怎樣才能避免被機(jī)器人取代?
也有技術(shù)宅思考為什么物流機(jī)器人一定要仿人類外型,三頭六臂似乎效率更高。
當(dāng)然也少不了拿放大鏡看視頻的樂(lè)子人,致力于找機(jī)器人的茬。
也歡迎大家一起來(lái)找茬,或者在本評(píng)論區(qū)留下你的真知灼見(jiàn)。
參考鏈接:
[1]https://www.figure.ai/news/scaling-helix-logistics
[2]https://www.figure.ai/news/helix
[3]https://www.figure.ai/news/helix-logistics
[4]https://x.com/adcock_brett/status/1931391783306678515
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.