重新發(fā)明了汽車,但還沒造出可用的輪子。
文丨李梓楠
制圖丨黃幀昕
編輯丨賀乾明 黃俊杰
今年 4 月中旬,特斯拉采購團隊來到寧波一家供應(yīng)商的廠區(qū),做人形機器人量產(chǎn)前的最后一次審廠。門口一輛車上,盯梢的人對上了車牌,拍下照片發(fā)給 “上線”:“特斯拉來審廠了。”
值得這么麻煩。第二個交易日,這家公司股價照例漲停。從特斯拉 2022 年 10 月第一次對外展示人形機器人至今,A 股機器人概念板塊漲了 93%,同期滬深 300 指數(shù)只上漲約 1%。
一周后,數(shù)千個組裝完成的核心零部件在寧波裝船,頂著高昂關(guān)稅,發(fā)往美國加州弗里蒙特的特斯拉工廠。
這里沒有一點萬億概念板塊的樣子。弗里蒙特工廠二樓的機器人制造專區(qū),沒有手臂和腦袋的機器人系著鐵鏈,掛在架子上。工程師測試完零件后,會把它們手工拼裝成新款人形機器人。地面上散落著電線和塑料包裝。
自特斯拉 2022 年亮相機器人后,全球的風(fēng)險投資者、特斯拉及供應(yīng)商已為此投入超過 1000 億元。到目前為止,人形機器人的生產(chǎn)比勞力士機械表還要手作。據(jù)我們了解,特斯拉下的零部件訂單,只要求今年交付不少于 5600 套。中國公司中,宇樹今年預(yù)計出貨約 4000 臺,智元預(yù)計賣出超千臺。按照目前的進展,今年全球人形機器人行業(yè)預(yù)計出貨近 2 萬臺,大約是勞力士一個星期的產(chǎn)量。
從完全遙控參與的北京亦莊機器人馬拉松、宇樹機器人拳擊賽,到特斯拉自己公布的機器人倒垃圾、清理桌面視頻。人形機器人還遠(yuǎn)不是科幻片里想象的靈活形象,也沒有在任何一個工廠被證明有直接替代藍領(lǐng)工人的效率。
但期望已經(jīng)被打滿,不只因為股票市場的投機,也因為人們確實期望技術(shù)能解決現(xiàn)實困境??Х鹊辍⒛滩璧辏贻p店員忙到崩潰已經(jīng)成為一種新聞模板,工廠招不到年輕人也早已不是歐美獨有的問題。對便宜商品的渴望,對重復(fù)工作的厭惡,不知疲倦的機器人看著像是最容易的解法。
大規(guī)模生產(chǎn)還沒開始,但跨越國境,幾千工程師已經(jīng)忙活了好幾年。一位接近特斯拉機器人關(guān)鍵供應(yīng)商三花智控的人士說,特斯拉美國工程師現(xiàn)在每天工作 16 個小時,很多供應(yīng)商也是按照同樣的節(jié)奏工作。以至于雙方每天有 8 小時交集,毫無時差問題。
去年底, 特斯拉終于與部分供應(yīng)商簽訂供貨協(xié)議。這是一個實驗品走出實驗室,走向工廠變成嚴(yán)肅工業(yè)品的關(guān)鍵一步。它的 Optimus 也是唯一一個進入量產(chǎn)階段、可以說有完整供應(yīng)鏈的人形機器人。
過去半年,我們訪談了 30 多位人形機器人相關(guān)從業(yè)者,有特斯拉員工和它的供應(yīng)鏈人士,也有中國的創(chuàng)業(yè)者和相關(guān)分析師,我們以特斯拉機器人的研發(fā)、生產(chǎn)為例,呈現(xiàn)人形機器人作為一個產(chǎn)品和產(chǎn)業(yè)的現(xiàn)實。
用精密制造還原血肉之軀
人體是人類科學(xué)目前無法企及的精妙設(shè)計。比如當(dāng)你俯身抱起 20 公斤的大箱子,全身肌肉都會參與聯(lián)動:力從腳底開始,腳踝關(guān)節(jié)微曲,讓重心下沉,大小腿的肌群隨即接管;腰腹部的深層核心肌肉鎖住腰椎,防止損傷;當(dāng)雙手抱住箱子時,肩胛已經(jīng)收緊,為手臂提供支點;起身則是腿和臀一同上蹬,將力量沿著軀干、肩胛送到前臂,讓箱子平穩(wěn)離開地面。而控制這一切,人的大腦基本都不太需要工作。
人形機器人不能像人一樣裝 600 多個電機再協(xié)作,這太過于復(fù)雜。不算最復(fù)雜的雙手,一臺特斯拉最新第三代機器人的動作,完全靠約 30 個執(zhí)行器完成。
你可以把執(zhí)行器想象成機器人的肌肉,任何運動都是執(zhí)行器把電能轉(zhuǎn)換成動作的過程。這也是機器人最貴的部分,執(zhí)行器占整個機器人 55% 的硬件成本。
之前,幾乎所有人形機器人的執(zhí)行器都是旋轉(zhuǎn)關(guān)節(jié),用單個電機讓手腕或者膝蓋翻轉(zhuǎn),多個關(guān)節(jié)聯(lián)動就能行走、抓取。這項技術(shù)路徑明確,零件都是現(xiàn)成的:一個關(guān)節(jié)里,電機經(jīng)減速器放大扭矩并帶動軸承;編碼器把運動反饋成電信號,力矩傳感器監(jiān)測載荷。但旋轉(zhuǎn)關(guān)節(jié)有個致命弱點——沒法干活,因為力量來自電機的扭矩,在人類體積下,扭矩有限,于是承重受限。
特斯拉改用直線關(guān)節(jié):電機繞絲杠旋轉(zhuǎn),把旋轉(zhuǎn)變成直線推拉,像擰螺絲。絲杠既當(dāng) “骨頭” 也當(dāng) “肌肉”。普通絲杠摩擦大、精度差,業(yè)界在螺紋里加滾珠,把滑動摩擦變滾動摩擦,卻仍撐不起所需重量。
工程師于是把滾珠換成數(shù)十根小螺桿,讓它們環(huán)繞主絲杠滾動、自轉(zhuǎn),像行星繞太陽,既減摩擦又增加承載力,才滿足直線關(guān)節(jié)的力量和精度要求。
這就是行星滾柱絲杠,目前特斯拉選定的供應(yīng)商包括舍佛勒、新劍傳動和北特科技。特斯拉在 2023 年展示,人形機器人腿部的直線執(zhí)行器可以掛住半噸重的鋼琴。
行星滾柱絲杠 來源:優(yōu)仕特精密的 Youtube 視頻。
左為旋轉(zhuǎn)執(zhí)行器,右為直線執(zhí)行器。來源:特斯拉。
滾柱絲杠保證機器人的操作具備足夠精度,且機械結(jié)構(gòu)足夠強韌。但要讓機器人有足夠的力氣,還要加裝另一個同樣關(guān)鍵的部件——減速器。
高速轉(zhuǎn)動的小齒輪帶動減速器的大齒輪,能在降低轉(zhuǎn)速的同時,放大小齒輪的扭力,控制機器人發(fā)出的力道。特斯拉目前使用的 RV 減速器最高可以把電機輸出的扭力放大 200 倍,供應(yīng)商為哈默納科和綠的諧波。
哈默納科減速器。來源:哈默納科官網(wǎng)。
執(zhí)行器人形機器人的肢體有足夠的自由度,可以盡可能模擬人的操作。要讓它站穩(wěn)、學(xué)會走路,還要給機器人加裝陀螺儀、力傳感器、速度傳感器和控制器。
直到現(xiàn)在,所有人形機器人都無法做到安靜行走,它們每走一步,腳都會重重砸向地面,沒有公司能做到精確控制機器人行走時腳的力度。不少公司選擇給機器人穿上鞋來緩沖。
很多機器人的腳是一塊鐵板,無法精確感知行走時路面的反饋,工程師的解決思路是在腳踝上安裝六維力傳感器,感受重心變化。
六維力傳感器的工作方式與電子秤類似,但更復(fù)雜。它通過內(nèi)部三根交叉的彈片的變形程度來測量三個方向產(chǎn)生的不同的壓力,彈片每壓彎一些,傳導(dǎo)出的電信號就增強一些,反饋給控制器,轉(zhuǎn)化成電機可以理解的語言,確定向哪個方向轉(zhuǎn)動,速度是多少。目前業(yè)內(nèi)最先進的六維力傳感器對力距的測量誤差小于 0.2%。
六維力傳感器售價超過 1.2 萬元人民幣,對大部分機器人公司來說太貴了。特斯拉等公司意圖優(yōu)化軟件來替代它,但還沒人成功。目前特斯拉采用的六維力傳感器來自美國得州的合成材料公司 ATI(和 AMD 收購的加拿大 GPU 芯片公司 ATI 沒什么關(guān)系)。
ATI 的六維力傳感器。來源:ATI。
讓機器人能夠像人一樣使用各種工具,關(guān)鍵在于手。人手有 27 個自由度(關(guān)節(jié)能向 27 個方向單獨彎曲或旋轉(zhuǎn))、行動靈活,遍布高敏感的觸覺神經(jīng),力控能力強大。一位靈巧手公司創(chuàng)始人說,靈巧手的復(fù)雜度比機器人其余硬件加起來都復(fù)雜。目前主流的人形機器人自由度在 20~50 個,而靈巧手的自由度就有 20 個以上。
特斯拉機器人團隊專門設(shè)置了靈巧手部門,與運動控制等部門同級。過去三年多,特斯拉的工程師嘗試了至少三種差別極大的方案模擬人手,小改動不計其數(shù)。
特斯拉 2024 年 10 月亮相的第三代 Optimus 靈巧手。來源:特斯拉。
現(xiàn)在特斯拉用鋼絲制成的繩驅(qū)來模仿人手肌肉組織,他們希望盡量減少機器手運動時產(chǎn)生的動力損耗和遲滯。
工程師們把提供力量的電機放置到手腕里,電機連著鋼絲來控制手指彎曲伸展,原理類似提線木偶,目前已經(jīng)復(fù)刻出至少 22 個自由度。
傳感器是模擬人類感知能力的關(guān)鍵。業(yè)內(nèi)相對成熟的新型傳感器是柔性力傳感器——所謂電子皮膚。通過把諸多微型力傳感器集成到柔軟的材料上,以模擬皮膚的觸覺。力傳感器在電子皮膚上的排列方式類似于像素點在顯示屏上的排列,力傳感器密度越高,它對物體輪廓、摩擦力的感知就越細(xì)致。
電子皮膚供應(yīng)商帕西尼可以做到在食指第一節(jié)指腹放置超過 100 個力傳感器。一家國內(nèi)的電子皮膚公司創(chuàng)始人說,他們能讓機器手摸清楚雞胸肉后面雞骨頭的位置和輪廓。目前大部分機器人公司都只在機器人指頭和手掌處使用電子皮膚。
最后,旭升股份和拓普提供的鋁合金結(jié)構(gòu)件最終將各個關(guān)節(jié)部位連接起來,做成人的樣子,就構(gòu)成了特斯拉人形機器人的基礎(chǔ)形狀。
特斯拉等公司還仍在探索更多新型傳感器模擬人的感知能力。供應(yīng)商們萌生了很多新奇想法,如用類似煙霧報警器的技術(shù)制造嗅覺傳感器,用電子羅盤制造位置傳感器,但少有公司把它們用到產(chǎn)品中。
幾百家供應(yīng)鏈公司的全新冒險
2022 年上半年,特斯拉美國的汽車制造生產(chǎn)(Manufacturing Production)部門陸續(xù)聯(lián)系全球數(shù)百家公司,要求研發(fā)、生產(chǎn)特定零部件。
其中有一些全球領(lǐng)先的老牌精密制造公司,有為月球車造零件的日本諧波減速器制造商哈默納科、德國數(shù)控機床公司舍佛勒、做了 80 年傳感器的美國霍尼韋爾、精密軸承制造商日本精工等。
還有數(shù)百家中國公司收到了邀請——主要是特斯拉的汽車零部件供應(yīng)商。特斯拉的工程師列出數(shù)百種零件的規(guī)格要求,讓供應(yīng)商報價、送樣,但沒說用在哪里。一家當(dāng)時只有 20 人的中國觸覺傳感器創(chuàng)業(yè)公司也接到了問詢,他們以為是用于汽車座椅按鈕。
很快供應(yīng)商們就發(fā)現(xiàn)了這次的訂單不同尋常:零部件設(shè)計在快速迭代,有時半個月就改一版;精度要求比以往的汽車訂單高很多,有的公司自己怎么也搞不定,最后還是特斯拉的工程師給了解決辦法。
等到那年 10 月 1 日,渾身外露電線和風(fēng)扇的第一代 Optimus 機器人在特斯拉 AI Day 登臺,一些公司到此時才知道自己參與了人形機器人的研發(fā)。發(fā)布會上,馬斯克允諾這將是 100 億臺保有量的超級生意,會改變?nèi)蚪?jīng)濟結(jié)構(gòu)。
難度在于馬斯克不接受波士頓動力等公司過去 30 年的設(shè)計思路,要求做到擬人:
- 身高、體重要接近成年人,不能只有 1.3 米高;
- 可以筆直站立的兩條腿,不是輪子,也不能像波士頓動力機器人一樣為平衡永遠(yuǎn)彎曲;
- 手臂末端得有能靈活運動的 10 根手指,而不是一個圓形鐵球或夾爪。
他認(rèn)為,只有把機器人造得像人,機器人才能使用人類的工具,出入一切為人類設(shè)計的工作空間,于是得到更廣泛的使用,實現(xiàn)規(guī)模化從而降低成本,進入正向的商業(yè)循環(huán)。這和他造火箭是一個思路。
“最開始很糾結(jié),如果你不信,別人信了,那機會就是別人的,你不僅要信,還要信得比別人早。” 一位參與研發(fā)的供應(yīng)商的高管說。到現(xiàn)在他們公司已經(jīng)為此累計投入超過 50 億元。
三花智控和拓普集團是最支持特斯拉的供應(yīng)商。過去 10 多年,依靠與特斯拉的合作,從小型汽車零部件公司成長為千億市值公司。
“鄔建樹(拓普集團創(chuàng)始人)歲數(shù)很大了,在公司內(nèi)部復(fù)盤自己的職業(yè)生涯說,核心就是 ‘財運好’,抱上了特斯拉這個新能源時代最粗的大腿,拓普的戰(zhàn)略就是相信特斯拉,相信馬斯克?!?一位接近拓普的人士說。
給特斯拉供貨不僅意味著訂單,還有技術(shù)扶持。特斯拉幾乎重新設(shè)計了機器人用到的 6 種電機,提升功率密度,讓 Optimus 變得更瘦更輕的同時,力氣更大。
一位知情人士稱,一家特斯拉選定的供應(yīng)商做了兩年無框力矩電機,依然無法滿足特斯拉要求,特斯拉就把圖紙和技術(shù)方案授權(quán)給他們,讓他們代工生產(chǎn)。
“做機器人面罩的塑料沒有技術(shù)含量。但你能做特斯拉的生意,那就不一樣?!?一位二級市場投資人說。目前仍有數(shù)十家公司持續(xù)給特斯拉送樣,以期成為供應(yīng)商。
一些公司送樣只是為了得到特斯拉對樣品的反饋,知道零件技術(shù)參數(shù)的要求。這可能幫他們成為其他人形機器人公司供應(yīng)商。
供應(yīng)商們將這場行動形容為跑馬拉松——持續(xù)有人掉隊,掉隊的人失去機會,可能再也追不上。因為技術(shù)和設(shè)計一直在迭代,哪怕只有一輪迭代沒跟上,就無法進入新的開發(fā)階段。
到現(xiàn)在,整個供應(yīng)鏈數(shù)百家公司已經(jīng)陪特斯拉做了三年機器人硬件開發(fā),搭起了第一條完整的人形機器人供應(yīng)鏈。宇樹、波士頓動力等公司都自己設(shè)計并制造大量零部件,很少大規(guī)模外采關(guān)鍵零件。他們也很難像特斯拉這樣得到整條供應(yīng)鏈的鼎力支持。
6 萬美元的成本,敵不過月薪 5000 元的工人
特斯拉正在同時生產(chǎn)第二代和第三代人形機器人,第三代產(chǎn)品硬件設(shè)計 80% 已經(jīng)定型。這并不意味著這 80% 的零件已經(jīng)足夠好,無需改進,而是以現(xiàn)有的加工能力和相對可接受的成本下,能做到的程度。具體是這樣的:
- 身高 1.72 米,體重 55 公斤,自由度是人類的五分之一,有 50 個以上可以活動的關(guān)節(jié)。
- 身體骨架由鋁合金制成,外殼是 peek 樹脂材料,抗拉伸強度是鋼鐵的 2 倍,但更輕。
- 胃里裝著十多節(jié)圓柱電池,滿電情況下能支撐它工作 5 個小時,和人吃飽飯后的工作時長接近。
- 頭部、胸口都遍布攝像頭當(dāng)眼睛,特斯拉堅持純視覺路線,機器人依靠攝像頭傳輸?shù)膱D像信息識別周圍。但也有公司給機器人加上激光雷達。
- 驅(qū)動手指的電機都放置在直徑和成人手臂相當(dāng)?shù)那氨壑?,五指承載力為 5 公斤 。
- 雙臂大概能搬動 20 公斤的重物,這已經(jīng)高于中國《職業(yè)病防治法》對工人最多搬運 15 公斤重物的要求。
- 一小時能走 8~10 公里,和人類小跑速度相當(dāng),但有可能會摔倒,第二代測試時只有 60% 能走完 1.5 公里不摔倒。
- 神經(jīng)系統(tǒng)由內(nèi)部的電線和局部以太網(wǎng)構(gòu)成,傳輸速度遠(yuǎn)低于人類神經(jīng),且因為傳感器技術(shù)尚不完善,機器人神經(jīng)傳輸?shù)碾娦盘柋热祟惿窠?jīng)簡單很多。
按照上述硬件方案,特斯拉最新的人形機器人造價大概是 6 萬美元。離馬斯克追求的 2 萬~3 萬美元還有很大差距。并不是說 6 萬美元買個機器人就能一直用。
一個關(guān)鍵問題是關(guān)節(jié)里的行星滾柱絲杠一根單價超過 4000 元,而每臺機器人需要 14 根,裝在大腿、手臂上。
特斯拉對行星滾柱絲杠的要求是滾完 3.15 厘米的距離后,位置的誤差小于 6 微米,誤差值只有總長度的 1/50000——允許的誤差空間,連細(xì)菌都鉆不進去。
價格更低,絲杠精度就會降低,這會讓機器人運動時產(chǎn)生震動和異響,就像人類骨骼錯位會發(fā)出聲音。多余的震動和摩擦?xí)档完P(guān)節(jié)的使用壽命。
有供應(yīng)鏈公司人士說,最初只有舍弗勒的滾柱絲杠能滿足特斯拉的工程要求。但這個關(guān)鍵零件的產(chǎn)能也是問題。一位曾給特斯拉送樣的絲杠供應(yīng)商說,去年底他們工廠每個月只能生產(chǎn) 300 根符合要求的行星滾柱絲杠,只夠造 10 多臺機器人。
為了平衡成本和產(chǎn)能,特斯拉機器人去年底降低滾柱絲杠的精度要求,從 C0 級下調(diào)至 C3 級,削減一半的絲杠成本。
特斯拉最近發(fā)布的視頻顯示,第三代人形機器人能靈活跳芭蕾,也會使用多種工具完成任務(wù),如拿鍋鏟炒菜、撕廚房紙、用刷子清理桌面、掀開垃圾桶蓋丟垃圾。但這只是精心挑選的視頻片段,加速后效率也遠(yuǎn)遠(yuǎn)比不上正常人。
特斯拉發(fā)布的原速視頻與加速對比。來源:特斯拉視頻截圖。
每個零件運轉(zhuǎn)時產(chǎn)生的誤差會互相影響,最終讓機器人摔倒。零件越輕,關(guān)節(jié)運動時慣性越小,算法對操作的控制精確度就會越高。
Optimus 最像人的地方可能是長時間工作后會疲憊。機器人長時間工作時,關(guān)節(jié)中的電機和減速器溫度會超過 70 度,會因為過熱而降頻。機器人采用的電機參數(shù)與無人機電機類似,但無人機可以通過氣流散熱,機器人不行。
這本質(zhì)上是材料問題,“要讓電機不發(fā)熱,就得降低電阻,換言之,需要室溫超導(dǎo)材料,才能完全解決電機發(fā)熱問題?!?一位電機工程師說。
一位機器人公司高管稱,Optimus 在汽車工廠工作的平均速度只有人類的 20%~30%,極個別簡單動作能到人類速度的 60%。
60000 美元一臺的機器人不只是效率比人低,它的實際成本也遠(yuǎn)遠(yuǎn)高過造價。
從走路到拿東西,機器人的運動及與物體的碰撞,都會磨損機體,而且不會像人體那樣自我修復(fù)。比如諧波減速器等精密器件的使用壽命普遍為 8000 小時,8 小時工作制下能用不到 3 年,但壞了只能換。行星滾柱絲杠的使用壽命更低。
特斯拉當(dāng)前的方案解決了手指動作的連貫性難題,但也削弱了手指的力量,整個結(jié)構(gòu)的負(fù)載能力都要靠鋼絲和電機支撐,且連接手指和手腕的鍵繩很容易斷。
“目前市場上能買到的靈巧手,最大的問題還不是不夠 “靈巧”,而是不耐摔?!?一位機器人工程師說,因為算法缺陷難,大部分靈巧手的大拇指、小拇指都難以感應(yīng)手放下來的力度,導(dǎo)致磕壞。
質(zhì)量差的靈巧手只能連續(xù)用一個月左右,好一點的能撐三個月。而且靈巧手摔壞很難維修,只能換。中國公司現(xiàn)在能把 20 個自由度靈巧手的單價壓到 5 萬人民幣,兩只手每三個月?lián)Q一次成本是 10 萬。一位靈巧手公司創(chuàng)始人說,他們正在想辦法把飛機機翼上的高強度材料用到機器人手上,讓它更耐摔。
硬件天花板下的 AI 賭注
硬件很難在短時間內(nèi)有大幅提升,許多人形機器人從業(yè)者希望用軟件解決硬件問題,讓機器人有更好的表現(xiàn)。
過去 70 年,機器人運動控制技術(shù)都由控制理論主導(dǎo)。波士頓動力是這一路線的代表,他們的機器人經(jīng)過數(shù)十年的優(yōu)化,可以翻跟頭。這些高難度肢體動作背后,實際上是機器人根據(jù)規(guī)則回放動作。
它的進步來自工程優(yōu)化,工程師畫出完美的行動軌跡,一遍遍校準(zhǔn)坐標(biāo),修正參數(shù),讓它的動作變得柔順高效,無限接近數(shù)學(xué)上的完美結(jié)果。
波士頓動力 Atlas 機器人 2017 年就已經(jīng)會后空翻。來源:波士頓動力。
過去十年,機器人行業(yè)引入強化學(xué)習(xí)技術(shù),訓(xùn)練機器人的運動控制算法,依托大量真實采集和仿真模擬生成的數(shù)據(jù)不斷強化機器人底層運動控制算法,讓它們更熟練地奔跑、跳舞,甚至像模像樣的格斗。
不過它的底層邏輯是用強化學(xué)習(xí)替代軟件規(guī)則運動控制,這種方式依然很難讓機器人產(chǎn)生真正的智能。
宇樹機器人已經(jīng)可以完成難度更高的側(cè)空翻。來源:宇樹科技。
一位人形機器人創(chuàng)業(yè)者舉了個例子,數(shù)萬次調(diào)試可以讓機器人可以熟練操控重心,學(xué)會行走。但如果你讓機器人端一個放著鐵球的箱子行走,算法教給它的能力就會失效,它無法處理鐵球滾動對重心的影響。
機器人每遇到新的特殊情況,工程師就需要重新訓(xùn)練模型,再教機器人一次。它們很難擁有大家期待的 “泛化性”,不會觸類旁通。
“如果要讓人形機器人學(xué)會像人一樣,把全中國的工程師都堆過來寫規(guī)則也不夠?!?這位創(chuàng)業(yè)者說。有些公司一度養(yǎng)了 3000 人寫規(guī)則,都解決不了自動駕駛問題。而自動駕駛只是人形機器人需要解決的成千上萬個問題中的一個而已。
人形機器人行業(yè)希望像大模型和端到端自動駕駛一樣,依靠大量數(shù)據(jù)訓(xùn)練,機器人自己學(xué)習(xí)如何理解世界、然后執(zhí)行任務(wù)。
比如文生圖模型中,工程師讓模型理解馬和宇航員的特征后,會產(chǎn)生泛化性,畫出宇航員騎馬這種現(xiàn)實世界并不存在的畫面。研究者們相信,機器人模型可以有類似的效果,學(xué)會兩種不同的動作后,會自己推理組合出第三種動作。
這是業(yè)內(nèi)目前認(rèn)可的主流的機器人大腦訓(xùn)練方案—— VLA( vision-language-action ,視覺語言動作模型)。用戶提出任務(wù)后,語言和視覺融合模型,可以理解周圍的環(huán)境,并與用戶指令結(jié)合,形成運動軌跡,然后調(diào)動執(zhí)行模塊完成任務(wù)。
最理想狀態(tài)下,機器人使用的模型會是 “端到端” 的,人類告訴機器人動作指令,如要求機器人下樓倒垃圾,模型就能輸出電機轉(zhuǎn)速控制參數(shù),讓它完成任務(wù)。在這一路線下,強化學(xué)習(xí)等也是提高人形機器人運動控制能力的一部分,就像經(jīng)過強化學(xué)習(xí)的大語言模型,能夠變得更強那樣。
但這個路線做出來的人形機器人,完成基礎(chǔ)動作的時候相當(dāng)遲緩,大多數(shù)公司展示視頻都是加速播放,有一些公司放出來未加速視頻,還會被吐槽為美國前總統(tǒng)的模擬器。
數(shù)據(jù)是目前機器人大腦發(fā)育最大的障礙。研究者訓(xùn)練大語言模型,可以從互聯(lián)網(wǎng)上收集文本、圖像等公開數(shù)據(jù),汽車公司可以通過數(shù)百萬輛汽車上的攝像頭等傳感器不斷獲取新數(shù)據(jù)。
現(xiàn)在所有機器人公司喂給模型的數(shù)據(jù)規(guī)模,還無法驗證 VLA 路線是否能夠像大語言模型那樣有效。一位機器人公司技術(shù)負(fù)責(zé)人說,初步檢測 VLA 的學(xué)習(xí)能力,至少要 1000 萬條高質(zhì)量的真機數(shù)據(jù),但大部分公司只能提供不到 100 萬條有效數(shù)據(jù)。而這 “ 1000 萬條” 的數(shù)據(jù)要求,也是猜測。
這些真機數(shù)據(jù)需要靠人穿戴 VR 設(shè)備或動捕服裝采集,有限且昂貴,擴展性也不好。我們了解到,國內(nèi)頭部的人形機器人創(chuàng)業(yè)公司采集一條真機數(shù)據(jù)的成本是 10 元,數(shù)據(jù)采集員每小時大概能生產(chǎn) 2 條有價值的訓(xùn)練數(shù)據(jù)。為了訓(xùn)練機器人的應(yīng)變能力,采集數(shù)據(jù)時通常一人拿手柄操作機器人,一人干擾機器人,比如在機器人即將拿到杯子時,把杯子移開。
工程師依靠動作捕捉設(shè)備訓(xùn)練 Optimus 。來源:特斯拉。
他們認(rèn)為,真機數(shù)據(jù)是提高人形機器人模型能力的關(guān)鍵,在虛擬環(huán)境中仿真、視頻數(shù)據(jù)都是輔助。
逐際動力創(chuàng)始人張巍說,從第一性原理出發(fā),讓機器人學(xué)會部分基礎(chǔ)操作并不需要真機采集數(shù)據(jù),“告訴機器人拿杯子時需要抓住把手這件事,需要 1 萬條數(shù)據(jù)嗎?這是個常識,互聯(lián)網(wǎng)級別的數(shù)據(jù)就能訓(xùn)?!?/p>
用視頻數(shù)據(jù)訓(xùn)練機器人,第一步是給視頻里的人類關(guān)節(jié)標(biāo)點,抽取人類行動的軌跡數(shù)據(jù),再同步映射到機器人的執(zhí)行器關(guān)節(jié),通過運動控制算法得出電機旋轉(zhuǎn)的速度和機器人肢體末端的坐標(biāo)信息。
用互聯(lián)網(wǎng)數(shù)據(jù)訓(xùn)練機器人的下一步是用 AI 生成的視頻訓(xùn)練機器人。這種方式的訓(xùn)練效果取決于工程師對視頻的理解,“沒有好的理解,就沒有好的生成。” 張巍說。
仿真模擬數(shù)據(jù)供應(yīng)商光輪智能創(chuàng)始人謝晨說,簡單的仿真和視頻圖像中并不包含物理信息,訓(xùn)練機器人最重要的數(shù)據(jù),應(yīng)該是機器人與物理世界的交互數(shù)據(jù)。機器人要像人一樣與物理世界接觸,而不是像自動駕駛車那樣總是避免物理碰撞。
光輪智能正在探索用仿真模擬生成出各種場景、動作下的物理信息來訓(xùn)練機器人。他們會讓工程師帶著力距測量儀器,去開數(shù)百種冰箱門,收集不同的冰箱門外形和開冰箱的力的數(shù)據(jù),以此完成建模,并模擬生成物理力學(xué)屬性,包括冰箱門的質(zhì)量、摩擦力、角動量以及鉸鏈結(jié)構(gòu)的磁吸力、阻尼等。
當(dāng)以上 Real-to-Sim (現(xiàn)實到模擬)步驟完成后,還需要 Sim-to-Real (模擬到現(xiàn)實),即通過數(shù)據(jù)泛化的手段改變虛擬環(huán)境中冰箱的位置、光線、角度、材質(zhì)等,讓生成的數(shù)據(jù)覆蓋不同的現(xiàn)實場景,讓機器人真正學(xué)會認(rèn)識現(xiàn)實世界的 “冰箱”。
我們問了十多位具身智能模型的研究者:現(xiàn)在主流的機器人大腦訓(xùn)練路線,真的能讓機器人舉一反三嗎?沒人給出肯定回答。
機器人行業(yè)的大部分公司都寄希望于具身智能模型釋放人形機器人的能力,風(fēng)險投資者也愿意給押注模型的公司更高估值。他們認(rèn)為,機器人的 ChatGPT 時刻很快就會到來。
剛成立 2 年的智元機器人,估值已經(jīng)不低于成立 9 年的宇樹。成立 15 個月、只研究具身智能模型的 Physical Intelligence,估值已經(jīng)超過 20 億美元。而 Figure 估值達到 395 億美元。
但波士頓動力 CTO 亞倫·桑德斯(Aaron Saunders)評價說,現(xiàn)在的人形機器人行業(yè),只是把解決智能難題推給海量數(shù)據(jù),訓(xùn)練機器人的模型盡可能簡化,但圍繞著模型的一切都更復(fù)雜了。
已經(jīng)有公司對標(biāo)泡泡瑪特,想用情緒價值找出路
四月底,我們見到了人形機器人領(lǐng)域中最樂觀的一批投資者。那是北京亦莊機器人馬拉松結(jié)束后的第三個交易日。他們原以為這場馬拉松是 “空頭辦的”,全程遙控不說,現(xiàn)場大部分機器人都跑掉了自己的零件,摔倒了被人扶起來。
但隨后的幾個交易日,機器人供應(yīng)鏈的股價還是連續(xù)走高,讓他們恢復(fù)了信心。提及比賽第二名跑一半腦袋掉了,一位基金經(jīng)理說:“頭掉了怎么了,頭掉了不也跑完了,腦袋不重要?!?/p>
敘事可以繼續(xù),但實際造機器人的公司已經(jīng)開始面對現(xiàn)實問題。特斯拉今年生產(chǎn)的人形機器人,主要工作是在特斯拉得州奧斯汀工廠搬東西,比如把傳送帶上的 4680 電池拿下來放到料箱里。6 萬美元相當(dāng)于當(dāng)?shù)匕徇\工 15 個月的薪資,不算維護成本可以勉強用一下。
不過按計劃,特斯拉今年就要造 5000 多臺機器人,但取代所有搬電池的工人只需要幾十臺。那剩下來的幾千臺要做什么?“可能是放倉庫里吧?!?一位接近特斯拉人形機器人團隊的工程師說。
其實撿電池本來就不用人工,比如寧德時代電池生產(chǎn)線是用更便宜的工業(yè)機器臂直接成批把電池抓進料箱,一個人都不用。
其他公司的生產(chǎn)進展更差。去年聲稱已經(jīng)將一隊機器人送到寶馬工廠 “工作” 的美國公司 Figure 近期被曝出,其機器人只是在寶馬的車身車間練習(xí)拾取和放置零部件,僅在非生產(chǎn)時段運營。還有一家中國公司的人形機器人在汽車工廠上班一周后,被工人開叉車送了出來。
在中國替代藍領(lǐng)更難。中國任何一個地方的工廠都可以用每月幾千元人民幣的成本雇傭到一雙靈活的手,做復(fù)雜得多的事情。今年的上海車展,小鵬、長安等公司都開始用人形機器人當(dāng)車模。這才是人形機器人當(dāng)下最常見的用途。
一位投資了機器人領(lǐng)域的一級市場投資人說,現(xiàn)在已經(jīng)有人形機器人開始對標(biāo)泡泡瑪特,“現(xiàn)階段都以提供情緒價值為主”。他的一位同行則說,能做成泡泡瑪特就很強了,畢竟它市值已經(jīng)超過 3000 億港元。
特斯拉今年第一季度電話會上,馬斯克下調(diào)了人形機器人產(chǎn)量目標(biāo),年產(chǎn) 100 萬臺機器人的時間點從 2027 年推遲至 2029 年。
特斯拉 20 年前做電動車時,它不需要重新設(shè)計方向盤、輪胎。人形機器人的零件數(shù)量大概 7000 個,比汽車少 30%,但大部分都要重新做。
如一位人形機器人從業(yè)者所說,做人形機器人就像是重新發(fā)明一次汽車,并同步解決自動駕駛問題。
題圖來源:特斯拉 X 官方賬號
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.