中經(jīng)記者 曲忠芳 北京報(bào)道
通過(guò)自然語(yǔ)言發(fā)出的語(yǔ)音指令,宇樹(shù)科技G1機(jī)器人展示了格斗組合拳,銀河通用機(jī)器人Galbot在零售場(chǎng)景中抓取不同商品,天工機(jī)器人則完成水果擺盤的任務(wù)……這是在2025年北京智源大會(huì)上展示的一些真實(shí)場(chǎng)景。
在過(guò)去的一年里,具身智能領(lǐng)域迎來(lái)爆發(fā)式增長(zhǎng),成為AI與機(jī)器人技術(shù)融合的核心賽道。《中國(guó)經(jīng)營(yíng)報(bào)》記者從智源大會(huì)了解到,今年首次將具身智能活動(dòng)部分升級(jí)為全天的分論壇,并加入人形機(jī)器人的主題。來(lái)自產(chǎn)學(xué)研各個(gè)領(lǐng)域的代表就具身智能的發(fā)展現(xiàn)狀及未來(lái)趨勢(shì)進(jìn)行了熱烈討論。
正面回應(yīng)“秀肌肉”之嫌
今年以來(lái),從春晚跳舞到馬拉松比賽、格斗比賽,再到8月即將舉行的運(yùn)動(dòng)會(huì),人形機(jī)器人賽事蔚然成風(fēng)的同時(shí),也引發(fā)了社會(huì)大眾的疑問(wèn):人形機(jī)器人企業(yè)是否存在“秀肌肉”、博眼球之嫌?
對(duì)于這一犀利的提問(wèn),宇樹(shù)科技創(chuàng)始人、CEO王興興在現(xiàn)場(chǎng)正面回應(yīng)稱:“我們的目標(biāo)一直是通過(guò)AI技術(shù)讓機(jī)器人做各種全身動(dòng)作,真正解放人類的生產(chǎn)力,但在這個(gè)終極目標(biāo)實(shí)現(xiàn)之前,我們先參加一些表演、一些賽事來(lái)向大家展示機(jī)器人的情況,并且產(chǎn)生一部分商業(yè)價(jià)值。”
宇樹(shù)科技因16臺(tái)H1機(jī)器人在央視春晚表演舞蹈而聲名大噪,今年5月下旬又舉辦了業(yè)內(nèi)首個(gè)人形機(jī)器人格斗比賽,宇樹(shù)機(jī)器人G1“AI策算師”奪冠。
除了王興興,今年4月初在業(yè)內(nèi)首個(gè)人形機(jī)器人半馬比賽中奪冠的天工機(jī)器人負(fù)責(zé)人、北京人形機(jī)器人創(chuàng)新中心總經(jīng)理熊友軍也回應(yīng)道:“舉辦機(jī)器人比賽非常有意義。”之所以這樣說(shuō),首先,通過(guò)大眾喜聞樂(lè)見(jiàn)的比賽形式,傳遞和普及機(jī)器人的發(fā)展現(xiàn)狀,以及相關(guān)技術(shù)和知識(shí)。其次,比賽是非常好的機(jī)器人技術(shù)訓(xùn)練場(chǎng),很多比賽場(chǎng)景來(lái)自人類真實(shí)的生態(tài)場(chǎng)景,符合機(jī)器人的發(fā)展方向,有助于提升機(jī)器人的技術(shù)。最后,比賽是了解機(jī)器人潛在客戶,并建立起一條與機(jī)器人企業(yè)溝通的橋梁,能夠促進(jìn)機(jī)器人加速產(chǎn)業(yè)化,以及加速在真實(shí)場(chǎng)景中的試點(diǎn)應(yīng)用。
“通過(guò)賽事可以看到機(jī)器人的性能,這是一個(gè)好的起點(diǎn)。下一步能看到機(jī)器人產(chǎn)生價(jià)值、能干活的比賽,將是生產(chǎn)力的比賽。”穹徹智能聯(lián)合創(chuàng)始人、上海交通大學(xué)教授、上海創(chuàng)智學(xué)院副院長(zhǎng)盧策吾如是指出。
美國(guó)初創(chuàng)具身智能企業(yè)Physical Intelligence的聯(lián)合創(chuàng)始人兼CEO Karol Hausman表示,海外也有一些機(jī)器人相關(guān)的比賽,但與中國(guó)的規(guī)模無(wú)法相比。“非常期待能夠看到中國(guó)的比賽與機(jī)器人技術(shù)的發(fā)展與驗(yàn)證。”
具身智能面臨的技術(shù)難題
Karol Hausman提出,在具身智能的發(fā)展中,VLA模型是關(guān)鍵突破。這一觀點(diǎn)引發(fā)了產(chǎn)業(yè)界的共鳴與認(rèn)同。VLA模型可以讓機(jī)器人通過(guò)互聯(lián)網(wǎng)數(shù)據(jù)學(xué)習(xí),無(wú)須體驗(yàn)每個(gè)場(chǎng)景,還能與其他機(jī)器人連續(xù)獲取數(shù)據(jù)。
記者獲悉,所謂VLA,是指視覺(jué)—語(yǔ)言—?jiǎng)幼髂P停嵌嗄B(tài)大模型中的新算法框架。基于此,Physical Intelligence研發(fā)了通用機(jī)器人基礎(chǔ)模型π0,經(jīng)預(yù)訓(xùn)練和后期高質(zhì)量數(shù)據(jù)培訓(xùn),使機(jī)器人能完成如打開(kāi)洗衣機(jī)、疊衣服等復(fù)雜任務(wù),在陌生環(huán)境下任務(wù)完成率達(dá) 80%—90%。目前雖已展示物理智能潛力,但在泛化能力、穩(wěn)定性等方面仍有挑戰(zhàn),未來(lái)希望實(shí)現(xiàn)機(jī)器人100%穩(wěn)定完成任務(wù),推動(dòng)物理智能的進(jìn)一步發(fā)展。
針對(duì)具身智能面臨的數(shù)據(jù)瓶頸,銀河通用創(chuàng)始人兼CTO、北京大學(xué)助理教授、智源具身智能研究中心主任王鶴主張采用合成數(shù)據(jù)為主、真實(shí)數(shù)據(jù)校準(zhǔn)的訓(xùn)練范式,通過(guò)十億級(jí)高質(zhì)量仿真數(shù)據(jù)訓(xùn)練端到端模型,可實(shí)現(xiàn)零樣本泛化。他透露,目前該公司的研究成果已在零售、工業(yè)等場(chǎng)景逐步落地。
上海人工智能實(shí)驗(yàn)室青年科學(xué)家、具身智能中心負(fù)責(zé)人龐江淼持相似看法。他認(rèn)為,合成數(shù)據(jù)有助于本體和場(chǎng)景泛化。同時(shí)他坦言,持續(xù)壓低真實(shí)數(shù)據(jù)采集數(shù)量,提升合成數(shù)據(jù)的質(zhì)量,直到全合成數(shù)據(jù)能夠零樣本泛化,還需要一定時(shí)間。
千尋智能聯(lián)合創(chuàng)始人、清華大學(xué)交叉信息研究院助理教授高陽(yáng)也表示,機(jī)器人數(shù)據(jù)采集成本高——需遙操作+物理交互,而且難以用語(yǔ)言描述——如游泳,這導(dǎo)致形成了“無(wú)智能—少機(jī)器人—少數(shù)據(jù)”的惡性循環(huán)。基于此,可利用互聯(lián)網(wǎng)視頻數(shù)據(jù),通過(guò)跟蹤視頻中物體運(yùn)動(dòng)預(yù)訓(xùn)練模型,再遷移到機(jī)器人遙操作數(shù)據(jù)微調(diào),結(jié)合強(qiáng)化學(xué)習(xí),解決仿真與現(xiàn)實(shí)的差距。
商業(yè)化落地路徑
對(duì)于具身智能的商業(yè)化落地進(jìn)程,眾擎機(jī)器人創(chuàng)始人、董事長(zhǎng)趙同陽(yáng)表示,當(dāng)前人形機(jī)器人的基礎(chǔ)能力還不足,例如還無(wú)法穩(wěn)定地從A點(diǎn)走到B點(diǎn)、上下電梯等。在這種情況下,需要先解決全地形適應(yīng)、穩(wěn)定行走,再進(jìn)一步發(fā)展抓取、服務(wù)等上層應(yīng)用,從而突破行業(yè)瓶頸。
王興興透露,今年上半年,宇樹(shù)科技在人形機(jī)器人租賃市場(chǎng)比較火爆,這說(shuō)明人形機(jī)器人已經(jīng)帶來(lái)一定的產(chǎn)業(yè)價(jià)值。
王鶴也指出,截至目前,銀河通用機(jī)器人已經(jīng)在北京開(kāi)設(shè)了7家無(wú)人藥店,由人形機(jī)器人一天24小時(shí)負(fù)責(zé)揀藥工作,對(duì)接騎手,能夠解決夜間急需用藥的需求,同時(shí)也解決了夜間員工招聘的問(wèn)題。今年計(jì)劃在北京、上海、深圳三城開(kāi)設(shè)100家藥店。
星動(dòng)紀(jì)元?jiǎng)?chuàng)始人兼CEO、清華大學(xué)交叉信息研究院助理教授陳建宇認(rèn)為,具身智能要跨越三個(gè)階段的“鴻溝”:第一個(gè)鴻溝便是創(chuàng)新者階段,包括機(jī)器人產(chǎn)品、靈巧手等,這個(gè)階段已經(jīng)開(kāi)始;突破第一道鴻溝后,就能夠進(jìn)入真正的to B各個(gè)行業(yè)領(lǐng)域,做到真正地解放生產(chǎn)力。當(dāng)跨越第二道鴻溝后,機(jī)器人會(huì)真正進(jìn)入to C消費(fèi)級(jí)市場(chǎng),進(jìn)入家庭消費(fèi)品階段,而在這個(gè)階段的終局將是數(shù)以億計(jì)的應(yīng)用規(guī)模。
智源研究院院長(zhǎng)王仲遠(yuǎn)在接受記者采訪時(shí)表示,在具身智能發(fā)展過(guò)程中,智源研究院希望探索出獨(dú)特的發(fā)展路徑:一是數(shù)字智能物理化。通過(guò)大模型技術(shù)將數(shù)字世界的智能能力延伸至物理世界,推動(dòng)機(jī)器人從“單一功能”向“通用功能”進(jìn)化。二是低成本功能化。簡(jiǎn)單來(lái)說(shuō),即聚焦垂直場(chǎng)景,降低單臺(tái)機(jī)器人成本并強(qiáng)化特定能力,通過(guò)規(guī)模化落地積累數(shù)據(jù),逐步拓展應(yīng)用邊界,讓很多小型機(jī)器人也能夠走進(jìn)千家萬(wàn)戶。因?yàn)榇笮腿诵螜C(jī)器人技術(shù)復(fù)雜度高,商業(yè)化周期更長(zhǎng);而小型專用機(jī)器人若能在細(xì)分場(chǎng)景實(shí)現(xiàn)極致性價(jià)比,可能率先滲透家庭與產(chǎn)業(yè)場(chǎng)景,為具身智能的長(zhǎng)期發(fā)展奠定基礎(chǔ)。
(編輯:吳清 審核:李正豪 校對(duì):顏京寧)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.