整理 | 屠敏
出品 | CSDN(ID:CSDNnews)
機器人馬拉松、格斗賽、運動會……今年以來,各類關于具身智能的“機器人競技”輪番登場,熱鬧非凡。不同模樣、不同尺寸、“鐵骨錚錚”的機器人選手們同場競技,有的看似剛學會走路,有的已經能上場打拳了。
而日常動手榨汁、疊衣服、選購商品,這些原本屬于人類的日常動作,如今在機器人界也變得越來越常見。這些看似是一場場娛樂化的比賽,背后其實也是一輪輪對具身智能技術的實戰測試,也讓這個原本偏專業的研究方向,意外地闖進了大眾視野。
在這股熱潮之下,6 月 6 日北京智源大會上,一場重磅的具身智能圓桌對話正式上演:
宇樹科技 CEO 王興興帶著剛打完“格斗賽”的明星機器人 G1 登場;
北京人形機器人創新中心總經理熊友軍攜“馬拉松冠軍”升級版天工 2.0 現身;
北京大學助理教授、智源具身智能研究中心主任、銀河通用創始人兼 CTO 王鶴,現場演示了具身智能模型 GALBOT 自主選購商品與人類互動的潛力;
穹徹智能聯合創始人、上海交通大學教授、上海創智學院副院長盧策吾帶來了穹徹具身智能大腦最新動態,還展示了其刮冰淇淋的本領;
Physical Intelligence 聯合創始人兼 CEO Karol Hausman 展示了“分層交互式機器人”(Hi Robot)的前沿成果;
整場討論由智源研究院院長王仲遠主持,一行人聊模型、聊硬件形態、聊機器人核心技術、聊能力邊界,觀點碰撞,精彩不斷。
以下為圓桌對話內容:
各家機器人登臺亮相,大秀“肌肉”!
王仲遠(智源研究院院長):興興,我對宇樹機器人印象最深的一點,就是它不需要借助移動平臺等輔助設備,就能靈活地進行現場展示,真的非常震撼。過去這一年,宇樹科技也有了很多新的變化和進展,比如今年的春晚,大家應該都看到了宇樹的 16 臺 H1 機器人帶來的《秧Bot》表演,場面非常震撼。而就在前幾天,《CMG 世界機器人大賽系列賽》機甲格斗擂臺賽在杭州舉辦,“AI 策算師”宇樹 G1 機器人拿下了冠軍。今天你們也把這臺冠軍機甲帶到了現場,請給大家介紹一下?
王興興(宇樹科技 CEO):G1 是我們去年推出的最新型號,它前段時間也參加了格斗比賽。
今天也帶到現場,給大家展示一些動作。
其實像這樣的動作,不管是在之前春晚的集群表演,還是在這類格斗比賽中,我們都是希望能向大家真實呈現當前全球人形機器人技術的發展水平,也希望通過這些展示,帶動整個機器人行業的進步。
當然,現在大家可能會覺得,這樣的機器人還不能馬上走進家庭或工廠真正“干活”,這也是目前全球在推進人形機器人落地過程中普遍面臨的難題。我們希望未來機器人能真正進入實際應用場景,但在那之前,已經取得的技術成果也值得被看到、被驗證,以及進行商業化的嘗試。
像人形機器人格斗這樣的項目,我們認為未來在今年、明年可能會逐漸成為一個全球都比較受歡迎的體育類賽事。如果大家感興趣,也歡迎到我們公司親自來體驗一下。我相信這會是一件非常激動人心的事情。
王仲遠:除了這臺格斗賽的冠軍機器人,現場還有一位“馬拉松冠軍”——來自北京人形機器人創新中心的“天工 Ultra”。它在兩個月前北京首屆人形機器人半程馬拉松中成功奪冠。聽說今天還帶來了它的升級版“天工 2.0”。請友軍分享一下當時天工奪冠的技術亮點,也介紹一下 2.0 版本相比上一代有哪些重要升級?
熊友軍(北京人形機器人創新中心總經理):天工 2.0 是一個開源開放的平臺,相比 1.0 在多個方面進行了升級。天工 1.0 曾在人形機器人半程馬拉松中亮相,并以 2 小時 40 分順利完賽,被稱為“最能跑”的機器人。
而天工 2.0 的目標不止于“能跑”,我們希望它更實用、更易用,能勝任更多任務。因此,我們這次重點升級了上肢系統:增加更多的自由度、配備靈巧手,并提升了負重能力。
今天我們也帶來了實物,會在現場為大家演示它的一些新能力:
“天工”在參加馬拉松之后,其實也進行了一次系統性的整體升級。其背后的北京人形機器人創新中心是在 2023 年 11 月 2 日正式成立的,是全國首個省級層面的專注于人形機器人的創新平臺。到了 2024 年 10 月,我們中心正式升級為國家與地方共建的“具身智能人形機器人創新中心”。這次升級并不僅僅是單點的技術提升,而是一個體系化能力的全面建設,主要體現在以下四個方面的平臺能力拓展:
第一方面是硬件平臺的持續升級。之前大家看到的天工 1.0,主要是在馬拉松比賽中展示了其在復雜地形下比如跑道、草地、沙地、丘陵和碎石上的運動能力,驗證了其“最能跑”的實力?,F在,天工 2.0 版本重點提升了它在實際應用環境中的適應性,比如能在工廠、高風險作業區等對人類有潛在傷害的環境中替人完成任務,這是一個更偏向工程落地的方向。
第二方面是“軟實力”——智能系統的升級。今年 3 月,我們發布了首個通用具身智能平臺“慧思開物”。這個平臺具備“一腦多能、一腦多機”的能力,核心是具身智能系統中的“大腦”和“小腦”。其中大腦主要負責人機交互、環境感知、意圖識別、任務規劃等高級智能能力;而小腦則側重運動控制、執行指令,并將執行結果回傳,形成智能閉環。
第三方面是訓練平臺的搭建。為了持續迭代和優化具身智能體,我們自建了國內較為先進的機器人數據采集與訓練中心,并構建了 20 多個虛實結合的典型場景,用于數據采集和訓練模擬,同時也搭建了一整套包括數據處理、服務與人才培養在內的支撐體系,全面服務于“慧思開物”平臺的智能體訓練與演進。
第四方面則是平臺化能力的標準建設。為了保障機器人機型的穩定性和可靠性,我們正牽頭建設北京地區的“中試平臺”,提供包括產品驗證、標準測試等在內的完整支撐,助力技術成果快速落地應用。
基本上,這就是我們目前在人形機器人領域所做的系統性升級和整體布局。
王仲遠:王鶴在 2021 年從斯坦福回到北大任教,2022 年加入智源研究院,擔任具身智能研究中心負責人。2023 年,他創辦了北京銀河通用機器人有限公司,專注于通用機器人的研發。那現在銀河通用在通用機器人模型方面有沒有一些新的進展?也請王老師和大家分享一下。
王鶴(北京大學助理教授、智源具身智能研究中心主任、銀河通用創始人兼 CTO):今年是銀河通用機器人連續第二年在智源大會上亮相。
在去年的大會上,我們展示了機器人從貨架上抓取盒裝物品的能力。今年,我們進一步基于 VLA(Visual-Language-Action)技術,構建了更具通用性、更加貼近實際商超貨架場景的解決方案。
在本次展示中,我們使用了輪式底盤人形機器人,依托自研的端到端大模型 GALBOT,在極為密集、非結構化的貨架環境中實現自主抓取。這類場景下,傳統依賴軌跡規劃的方法往往難以避免碰撞或精準操作,而我們的模型可以直接感知并適應琳瑯滿目的復雜商品種類,包括瓶裝、袋裝、薯片、果凍等不同形態的商品。
這個模型整個系統為閉環控制,在抓取過程中具備抗擾性——即使有人干預或“搶奪”,機器人仍會根據反饋進行智能調整。
我們的一個重要技術特色在于,訓練過程主要依賴大規模合成數據,這使得整體成本顯著降低,同時具備良好的擴展性。
王仲遠:去年 3 月在上海交大首次見到盧老師,他當時展示了機器人疊衣服、刮胡子等功能,基于力反饋機制的具身智能系統給人留下了深刻印象。不知道最近在這方面有沒有新的進展?
盧策吾(穹徹智能聯合創始人、上海交通大學教授、上海創智學院副院長):從產品角度來說,我們在去年發布了“穹徹大腦”V1 版本,而 V2 版本預計將在今年 7 月正式發布。V2 在物理世界的理解與交互能力方面有了顯著增強。
之所以強調力反饋,是因為我們在執行很多動作時,其實依賴的是下意識的反應。這類具身智能系統真正的價值,往往體現在那些對物理交互要求復雜、需要動態接觸的高經濟價值場景中。例如我們曾展示過的“刮胡子”任務,就是一個典型案例。這個任務看似簡單,但背后對控制策略的魯棒性要求非常高。因為力道過大可能會造成傷害,而力道過小又無法刮干凈,這就需要模型具備近似人類的、下意識層面的操作能力。
當然,刮胡子更多是一個技術展示。在實際應用中,我們已經將這套具身系統落地于多個商業場景。例如在食品加工行業,我們已經實現了批量部署,系統能夠完成諸如“刮冰淇淋”這類復雜操作——這種任務與傳統的一次性抓取不同,需要每毫秒精確地控制動作,特別是在面對質地較硬的冰淇淋時,只有具備精細力控能力的系統才能完成自然、順暢的刮取,模擬出類似人手的操作體驗。
實際上,大家在市面上購買的一些食品,可能就是由我們這套系統在背后加工處理的。這類任務通常涉及高密度、持續性的接觸,對機器人理解和應對物理世界的能力提出了更高要求。
向生活場景拓展也是我們系統的重要方向。例如未來它可以用于照護任務,如為人擦臉、輔助清潔等——這些與人直接交互的場景同樣需要具身智能系統具備細膩、穩健的操作能力。我們所開發的大模型,具備“力”與“位”的雙重反饋機制,這在全球范圍內也是唯一實現的。這使得模型能夠更真實地理解物理世界,并執行高質量、高安全性的操作。
王仲遠:Physical Intelligence在國內受到了廣泛關注和熱烈反響,每當有新模型發布或相關視頻上線,如Hi Robot、π0.5,都會引發大量轉發和討論。Physical Intelligence 在具身機器人及其大模型方面,最近是否有一些新的進展可以分享?
Karol Hausman(Physical Intelligence 聯合創始人兼 CEO):非常感謝大家對 Physical Intelligence 的關注。我們始終希望能夠將我們的模型開放給全球的開發者,為各類機器人賦能,助力它們在現實世界中完成有價值的任務。
對于 π0.5 版本來說,這是一個令我們非常自豪的時刻。過去很長一段時間,我們都認為,讓機器人在完全陌生的環境中完成有意義的任務幾乎是不可能的。而這次我們選擇“家庭”作為測試場景,正是因為家庭環境的復雜性和多樣性代表了通用化能力面臨的最大挑戰——每一個家庭的布局、物品和使用習慣都不盡相同。如果機器人能在從未見過的家庭中完成任務,那么它的泛化能力就達到了我們所設定的最高標準。
相較之下,如果在工廠環境中測試,雖然有挑戰,但各個工廠之間往往具備一定的相似性,測試難度不會像家庭環境那么高。
我們在一開始的核心問題是:要實現這種泛化能力,機器人到底需要經歷多大的數據多樣性?結果出人意料地積極——正如我在演講中展示的那樣,只需要在 100 個不同的家庭中進行訓練,機器人就能夠在第 101 個陌生家庭中完成任務。
當然,它目前仍不能每次都成功,失敗率仍然存在。但這表明:也許我們并不需要極其龐大、復雜的數據集,就可以讓機器人真正具備泛化能力。雖然這只是一個起點,但它已經顯示出非常令人鼓舞的前景——這是我們之前未曾預料到的。
機器人參加各種比賽,利大于弊還是弊大于利?
王仲遠:大家都知道,今年具身智能在公眾層面獲得了更廣泛的關注,某種程度上也得益于近期一系列人形機器人相關的賽事,比如馬拉松比賽、格斗賽等。而在今年 8 月,北京還將舉辦一場世界人形機器人運動會。
請各位談一談對這類賽事的看法:你認為這些比賽更像是技術驗證的平臺,還是偏向“秀肌肉”的展示?此外,這些活動是否也有可能在無形中抬高公眾對人形機器人能力的預期?這對行業而言是利大于弊,還是需要更謹慎對待?
王興興:從今年 1 月的春晚到近期的格斗比賽等活動,我們可以看到,具身智能和人形機器人越來越頻繁地出現在公眾視野中。我認為,這些活動的最大價值在于為大眾提供了一個非常直觀的展示平臺,讓人們更早、更具體地了解當前機器人技術的發展水平。
當然,由于賽事類型多樣,有的企業參與,有的沒有參與,這種情況也很正常。畢竟,每家企業在技術路徑、商業策略等方面都有自己的特點和考量。
就我們公司而言,盡管參與了一些舞蹈表演或格斗類的展示項目,但我們的終極目標始終是希望打造真正能“干活”的機器人——無論是在家庭還是在工業場景中,能夠承擔實際任務。但正如大家所知,在目前的技術發展階段,讓一個人形機器人立即進入家庭承擔復雜家務,仍然具有相當大的挑戰。
因此,我們的思路是:通過具身智能與 AI 技術的結合,推動機器人掌握更加復雜、多樣的全身動作能力。跳舞和格斗,并不是以表演為目的,而是作為“全身動作能力”的一種體現。我們的愿景是讓機器人不僅能夠完成舞蹈或極限對抗動作,也能勝任如端茶倒水、做飯清潔等生活任務。這些能力在底層上是相通的,都是復雜身體協調與感知理解的體現。
我始終相信,真正能進入家庭、服務人類的機器人,一定也是能夠跳舞、能夠進行高復雜度動作的機器人。而在實現這一終極目標之前,參與賽事和展示,不僅能幫助我們不斷驗證和提升技術,也能通過市場化的方式探索商業價值。
例如,今年上半年,人形機器人租賃市場的火熱,已經帶來了一定的產業效應。這些賽事和展示并非“噱頭”,而是我們邁向真正落地應用過程中的一部分。因此,我們希望通過這樣的機會,向外界傳遞清晰的信息:無論是比賽還是表演,最終的指向都是一個目標——通過 AI 驅動的全身動作控制,實現機器人真正服務于人的能力解放。
熊友軍:我認為舉辦這類機器人賽事具有非常重要的意義。以即將在北京鳥巢舉辦的“機器人運動會”為例,從多個維度來看都值得期待。
首先,這是一場面向公眾的科技知識普及盛會。通過比賽的形式,廣大觀眾可以直觀了解當前機器人技術的發展現狀及其應用能力。尤其值得一提的是,本次運動會將包括短跑、長跑、障礙賽、接力賽、足球、舞蹈等多個項目,這些項目貼近大眾生活、形式生動活潑,能夠在潛移默化中提升社會對機器人技術的認知和理解,起到良好的科普作用。
其次,這樣的賽事也是機器人技術發展的“實戰訓練場”。很多比賽項目所設置的場景都來源于真實世界的實際需求,而不僅是實驗室中人為構建的環境。據我所知,本次比賽涵蓋了來自工業、醫療、服務等多個行業的實際應用場景——例如工廠中的物流搬運、醫院中的藥品分揀和送藥,以及酒店的服務機器人應用等。這種與真實應用環境高度貼合的設置,對于推動機器人技術走出實驗室、加快實用化轉化具有重要意義。
最后,我認為這樣的賽事還可以為機器人企業搭建一個與潛在客戶之間的橋梁。一方面,客戶能夠借此了解機器人的實際能力和應用前景;另一方面,企業也能通過賽事展示自身技術優勢,尋求落地合作機會。因此,這不僅有助于提升行業影響力,也有可能加速機器人技術的產業化進程,推動在特定場景中的試點應用。
Karol Hausman:我認為海外的機器人比賽還遠沒有中國那么受歡迎。這是一個非常有趣的發展趨勢。我了解一些海外正在舉辦的比賽,比如機器人杯(Robot Cup)等,也有一些學術性的競賽,但規模還遠未達到中國的水平。我很期待看到這些賽事在未來的發展變化。
王仲遠:機器人比賽經常被用來展示機器人的極限能力,但我們更期待機器人能夠切實解決工廠和家庭中的實際問題。王老師、盧老師,你們如何看待機器人比賽與實際落地之間的關系?如何助力機器人更好地進入現實場景?
王鶴:我認為,在當前階段談論具身智能,最重要的目標之一就是推動其真正走向產業化。盡管我們已經看到許多炫目的技術展示,但也應當反思:這些技能在真實、復雜、多變的環境中能否穩定工作?比如,當面臨全新的物品架、完全陌生的場景,或是用戶對成功率要求接近 100% 的商業應用時,它們是否足夠可靠?
這是我們銀河通用與智源聯合團隊在推動這項技術時一直在思考的問題。我們希望首先打通一些真正“關鍵”的技能鏈條。在這方面,我們重點聚焦的是 mobile-pick-and-place(移動-抓取-放置)能力。
我們關注的落地場景是通用型貨架,包括超市、工廠的料庫、甚至外賣前置倉。如果我們的類人機器人能夠在這些場所實現 24 小時服務,那才意味著具身智能真正開始走向產業化,并在現實中創造生產力。這也是我一直所強調的:推動“人形機器人成為生產力”的時代早日到來。
一個令人振奮的消息是,目前我們銀河通用的機器人已經在北京運營了 7 家無人藥店,全天候運轉,由我們的類人機器人完成與外賣騎手的對接。這類無人藥店為很多夜間急需用藥的市民提供了便利,也減少了對夜班人力的依賴,解決了人員招聘困難的問題。
到今年年底,我們計劃在北京、上海、深圳三地共計開設 100 家類似的無人藥店。而我們今天所展示的,就是這個技術路徑的下一步。未來,大家在超市下單、車間配料時,都可能看到類人機器人在背后承擔關鍵任務。
我們也希望未來的各類機器人賽事,能在操作層面與這些實際應用形成更緊密的對接。通過比賽引導那些真正有價值、具備落地潛力的技能發展,帶動整個生態系統持續向前推進。
盧策吾:我非常同意王老師的觀點。機器人賽事本身非常有意義,不僅可以展示機器人的性能,也為行業提供了一個良好的起點。但我們更希望在這之后,機器人能夠真正“干活”,在現實場景中產生實際價值。我們也期待未來能有更多以“生產力”為核心的競賽,聚焦機器人的工作能力和落地能力。
在這方面,我們也在逐步推進相關技術的應用。例如,穹徹正在將具備高頻接觸的力位反饋建模能力的大模型,逐步應用于食品加工等典型的物理世界場景中。我們希望借助這些實際應用,不斷提升機器人的關鍵技能。
如果未來的比賽能夠更多圍繞這些真實技能展開,那將更有助于推動整個產業的成熟。我們也相信,“勞動最光榮”這句話放在機器人身上同樣適用——機器人真正為人類分擔勞動,才是我們最終追求的目標。
人形機器人是否為具身智能的最佳路徑?
王仲遠:在今年 5 月底清華大學的一場學術會議上,中國科學院院士、清華大學計算機系教授張鈸提出了一個頗具爭議的觀點:“人形機器人不是具身智能和 AGI 技術的最佳路徑,而走向通用機器人硬件要多樣性、軟件要通用性。”對于這一觀點,你們怎么看?你們是否認同這類“非人形優先”的判斷,或者你們在實踐中有不同的理解和經驗?
王興興:其實這幾年我在不少公開場合也表達過類似觀點:我本人并不堅持一定要走“人形機器人”這條路徑。對我們公司來說,從機器狗發展到人形機器人,本身是一個相對自然的技術演進過程。從工程實用性的角度來看,特別是在機器人腿部系統方面,輪式或履帶式底盤仍然具有很強的現實適用性。
但當下行業普遍選擇人形構型,尤其是在上半身維持類人結構,主要是因為當前大多數 AI 系統的訓練數據都是基于人類的行為采集。這種情況下,如果機器人上半身的動作與人類足夠相似,訓練數據的獲取和模型的適配都會更加便利,從而提升整體訓練效率和效果。
此外,人形的全身構型也有它的應用場景,比如我們開發的機器人參與舞蹈、格斗等賽事,如果不采用類人的身體結構,這些復雜的全身動作基本上是無法實現的。
當然,從更長遠來看,我是非常認同未來機器形態會高度多樣化的,特別是在通用人工智能(AGI)真正實現之后。那時候,機器人的形態很可能會比現在豐富百倍,針對不同場景,如工業生產、醫療服務、家用協作,都會涌現出大量“非人形”的設計。
但回到現實,考慮到當前 AI 仍主要依賴人類數據驅動,類人形態依然在訓練效率、模型泛化以及實際落地方面具備一定的先發優勢。
熊友軍:當前具身智能的發展,其載體或實現形式確實是多樣的,并不必然局限于人形結構。人形只是其中一種較為典型的選擇。但我個人比較認同一個觀點:人形機器人是具身智能研究與發展的一個重要方向,甚至可以說是最具潛力的載體之一。這一判斷主要基于未來潛在市場規模的考量。
首先,從應用場景來看,未來機器人最大的市場并不在工業領域,而是在商用服務和家庭場景。相比之下,工廠中的應用只能算是一個“開胃小菜”。而在人機交互更為頻繁、環境更為復雜的商業和家庭環境中,人形構型天然具備更大的適配潛力,市場空間也更為廣闊。
其次,從人機交互的角度來看,如果機器人未來要真正走入家庭,成為我們的伙伴、朋友,甚至在某些場景下被視作親密關系的一部分,那么在外形和行為模式上盡可能貼近人類,將顯著提升用戶的接受度與親和力。人形結構在這一點上具備天然優勢。
第三,人類的生活和工作環境本身就是為人類設計和優化的。如果機器人采用人形設計,它將更容易適配現有的環境和工具系統,無需對物理空間進行大規模改造。這不僅降低了部署成本,也提升了應用效率。
當然,我也理解當前行業中關于人形機器人在成本和技術成熟度方面的擔憂。但如果放在一個更長遠的歷史視角來看,我仍然認為人形是具身智能最具代表性、也最具潛力的承載形態之一。
VLA 的最新進展
王仲遠:聽起來大家對于機器人構型在短期與長期的發展路徑上,已有一定的共識。當然,真正讓機器人發揮實際價值,關鍵還是在于其所搭載的模型能力。
今天上午的開幕式的主旨演講和各位嘉賓的討論都談到了VLA(視覺-語言-動作模型)模型。王鶴老師也紹了VLA模型,在無人駕駛領域,VLA已經成為了很主流的解決方案。但畢竟無人駕駛的操作空間是相對有限,機器人面臨的環境和實際的行動數量非常多,不知道大家對于VLA的泛化性怎么看?
王鶴:自動駕駛其實已經驗證了一點:端到端的方案具備更強的可擴展性。它可以依靠數據驅動模型,而不再依賴繁復的規則系統。傳統路徑是先檢測車輛的三維包圍盒(3D bounding box),然后基于這些中間表示進行路徑規劃,最終生成控制指令。但這條“模塊化”的路線,自動駕駛行業探索了很多年,實際大規模落地的卻是端到端方法驅動的系統。
從這個角度來看,VLA(Vision-Language-Action)模型的意義就非常突出。它以視覺作為主要的觀測輸入,通過語言指令靈活接收任務需求,最終端到端輸出動作決策,全程無需依賴中間表示。這種方式不僅規避了模塊化系統中可能出現的級聯誤差,也省去了依賴大量規則兜底的問題,使模型能夠更充分地利用數據中隱含的知識,釋放出最大的性能潛力。
當前,VLA 已成為具身智能領域的重要研究方向。但關于它的未來發展路徑,業界仍存在分歧。有人認為,VLA 應該盡快覆蓋人類可執行的所有任務,構建出一個通用的“基座模型”。但我認為,這種想法未免過于著急。
人類的感知不止于視覺與語言,我們還擁有觸覺、力覺、聽覺,甚至在做飯時還會用到嗅覺和味覺。這些感知能力共同構成了人類具身智能的基礎。因此,VLA 應該被視為一個起點,而不是終點。真正實現類人智能,必然需要不斷融合更多模態。
就當前階段而言,VLA 最適合解決的任務是移動、抓取與放置。這些能力主要依賴視覺,再結合末端的觸覺或力覺傳感器,便可以完成較為復雜的操作任務,而這些技能在工業、商業服務等領域具有廣泛的應用價值。
如果我們能夠在這些任務上率先實現可泛化、可部署的 VLA 系統,不再需要對每個場景“翻譯”和重建任務邏輯,那將是具身智能邁向真正實用化的關鍵一步,也可能標志著通用智能系統首次進入“高效落地”的新階段。
盧策吾:VLA 確實很火。但我認為,它之所以重要,是因為它抓住了機器人核心能力的三大支柱:V(視覺)用于理解世界,L(語言)用于與人類溝通,A(行動)用于改變世界。這三者共同構成了機器人智能的本質。其中,語言(L)在這個結構中起到了非常關鍵的作用,像是一種“粘合劑”,能夠把各種高層語義與底層感知、行動以統一的方式組織起來,從而實現復雜任務的整體理解與調度。
我也非常認同王老師的觀點:VLA 模型具備很強的擴展性,但同時當前也面臨諸多限制,我們還需要持續推進。我也非常認同具身智能要一步步落地,同時也要保持“星辰大?!钡囊曇?,最終推動它走向通用智能。
它面臨的最大挑戰在于,如果真的要做到“通用”,技術空間非常大。這和無人駕駛不一樣。無人駕駛的決策維度相對固定,也基本不涉及碰撞和物理接觸,場景邊界清晰,所以整體空間比較收斂。而通用機器人面對的是一個高度復雜且動態的現實世界,因此要壓縮這個決策空間,就必須在模型里做更多結構設計。
在這個過程中,VLA 就像是一個“火鍋底料”,目前只能做到清湯寡水,只適用于一小部分任務。如果想服務更多場景,就得不停往里“加料”——本質上是往系統中引入更多額外的信息,讓它變得更強大,同時還能在同一個框架下兼容更多模態。這種“加料”的過程,其實就是在構建更強的端到端壓縮能力。
比如我們在穹徹一直在做的事情之一,就是通過“力反饋”來壓縮空間。很多日常動作其實并不需要大腦時刻參與,比如擦桌子,是一種肌肉記憶動作,不必每毫秒計算軌跡。有了力反饋系統,機器人的穩定性提升很明顯。如果沒有這部分反饋,動作可能看上去可行,但魯棒性不足,會出現“頓一下”“卡一下”的問題。引入力反饋后,系統能更有效地壓縮動作空間,提高執行可靠性。
還有一個方向,就是對物理世界的理解。視覺系統在“偷偷”理解世界結構,我們要做的是讓這種理解更清晰、更深入。如果能通過更強的物理建模和數據驅動,進一步壓縮模型空間,就能顯著降低數據需求。在我們下個月即將發布的第二版“具身大腦”中,也引入了很多新的機制,比如“數字基因”的概念——通過仿真合成生成高質量的數據資產,從而構建更有效的數據模型。而力反饋也帶來了新的建模方式,讓整個系統逐步實現“以更少的數據,做更復雜的事情”。
關鍵問題是:在這個巨大的決策空間里,我們究竟需要多少數據去擬合它?而答案可能不在于數據本身的規模,而在于我們能否找到更聰明、更深層的方式去理解世界,并將這些理解融入模型框架中。只有這樣,VLA 才能真正向通用性推進。
我們也非常期待,這條路能一步步走向它的通用拐點。
王仲遠:Karol 在主題演講中也提到了 VLA,讓我印象深刻的是“build a model to control any robot to do any task”這句話。針對這樣一個跨本體的 VLA,在實際應用和研發過程中,你覺得目前遇到的最大瓶頸是什么?是技術層面的難題無法突破,還是更需要等待更大規模的數據和更長時間的發展?
Karol Hausman:確實,目前仍然存在一些瓶頸。其中最大的挑戰是,現有模型完成的任務,往往并不是我們真正需要的目標。這背后反映出一個關鍵問題:算法能力還不夠,仍需要進一步提升。
雖然我們現在擁有海量甚至幾乎無限的數據,但用當前的算法去高效利用這些數據,仍然非常困難。因此,算法的優化和技術的突破是接下來的關鍵方向——這也是我們現在正在專注解決的問題。
如果你問我幾個月前的看法,那時我可能還會認為數據獲取是更大的難題。但現在,隨著 π0.5 等新模型的出現,數據的獲取和處理能力已有了顯著提升。也正因如此,當前的核心瓶頸已經從“數據”轉向了“算法”。
以上為本次圓桌的核心內容,那么你對具身智能技術的發展又有什么樣的看法?歡迎留言分享你的看法。
—— 對話 IEEE 首位華人主席、美國雙院院士劉國瑞 | 萬有引力
2025 全球產品經理大會
2025 年 8 月 15–16 日
北京·威斯汀酒店
2025 全球產品經理大會將匯聚互聯網大廠、AI 創業公司、ToB/ToC 實戰一線的產品人,圍繞產品設計、用戶體驗、增長運營、智能落地等核心議題,展開 12 大專題分享,洞察趨勢、拆解路徑、對話未來。
更多詳情與報名,請掃碼下方二維碼。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.