大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

能空翻≠能干活!我們離通用機器人還有多遠? | 萬有引力

0
分享至


作者 | 新程序員編輯部

出品 | CSDN(ID:CSDNnews)

具身智能,作為近年來人工智能領域的熱點之一,成為產業界和學術界重點關注的方向。特別是在人形機器人這個載體上,它所承載的感知、運動、決策等能力,讓具身智能從概念逐漸走向落地。但與此同時,也有不少值得深入探討的問題浮出水面:為什么具身智能的發展似乎格外偏愛“人形”?是否只有模仿人類形態,才是實現智能的最佳路徑?在面對數據、算力、模型架構等現實挑戰時,我們究竟處于怎樣的階段?距離真正的通用機器人,還有多少“里程”要走?

基于此,CSDN《萬有引力》欄目特別策劃了一期以“十問具身智能:我們離通用機器人還有多遠?”為主題的深度對話,邀請了北京郵電大學人工智能學院副教授陳光@愛可可-愛生活、深圳市人工智能與機器人研究院副研究員夏軒、Roboraction.AI 首席執行官黃浴,在欄目主理人 CSDN &《新程序員》執行總編唐小引主持下,三位專家將從技術演進、研究現狀、產業應用等多個角度切入,帶大家一同拆解具身智能面臨的“關鍵問題”,看清這條通往未來機器人的發展路徑。



闖進具身智能賽道的技術人們

唐小引業內普遍認為,2025 年很可能成為具身智能的“元年”。盡管目前對于百模大戰的最終結果尚無定論,但時下行業競爭明顯主要在多模態和具身智能領域展開。在英偉達 GTC 大會上,黃仁勛曾高調宣布“通用機器人時代已經到來”。同時,他還提出了 AI 發展的四個階段:第一個階段是“感知 AI”,它始于 2012 年的 深度學習模型,并于今年開源了原始代碼;第二階段是“生成式 AI”,以 ChatGPT 為代表,標志著 AI 從識別走向生成;第三階段,便是今年正在興起的“自主智能體AI”(Agentic AI),強調推理能力與自主行動;而第四階段,也就是“物理 AI”時代,則關注 AI 如何真正理解物理世界并進行交互。這一思路或許能幫助我們更清晰地看懂 AI 的進化路線。

與此呼應的是,圖靈獎得主楊立昆也表達了類似看法:相比大語言模型,他如今更關注機器如何理解物理世界,并進行持續記憶和推理。

正因如此,我們特別邀請了三位在具身智能領域擁有豐富經驗的老師,與我們共同探討我們距離通用機器人還有多遠,請大家從“程序人生”的角度出發,分享是怎么一步步走進具身智能這片領域的?

陳光自 2000 年讀研開始,我就一直在做相關方向的研究。那時候,我們主要做的是手寫漢字識別,我跟隨郭軍老師(北京郵電大學人工智能學院教授,北京郵電大學原副校長)從事模式識別的研究。隨著大數據和機器學習的發展,我們研究重心也逐漸轉向更廣義的人工智能領域。

近兩年,雖然“具身智能”這個概念并不新鮮,但它重新引起了大家的關注。人們不再只是關注機器人在自動駕駛等垂直場景的應用,而是開始更系統地思考“智能”如何真正通過“身體”體現出來。

這股熱度的回升,其實也離不開大模型的帶動。隨著 AI 模型能力的大幅提升,機器人研究也逐漸從傳統的精密控制、精準性、魯棒性等方向,向更智能化、更通用的方向邁進。

從最初的識別與預測,到問答系統,再到后來的大模型,甚至最近關于均值計算的研究,我們也都有所跟進。盡管我并不是專門從事具身智能研究的專家,但我一直密切關注這一領域的發展脈絡,也對它的未來充滿期待。

夏軒:在專業背景方面,我早期的研究主要集中于計算機視覺領域(CV),涵蓋無人機圖像處理、工業圖像處理以及生成模型等方向。在擴散模型興起之前,我也曾深入參與生成對抗網絡(GAN)相關的工作。

然而,隨著大模型時代的到來,特別是 ChatGPT 的發布,在自然語言處理領域引發了廣泛關注,并逐漸波及 CV 領域。模型能力的快速提升也在一定程度上壓縮了傳統 CV 研究的空間,尤其是SAM(Segment Anything Model)的問世,在某種程度上被視為終結了CV領域的發展。

因此,大模型和元學習技術的發展實際上“侵占”了計算機視覺領域的工作范圍。此時我也意識到自己必須進行轉型。如今大家也看到,許多計算機視覺領域的研究人員正在積極轉向具身智能領域,這是因為大模型確實極大地提升了機器人對物理世界中實際的理解以及執行和交互能力。

計算機視覺是一門強調應用的學科,而具身智能在機器人上的應用恰恰是一個非常對口的方向。因此,我從邊緣進入具身智能這個領域時是從兩個方面進行的:

  • 一方面,是從計算機視覺的角度來研究機器人的感知。在感知層面,多模態模型在信息整合和表達方面取得了顯著突破,特別是在視覺-語言對齊后。然而,這些模型在感知“形式化知識”方面仍顯不足。例如,GPT-4V 模型在面對更具結構性的視覺任務時,如識別多邊形的邊數,就存在明顯短板——即便是六邊形或七邊形這樣的基本形狀,也可能出現錯誤判斷。這類問題表明,盡管當前的開發模型在某些方面表現出強大的能力,但在感知能力上仍存在明顯的缺陷。因此,如果將這種動態模型應用到具身智能領域,可能會帶來一些重大的問題。因此,我想在形式化知識的感知方面做一些相關工作,以解決這類問題。

  • 另一方面,當前具身智能領域在數據方面存在一個很大的瓶頸,這也是我當前特別關注的方向。

黃浴:我最初學信號處理出身。在研究生階段,因一次偶然的機會,我有幸聆聽了一位來自美國的知名計算機視覺專家 Thomas S. Huang 在西北工業大學的學術報告。這場報告讓我對計算機視覺產生了極大的興趣,尤其是他提到的一些與國防相關的應用案例,讓我意識到這個領域的潛力和前沿性。因此,在讀博士階段期間,我決定轉向計算機視覺方向這一研究方向。

彼時,這一領域尚處于早期階段,研究進展相對緩慢,多數成果仍停留在實驗室層面。相較于計算機視覺,圖像處理的技術發展稍為成熟。我還記得我的研究生導師曾講過,在他早期的科研中,處理一幅圖像需要三四個小時,主要受限于當時的計算能力和內存瓶頸。在那個時代,處理視頻任務幾乎必須依賴專用加速卡,因為通用計算平臺(例如基于 Windows 系統的 PC)難以勝任高強度圖像處理的需求。在進入這個領域后,我被計算機視覺中嚴謹的理論體系和優雅的數學建模所吸引,特別是在貝葉斯理論和概率圖模型的基礎上,整個研究框架展現出高度的抽象性和美感。

然而,當時計算機視覺的產業化路徑非常狹窄,相關研究多集中在學術界。除了少數幾家企業開展視頻監控等初步應用,幾乎看不到商業落地的可能。我們經常說,博士階段的研究往往充滿前沿性和學術激情,但進入產業后卻發現缺乏對接的市場需求。

在這樣的背景下,我赴美開展博士后研究,并逐步將研究方向拓展到基于視覺的人機交互。這一方向也受到當時微軟提出的“自然交互”理念啟發,設想通過手勢、語音、眼神等方式代替鼠標鍵盤,實現更直觀的交互方式。然而,實際進展并不理想。無論是人臉識別、表情分析,還是語音交互和手勢識別,盡管技術積累不斷豐富,但始終未能突破瓶頸。

在語音識別領域,即便是 IBM、Intel、AT&T 等公司,在詞匯量上萬的條件下也只能達到約 80% 的識別準確率,幾乎停滯在一個平臺期。直到深度學習的出現,才帶來革命性突破。微軟最早將深度神經網絡應用于語音識別,首次將準確率提升至 90% 以上。這一成果激勵了整個 AI 領域的轉型。

2012 年,AlexNet 在 ImageNet 競賽中橫空出世,其準確率遠超傳統方法,標志著深度學習在計算機視覺領域的正式崛起。隨著工業界的重視,大量公司開始積極招聘視覺領域的研究人員。大約從 2014 年起,計算機視覺研究的重心逐步轉向深度學習。

我于 2016 年進入自動駕駛領域,這一轉型也受到 Google 在 2009 年啟動無人駕駛項目的影響。此后至 2020 年,我長期專注于自動駕駛技術的研發與產業化。尤其是在 2019 年之后,特斯拉模式的迅速崛起引發了行業重大變革。盡管初期存在多種發展路線,但市場最終傾向于特斯拉的端到端、自主學習驅動的路徑。這一階段,行業已進入“拼成本”與“搶落地”的激烈競爭中。

在自動駕駛領域深耕多年后,隨著 ChatGPT 的推出,我真正意識到大模型的顛覆性。盡管此前已有多種大型模型出現,但 ChatGPT 展現出的語言理解和推理能力,第一次讓人們開始認真思考 AI 是否具備“智能”的基本特征。這也促使我轉向關注大模型在具身智能領域的應用。

具身智能的潛力遠超自動駕駛,不僅涵蓋更多行業,也為人機協作、生產效率、智能服務等場景提供了廣闊空間。因此,許多自動駕駛領域的研究者也開始轉向這一方向。我逐步將研究重心放在具身智能及其機器人智能系統上。

目前,我尤為關注的是如何降低機器人智能系統的成本。無論是機器人還是具身智能平臺,其硬件成本和開發門檻依然居高不下。我們希望推動這一領域像 PC 產業一樣實現普及化,讓更多開發者能輕松參與其中,這將極大地促進 AI 生態的繁榮。李飛飛教授近期提出的“空間智能”概念,也再次強調了“交互能力”在智能演化中的核心地位。他指出,僅依靠視覺進行環境感知的生物,其智能發展遠不及能與環境主動交互的生物。因此,具身智能將可能成為推動下一代 AI 發展的關鍵力量。

我們相信,推動具身智能的普及化、平臺化,可能是實現真正全民智能社會的突破口。

唐小引:此前,DeepSeek 團隊發布了DeepSeek VL2混合專家視覺語言模型,該模型在計算機視覺應用中能夠發揮重要作用,有望推動該領域取得突破性進展。在當前 AI 發展的背景下,計算機視覺還是一個值得長期投入的方向嗎?

黃浴:多模態模型的誕生,實際上改變了我們對深度學習的基本認知。過去,我們主要依賴小模型來處理相對封閉、明確的任務,這在早期取得了不錯的效果。但如今,面對更加復雜且開放的任務場景,例如開放事件識別、跨領域理解等,我們發現僅憑有限知識往往無法覆蓋全部情況,容易產生遺漏。

如果模型的訓練仍局限在封閉的數據集或知識范圍內,那么后期的所有補充,幾乎都是“事后彌補”的方式。這就導致了數據閉環問題反復出現。即便是深度學習框架下的小模型,也因其開發范式的限制,難以有效應對這種復雜性。

可以說,視覺領域在傳統小模型范式下的發展已接近瓶頸。要突破這一限制,我們必須依賴大模型的能力。大型模型可以融合來自多種模態的信息,將感知、理解、記憶、反思、推理等多個層面的能力整合在一起,模擬人類更全面的智能模式。其中包括了對內容的深入理解、記憶和反思、思維鏈的組織方式等,這些核心認知能力的引入,只有在大模型的框架下才有可能實現。正是這種整合,使得我們有機會在計算機視覺、人機交互以及更廣泛的 AI 應用中,實現真正意義上的躍遷。

在這種情況下,計算機視覺可能會持續存在。

唐小引:近兩年不少自動駕駛領域的研究者開始轉向具身智能。那么,自動駕駛與具身智能之間究竟有著怎樣的交互關系?

黃浴在我看來,自動駕駛本質上就是一種機器人的應用形式。它具備移動能力,并能完成一個明確的任務:把乘客從 A 點安全送到 B 點,執行的是一種典型的“搬運”任務。

與一些需要更強交互能力的機器人不同,比如抓取物體、被人牽引、或執行復雜的人機互動,自動駕駛的核心并不在此。它的重點,是感知環境、規劃路徑,并最終控制車輛完成運動。其實這和空間智能是密切相關的。

具體來說,自動駕駛需要具備感知、規劃和控制這三個基本模塊。其中,感知模塊識別周圍環境;規劃模塊不僅負責整體路徑的制定,還包括中層決策,例如什么時候轉彎、變道或超車;而控制模塊則落實到對車輛的具體操作。通過反饋機制,這些控制動作可以實現平穩、連續的執行,這種反饋式控制其實和我們在機器人系統中討論的矩陣控制結構也有一定相似之處。

不過,自動駕駛也有其局限。例如,它在“任務完成之后”的行為模擬上還很薄弱,比如到達目的地后無法主動避讓行人、與人交互、或進行更復雜的行為協同。這正是通用機器人需要補足的能力。

如今,很多機器人已經能夠完成像抓取杯子、碟子,甚至處理堅硬物體這樣的任務。這是否足以支撐智能的發展?這是值得討論的。我們也看到,越來越多原本從事自動駕駛研究的專家,正在轉向更廣義的具身智能領域。

在自動駕駛熱潮之前,機器人技術的發展主要由波士頓動力這類公司推動,它們在資金支持下,將許多早期 AI 理論真正落地。從符號主義到規則系統,再到神經網絡,最后發展到強化學習,這一系列技術進步標志著從理論走向實踐的轉折點。

而現在,我們正處于由“大模型”驅動的新一波智能浪潮中。這些模型極大增強了系統的思維、推理和規劃能力。從整個 AI 行業的發展來看,自動駕駛在過去曾吸引了大量優秀人才,它在技術集成和產業落地方面有著天然優勢,是通向具身智能的一個重要橋梁。

這也解釋了,為什么那么多自動駕駛領域的人才轉向了具身智能。他們帶來了跨領域的經驗,推動了技術融合與發展。從這個意義上說,自動駕駛既是具身智能的人才孵化器,也推動了相關產業的進化,有助于將具身智能真正發展為未來的關鍵產業。

相比之下,比如語音識別等領域,雖然也重要,但在集成智能系統方面,可能還不如自動駕駛來得全面和復雜。而在我觀察中,自動駕駛領域的系統適應能力也更強。

陳光:智能體的本質在于具備“思考”“行動”以及“與環境互動”的能力。只要同時擁有“腦子”(用于思考)、“身體”(用于執行)和“環境”(用于交互),這三要素便構成了具身智能的基本框架,也就是我們常說的“腦+身”系統。

無人駕駛汽車其實就是一種典型的 Agent,它不僅具備感知、決策和控制的能力,還能在真實環境中完成任務。雖然汽車不像人形機器人那樣能夠抓握物體,但它依然通過感知和控制系統與外部環境持續互動。例如,在車聯網系統中,車輛之間的信息交換,以及車輛對周圍環境的動態反應,都是“與環境互動”的體現。

這也引出了一個關鍵問題:具身智能是否一定需要一個“身體”?英文中的 Embodied Intelligence 強調了“身體性”的重要性。那么這個“身體”到底指什么?廣義上看,它并不局限于人形或機械體。無人車、掃地機器人,甚至是元宇宙中的虛擬 NPC,都可以看作具身智能的載體。

具身智能可以細分為“思維智能”與“行動智能”兩部分:前者包括視覺感知、語義理解等認知能力,后者則關注如何與環境互動、如何控制身體行為并獲取反饋,從而完成學習和演化的閉環。

僅僅把一個多模態大模型裝進機器人里,并不能稱之為“智能”。當前許多系統仍缺乏主動性與任務意識,智能的真正本質在于主體在與環境互動中不斷適應與進化,而非只是具備感知能力。

因此,廣義的具身智能,強調的是“有思維、能行動,并能與環境持續互動”的系統。它可以是物理的,比如無人駕駛汽車、工業機器人、無人機;也可以是虛擬的,比如具備感知與決策能力的元宇宙角色。

從這個角度看,許多原本從事自動駕駛或計算機視覺的專家,如今投身具身智能的研究其實是順理成章的轉變。因為他們原本就在處理感知、決策與控制等關鍵問題,只不過現在的研究對象和應用場景更加廣泛和開放。

夏軒:我認為,除了研究范式的趨同之外,還有一個重要原因在于產業鏈的高度重合。自動駕駛所涉及的傳感器、環境建模、導航避障以及人機交互算法等技術,與機器人具身智能系統中的需求高度一致。盡管我們在乘用車上看不到機械臂的直接應用,但在汽車生產過程中,機械臂早已是關鍵環節。這種技術與產業的通用性,使得從自動駕駛轉向具身智能成為一條自然的路徑。


不同視角看具身智能

唐小引:關于具身智能,過去業界很多討論也常常給人模糊不清的感覺。請各位老師分享一下自己對具身智能的理解,以及對具身智能的定義是什么?

陳光正如教科書中的定義,具身智能是一種“感知—認知—行動”的閉環機制。簡單來說,就是系統具備“能理解、會思考、能行動”的能力。當然,環境的參與也是不可或缺的。如果一個系統只能思考和行動,卻無法與環境交互,那它就無法形成完整的智能閉環。

具身智能的核心在于:感知環境、作用于環境、獲取反饋,并在這一過程中持續學習、優化自身,這其實也是一種智能的“升級”機制。

從這個角度看,智能系統必須具備三大要素:認知、情感與環境。如果缺失其中任何一個,智能都無法真正成立。換句話說,具身智能本質上是思維智能與行動智能的深度融合,構成了一個動態、自洽的閉環系統。

黃浴:具身智能首先要有一個“實體”,一個能夠與環境互動并對其施加影響的身體。這種交互不僅是單向的,而是一個閉環的過程,通過感知反饋不斷調整行為,實現學習與進化。

關于具身智能的未來,一個重要問題是:我們是否能在這一領域構建出通用大模型?目前,行業中已有相關嘗試。例如,英偉達最近發布的 Cosmos 世界基礎模型平臺以及 GROOT 人形機器人基礎模型,正是在探索這一方向。大家也在討論:機器人基礎模型能否引發一波熱潮?如果成功掀起一波浪潮,正如黃仁勛所設想的那樣,我們將迎來具身智能的重大躍遷;如果做不起來,可能就像 OpenAI 早前發布的 Sora 一樣,引發爭議和反思。

雖然像視頻生成技術已經取得了一定進展,但仍面臨諸多挑戰。當前的這類基礎模型還無法全面反映現實中的理論體系,因而常出現 Bug,這說明模型還需要更多時間去學習與迭代。類似問題也出現在機器人領域,像數據瓶頸等問題,仍制約著具身智能的發展。

夏軒:我認為,具身智能的定義不應局限于是否擁有物理實體。即便是在虛擬空間中,只要具備感知、認知與交互能力,一個虛擬身體同樣可以被視為具身智能的載體。

兩位老師此前提到的關于“感知—認知—交互閉環”的討論,我覺得這是從外部視角來看而對具身智能的定義。從內部視角,我想補充這個定義。我認為,一個真正“具身智能”應該具備兩個核心的內部模型:

  • 第一個是世界模型世界模型的核心功能是認知世界萬物的組成,它不僅要理解世界由哪些元素構成,還要掌握這些元素如何運轉——無論是汽車行駛、飛機飛行的原理,具身智能都應有能力建模并推理這些機制。

  • 第二個是自我模型。它用于智能體理解自身在環境中的位置、角色和任務。這一模型對于智能體在復雜環境中做出合理決策和行為至關重要。

只有具備了這兩個模型,智能體才能真正實現與外部世界的“合理互動”——也就是說,其行為不僅對自身有意義,也能被外部觀察者理解。

唐小引:自我模型究竟是什么?

夏軒:“自我模型”有些類似于 Agent,是通過為大模型賦予角色來實現的。一個更加成熟的自我模型,或許應具備更清晰的模塊化結構,比如獨立的記憶模塊、人格模塊,以及道德與倫理模塊等。

這些模塊協同工作,構成一個能夠持續自我更新與調節的機制。當然,這一設想仍較為初步,相關研究尚處于探索階段,尚未形成系統化的方法論。

陳光:這可以從兩個層面來理解:一方面是對 Agent 整體的建模,包括其角色設定與具備某種程度“自我意識”的決策機制;另一方面,則涉及視覺領域中常討論的“以自我為中心”的視覺與行動方式。

我認為,當前機器人其實沒有“我”的概念。即現有系統在執行任務時,并不真正具備“自我”,它所做的更多是對意圖的理解、任務的分解以及行動的規劃,基本上遵循一個外在指令驅動的流程。在這個過程中,它忽略了人作為生物體所具有的獨特性——特別是人的主觀意識和自我認知。

“自我”這種存在于行動或者思考過程中會形成兩個“主體”:一個是“世界”,一個是“我”。真正具身智能系統應能夠在執行任務的過程中,考慮到自身與其他智能系統的個體差異——包括身體特征、習慣偏好乃至心理狀態——并在與環境互動時不斷優化這種關系,從而影響其后續決策。

然而,目前的機器人系統更像是任務執行的“工具”,并未體現“我”的個性。例如,當系統被指令“將蘋果放入盤中”,它關注的更多是如何驅動機械手臂完成動作,而不是在什么速度、什么姿態下完成這一動作才最符合“我”的特征和行為風格。

我認為,這種以“自我”為核心的動態調整機制,也應是未來自我模型構建的重要方向之一。

黃浴:實際上,當我們談及情感,乃至“自私”或“無私”的行為時,討論的都是個體的社會屬性。在多智能體系統(Multi-Agent System)的研究中,這類社會行為和性格特征已經成為重要的探討方向。當前,大家對 Agent 的理解已經不再局限于具備基本的思維與反思能力,而是逐步發展為:具備先驗知識、能參與群體互動,并在協作中展現群體智能。

近年來,關于群體智能的具體表現形式也有了更明確的討論。例如,認知系統中常被提到的 System 1 和 System 2(對應快速反應與慢思考)已經廣為人知。而一些研究者進一步提出 System 3,用于描述群體智能的運作機制;甚至還有 System 0,用以指代尚未形成認知的“預認知狀態”(pre-cognitive state)。

有人將這種認知結構擴展為“四系統模型”(Four-System Model),其核心是試圖從系統架構角度建模 Agent 群體中的協作機制,包括角色分工、任務協調等。

在設計這類系統時,我們常常會為每個 Agent 設定具體角色,例如經理、工程師、QA 或項目管理者等,每個角色承擔不同職責,從而構建出一個具備協作能力的多 Agent 系統。

從這個角度來看,大模型領域的“專家混合模型”(Mixture-of-Experts)也體現了類似的思想:系統由多個較小模型組成,通過一個“路由器”模塊協調各模型的調用,以實現整體性能的提升。與傳統的大模型相比,MoE 中的各個子模型通常更小,因此具備更好的靈活性與可擴展性。

除此之外,例如 Meta 的Ego4D項目便強調了“以自我為中心的視覺”在人與機器人行為建模中的關鍵作用。畢竟,不論是人還是機器人,操作任務時幾乎都依賴這種第一人稱視覺。

然而,在模仿學習(Imitation Learning)中,我們通常采用的是第三人稱視角,例如通過觀察他人踢球或做飯來學習動作。要將這種觀察轉化為機器人可執行的動作,就必須實現“視角轉換”,這對計算機視覺系統來說,等同于坐標系的轉換。

此外,對于具身智能系統而言,這種視角的切換也反映了其學習能力的核心挑戰。一個模仿能力強的系統,應當能將第三視角的觀察有效地轉化為第一視角的行為策略。實際上,在執行復雜任務時,這兩種視角往往需要結合使用。

陳光:有人認為機器人具備自我是極其危險的。我認為,這種擔憂可能源于對“EGO4D”一詞的誤解或混淆。在我們的討論中,“EGO4D”更多指的是主觀視角,即以自我為中心的感知與決策方式。而不少人理解中的“自我”指的是“自我意識”這一概念,與主觀視角并不等同。因此,關于人工智能是否能夠、或者是否應該擁有自我意識,是一個至今尚無定論的開放性問題,因為我們對自我意識本身的理解仍十分有限。

回到“Agent”這一核心概念。它在具身智能與當前基于大模型的 AI 系統中,實際上指代的是兩類不同的智能體:

一方面,在具身智能中,“Agent”通常指的是一個擁有身體與感知能力、能夠與環境交互的智能個體——它不僅僅是思考和推理,更具備行動能力和自主反饋機制。

而另一方面,像 Manus 這類系統中的“Agent”,更接近于“代理”角色,它們是大模型前端的執行單元,負責意圖識別、任務分解、工具調用與結果整合等。這類 Agent 更像是一個任務管理器或調度器,強調的是工程集成能力,而非自主性。這些 Agent 可能基于同一個底層大模型,通過不同的設定與提示詞執行各自的任務,比如反思、修正或評估。這種多輪推理的過程,本質上也是一種由多角色協作完成的“程序運行”,它引入了更多不確定性與反饋機制,進而提高了結果的魯棒性與智能性。

因此,我們有必要明確區分這兩種 Agent:一種是具身智能意義上的 Agent,強調與環境的交互、自我建模與演化;另一種則是工程意義上的代理 Agent,更側重于任務執行與系統調度。雖然在英文中都稱作 “Agent”,中文也都翻譯為“智能體”,但兩者內涵和能力邊界存在本質差異。

目前,一些專家傾向于將后一類 Agent 稱為“代理”,以避免混淆。尤其在當前“Agentic Workflow”熱潮背景下,不少觀點認為 Manus 一類的系統本質上更像是工程方案的集成成果,而真正實現意圖理解、任務拆解和工具協同的核心能力,依然來自底層大模型。因此,從創新性與技術壁壘的角度來看,值得更多掌聲的是基礎模型本身。

不過,這也提醒我們,大模型雖強,卻只是整個具身智能系統中的一個組成部分。完整的智能體還需要依賴多模態感知能力、對世界的建模能力,以及在持續環境交互中進行自我迭代的機制。這些能力并不能單靠大模型獨立完成,而是需要與感知系統、記憶模塊、自我模型等更廣泛的系統架構協同工作。


我們離通用機器人還有多遠?

唐小引:黃仁勛認為“通用機器人時代已經到來”,在大家看來,目前具身智能的發展現在處于哪個階段?

陳光:我認為,智能的發展是一個逐步成熟的過程。關于通用具身智能是否已經到來,這并不是一個可以用“是”或“否”簡單回答的問題。所謂“通用”,更像是一個漸進的過程,而不是某一時刻的突變。

從目前的情況來看,我們可以說已經邁出了通向通用智能的第一步,但要真正實現全面通用,還有很長的路要走。當前,我們在技術基礎設施、算法、傳感器和執行器等方面,已接近一個臨界點,技術成果正在逐漸顯現,但從研究到落地仍需時間。

換句話說,一只腳已經跨入了門檻,但整個系統仍在演進之中。盡管如此,我們的方向是明確的,正在沿著正確的軌道前進。隨著對通用智能的持續探索和理解的不斷深化,我相信我們正進入一個令人振奮的新階段。

夏軒:我認為,我們現在仍處于“剛剛起步”的階段。無論是通用機器人的本體,還是支撐其運行的算法與模型,目前都遠未達到收斂狀態。從發展順序來看,我判斷算法和模型會比本體更早接近收斂,但即便如此,這個過程在短期內也難以完成。因此,我們可以說,通用機器人只是剛剛邁出了第一步。

而且,“通用”究竟指的是什么?這一概念本身仍缺乏清晰的定義。在我看來,通用性可以從兩個層面理解:狹義上,它是指機器人能復制人類的能力,勝任人類日常執行的各類任務;廣義上,則意味著機器人還能完成人類做不到的事情,具備超越人類的能力。

不管從哪個角度來看,現階段的機器人都還遠未達到所謂“通用”。比如說,若想復現人類的復雜能力,像前空翻、后空翻或側空翻這些高難度動作,雖然人類可以輕松完成,但機器人目前還只能在特定條件下嘗試。再如精細操作領域,靈巧手的發展也仍停留在實驗演示階段,離真實應用還有很長的路要走。

至于實現“超人類能力”的通用性,更是遙遙無期。特別是在特定場景下,比如水下救援,我們現在仍需要依賴專業化的機器人。通用機器人尚無法應對復雜環境的適應性要求。因此,在可預見的時間內,實現“通用本體”難度很大。相比之下,構建可跨多種平臺使用的通用算法或模型,也許是更現實的路徑。我們可以優先發展具備泛化能力的模型,然后再適配到不同的機器人硬件上。

總的來說,具身智能領域算法和模型離真正的“收斂”還很遠,更別說達到類似大模型那樣的全局最優狀態。我們確實只是剛剛啟程。

黃浴:技術生命周期曲線來看,具身智能正處于第一個上升期,也就是早期爬坡階段。同樣從機器人本體的研究和算法與模型的研究來看具身智能的發展。

從本體角度來看,當前機器人在許多關鍵能力上仍然存在明顯短板。以觸覺感知為例,大多數機器人并未配備足底觸覺傳感器,導致其在行走時不得不依賴膝蓋彎曲來保持平衡。為什么人類行走時可以輕松保持直立?這是因為我們的腳底具有高度敏感的觸覺系統,能實時感知地面信息,從而實現動態穩定。而在缺乏這一感知機制的情況下,機器人就如同雜技演員沒有平衡桿,只能依靠其它關節或冗余動作維持穩定,運動控制變得極具挑戰。

再來看機器人的操作能力。現在我們看到的很多“表演型”人形機器人,常展示走路、跑步、空翻等動作,雖看似高難,實則偏離了真正的“人類任務”語境。現實中,一個人完成任務往往是全身協同的結果。比如端一個物體時,可能會用腹部支撐、雙手托舉,同時還要調整身體重心維持平衡。這種多點協作和感知調控,目前的機器人系統還難以實現。

現實中的機器人系統往往是“拆分式”的:要么專注行走,要么做導航,要么執行某項任務,很少能真正整合多個功能,像人類一樣自然流暢地完成一件完整的事。這就引出了算法方面的挑戰。高自由度系統的控制十分困難,尤其在具身智能中,每增加一個感知通道(如視覺、觸覺、聽覺),模型所需處理的維度就更高,算法的魯棒性也隨之下降。傳統算法設計中,我們常用“分治算法(divide and conquer)”策略,把高維問題拆解為多個低維子問題。

但問題在于,隨著系統維度不斷上升,模型對擾動的敏感性也會增加,越復雜的模型越容易出錯。以靈巧手為例,過去我們在采集手部操作數據時,使用的是數據手套,這種方法雖然方便、成本低,但它的自由度遠遠不及真實人手。而當前市場上某些高自由度的仿生手系統,雖然看起來“高大上”,卻往往不夠實用——它們的控制復雜度極高,需要布置大量電機,成本也非常昂貴。即使現在已有公司嘗試商業化這些產品,但如果性能、穩定性和成本難以平衡,用戶是否愿意為此買單仍是未知數。


具身智能的技術突破該怎么走:緊隨潮流 vs 長期沉淀

唐小引:從具身智能企業建設的視角來看,有兩個常被提及的觀點:一是順應技術趨勢,二是堅持長期主義。看似矛盾的兩者,在具身智能領域體現得尤為明顯。當前,具身智能被視為通往 AGI 的一個關鍵方向,正處于快速發展期,但仍面臨高成本、通用性不足等現實挑戰。對于企業而言,如何在緊抓趨勢和長期投入之間找到平衡,即商業化之路怎么走?對于個人,當投身于這一領域時,該如何看待職業發展與長期投入的關系?

陳光:這一問題其實包含兩個層面:一是研究需要耐得住寂寞,二是應用開發不能耐得住寂寞,必須緊跟技術前沿發展。

至于開發者在做創新應用時是否應該去追逐“通用型機器人”,核心還是在于“通用性”這個概念。實際上,只要一個任務可以被清楚地定義,比如“翻跟斗”或“擰瓶蓋”,那它就不再屬于“通用”的范疇,而是一個具體的功能。即便我們把多個這樣的任務組合在一起,也不等于真正意義上的“通用智能”。

我們理想中的“通用性”,是希望機器能像人一樣,靈活應對各種未知的復雜情況。但現實中,只要任務能被明確描述,大多都可以通過現有技術,比如強化學習,在模擬環境里逐步逼近目標。這也帶來一個悖論:一旦你能把任務清楚地說出來,它往往就已經不是“通用”的了,而變成一個可定義、可求解的問題。

對產品開發者來說,更務實的做法是專注在某個具體場景上,而不是追求“什么都能做”。比如在醫療或家庭陪護場景下,如果機器人能做好三件事:推輪椅、幫老人起身、能簡單交流——那就已經很有價值了。它可能談不上“通用”,但在家庭陪護實際應用中,已經足夠實用。如今,要實現“在任何場景下都能勝任任務”的通用能力,技術上還遠未成熟。這一塊的挑戰存在于多個層面——從感知傳感器、執行控制,到大模型本身。雖然大模型已經展現出很強的智能,但它對許多任務的理解仍不夠深入,尤其在任務分解上還有明顯的局限。因此,我們必須回歸現實,圍繞明確的場景和需求進行有針對性的設計。

其次,對于研究者與開發者的不同節奏問題,我認為,研究確實需要長期投入,聚焦一個方向,并能耐得住長期沒有結果的孤獨感。我自己做大模型安全相關的研究就深有體會,比如對齊問題,往往會犧牲底層模型的能力,這需要反復探索和權衡。

但作為開發者,我認為要敢于用當下最前沿的能力。即便現有模型還有不足,很多場景其實已能跑通。例如,Agent 其實早在前年就已出現,只是到了 2024 年底,隨著大模型對任務拆解、工具調用能力的提升,它們才真正實用起來。我們看到的“Agent 熱潮”,不是偶然,而是底層能力逐漸成熟的結果。

開發者無需等到所有技術都完善才開始做產品。相反,應在已有能力的基礎上搭建框架、明確路徑,并隨著技術進步逐步完善細節。就像過去一些看似零散的探索,最終構建起了完整的智能系統雛形。

要知道,底層模型能力再有限,也有其應用場景。關鍵是開發者要找到那個“剛剛好”的匹配點,真正把技術用起來。同時,也需要持續關注新技術的突破,保持學習和迭代能力。

我理解的長期主義,并不是一味死守某個方向,而是要在一個價值取向上持續投入,不斷適應和調整。在研究領域,可能要忍受長期沒有結果的反饋;但在產品開發中,更應重視快速驗證和迭代。小步快跑、持續試錯,是推動創新落地的有效方式。

夏軒:對開發者,尤其是創業者來說,具身智能的落地更可能首先集中在固定的垂直場景中,而不是追求“萬金油”式的通用能力。如果客戶提出“什么都能干”的需求,那多半是脫離現實的。

選擇垂直場景時,最好能配套一個大客戶。因為大客戶不僅意味著穩定的支付能力,也能為產品賦能,在應用中提供真實反饋和場景打磨。

在垂直場景之外,我認為工業領域尤其值得關注。為什么選擇工業?因為工業場景具備可擴展性。相比某些客戶雖然有付費能力但場景單一的情況,工業系統一旦跑通,就具備復制和推廣的可能,尤其是在制造業等領域。在這類場景中,模仿學習和強化學習等技術能夠發揮基礎作用。

雖然我們的最終愿景是讓具身智能進入千家萬戶,但現實是這條路注定需要幾年的技術沉淀。

目前,具身智能無論是感知還是操作的精度,從實驗室走向真實世界,仍存在至少兩個數量級的差距。哪怕在某些做得較好的任務中,其準確率能達到 99%,但工業領域可能需要達到 99.99%,這就與實驗室目前實際能達到的水平相差甚遠。

因此,對開發者而言,關鍵是如何圍繞特定場景持續提升系統精度,真正實現技術的可用和可落地。

唐小引:相比于追求通用機器人,你們都更強調開發者應聚焦于專用型機器人。那具身智能未來最有可能率先落地的三個典型應用場景會是哪些?

陳光在當前技術尚未完全成熟的情況下,推動具身智能落地的關鍵反而可能來自需求和資本兩個層面。從這個角度看,我認為,家庭看護、家務服務是兩個最基礎、也最現實的需求方向。

夏軒:如果要給具身智能的應用做一個排序,我的Top 3是這樣的:

  • 第一是檢修類場景。無論是電力檢修,還是汽車維修,都高度依賴人工,而在實際生活中我們往往忽視了汽車維修行業的規模和復雜性。實際上,每天都有大量車輛需要維修、保養,是一個典型的、高頻次的剛需場景,非常適合智能化介入。這個場景的復雜性在于,每天都會遇到各種不同類型的問題,車輛狀況千差萬別,對機器人提出了更高的感知、分析和交互能力要求。如果能在這一領域實現突破,將會非常有價值。

  • 第二是工業制造場景。當前自動化水平高的工廠可能暫時不適合部署人形機器人,因為已有流程已經足夠高效。但對于那些自動化水平尚不高的工廠來說,直接引入具身智能體甚至比升級現有自動化設備更劃算。它們可能跳過傳統自動化階段,直接進入智能化階段。當然,這背后也需要進行相應的環境改造,以便機器人能更好地適應和操作。但如果從長期成本和靈活性角度來看,使用人形機器人替代人工,反而是更具性價比的選擇

  • 第三是家庭場景不過我認為,家庭領域的落地還需要更長的時間,短期內并不具備規模化部署的成熟條件。一個主要問題是安全性,家庭機器人可能踩到障礙物后跌倒造成安全隱患;另一個是當前有很多家庭未必能夠負擔得起購買人形機器人。我認為,最早實現商業落地的將是某個垂直領域,且該領域內存在愿意付費的大客戶。

所以從我的角度來看,工業場景因其規模化潛力,即使利潤微薄,只要市場規模得以突破,仍能帶來可觀的收入。然而,直接進入消費市場若生產過剩而無法銷售,則可能會遭受重大虧損。

黃浴:關于前面提到的通用型機器人,也就是能夠勝任多種任務的機器人,英偉達近期的研究成果似乎讓通向通用人形機器人的路徑變得更加明晰。根據最新的報告顯示,研究人員普遍認為,Figure 的 Helix 中所提出的“系統一”(快系統)和“系統二”(慢系統)的雙系統架構,可能是實現這一目標的關鍵。

在這個架構中,“慢系統”利用大型模型的推理能力處理復雜問題,而“快系統”則借助類似 Transformer 的結構進行快速響應。例如,Figure 的 Helix 模型可實現約 200 赫茲的響應頻率。英偉達近期的報告中也提出了兩類模型:一類用于推理,另一類針對人形機器人設計,其架構同樣體現出快慢系統協同的理念。這種方式為通用機器人的實現提供了一種思路。

從人類的學習過程看,這種“快慢系統”機制也有對應。比如學習騎自行車,最初大腦高度參與,需要不斷學習、模仿、練習;而一旦掌握后,騎行幾乎不再依賴大腦主動控制,這正是所謂的“肌肉記憶”。

事實上,人類從幼兒期開始就不斷通過這種方式積累技能。比如學走路,一旦掌握,成年后幾乎不會忘記。除非出現老年退化或疾病,大多數人都能自然行走。因此,實現通用機器人的一大關鍵,在于如何讓其掌握并組織復雜或熟練的技能,并具備持續學習與演化的能力。

通用機器人還應具備自主學習能力,而非依賴人工介入。比如,如果我讓一個機器人執行某個動作,然后它能夠自行掌握該動作,那么我們就實現了通用機器人。否則,我認為它還不能被稱為通用機器人,這實際上是一種持續學習的能力。

從機器人本體層面看,目前機器人的靈活性仍不成熟。尤其是在靈巧度方面,諸如轉動筆這類動作,需要高度精細的手指控制與觸覺反饋,而這是當前機器人尚難企及的能力。缺乏靈巧硬件支撐,通用機器人的實現仍有距離。

談到機器人最能落地的應用場景,我認為最容易實現的是生產線上使用的機器人,因為其任務明確、可拆解。而最具挑戰性的場景,則是涉及高危或高互動性的工作,尤其是與人密切協作的情境。

例如,機器人照顧老人或小孩,這類任務安全性要求極高,很難放心完全交由機器人獨立完成。相比之下,那些不需人類陪伴、可獨立作業的場景更適合目前的機器人能力。比如執行分揀、清理或危險作業,這些都可以視為更現實的應用方向。


直擊具身智能痛點:數據瓶頸、計算瓶頸、模型架構

唐小引:在具身智能研究中,數據瓶頸是一個公認的關鍵問題。除了數據瓶頸外,計算資源和模型架構也存在諸多挑戰。請各位老師結合自己的觀察談一談這三大痛點問題?

夏軒具身智能中的數據本質上是為模型服務的,而模型類型決定了所需的數據類型。目前主流模型分為兩類:分層決策模型和端到端模型。這兩類模型還可以細分為不同形式,比如分層決策模型可以分為快慢系統(類似大腦與小腦的分工)或大腦直接調用各類技能模塊。有些技能模型專門負責抓取、按鈕操作等具體功能。

針對可學習的模塊,大致可以分為四種:大腦模型、技能模型、小腦模型,以及端到端模型。不同模型對訓練數據的需求差異顯著。

其中,大腦模型實際上相當于一個大型通用模型。它不僅需要掌握物理世界的常識,還要理解人類指令、技能等,這要求覆蓋大量場景、任務、機器人類型和傳感器配置。為了滿足多樣性要求,單一組織很難獨立采集足夠豐富的數據。此外,結合人類演示與機器人感知數據時,如何保證數據質量也是一大挑戰,數據質量評估成為瓶頸之一。

另一個問題是,真實數據的采集速度只能線性增長——增加人力與設備只能帶來成比例的提升。而模型性能提升遵循 Scaling Law,呈指數增長,導致數據增長速度遠遠跟不上模型訓練需求。

在這種情況下,合成數據成為重要補充。但合成數據的效果又高度依賴仿真平臺的擬真程度,而現有仿真技術仍無法完美還原真實世界。因此,如何合理結合真實數據與合成數據,成為當前學界關注的重要問題,但仍缺乏成熟答案。

黃浴我認為,最理想的數據來源是人類,如果能直接應用于機器人,那無疑是最佳選擇。但實際上,人類數據很難直接獲取。比如,通過觀察視頻,很難準確提取出類似機器人數據中的關節軌跡和運動信息。因此,目前最優質、最可控的數據往往是通過機器輔助生成的,比如借助外骨骼設備等。

在這過程中,出現了一個過渡階段,即利用 VR 設備輔助數據采集。通過佩戴 VR 頭盔并執行特定動作,再結合 VR 設備中傳感器對動作進行標注,可以一定程度上彌補人類數據難以直接使用的問題。總體而言,在當前階段,機器人數據相對容易采集,而人類數據標注則成本高昂且困難重重。

雖然互聯網上有海量視頻,但現有人工智能技術在動作提取和精確標注方面的準確率仍然很低,因此依然難以大規模直接利用。這也導致目前幾乎所有具身智能研究者都承認,數據缺失是一個普遍痛點。

要真正解決這一問題,或許只能依賴分布式采集和建設。例如,Google 正在嘗試通過大規模收集機器人交互數據來構建以及訓練一款基礎模型。但對大部分開發者和中小型團隊來說,更現實的路徑可能是通過“平民化”的方式,以最低成本去采集和使用數據。數據采集和處理后,再盡可能提升數據的泛化能力,減少模型對具體實體和場景的依賴,也能大大提高數據的重復利用率。

我認為,這種以低成本快速迭代、落地應用,再通過逐步實現商業價值,進而回收成本,最終反哺數據質量提升的模式,可能是最符合當前產業發展需求的一條路徑。畢竟,即使是像 Google 這樣資源豐富的公司,也難以長期承擔純靠高投入堆砌數據的方式。

當然,短期內我們也能看到一些經驗教訓。在大語言模型早期發展階段,訓練數據主要是文本,且絕大部分是英文。這些數據來源廣泛、共享良好,且利用自監督學習的方法(如 Masked Language Modeling)基本不需要額外標注,極大降低了成本。而具身智能則不同,一開始就缺少可以直接用的大規模高質量數據。

因此,相比當年 LLM 面臨的問題,如今具身智能在數據上要艱難得多。當前,我們不僅要解決存儲、計算資源、模型架構的問題,更要優先突破數據瓶頸。沒有足夠好、足夠多的數據支撐,后續的分析和模型優化都難以為繼。

如果我們能率先降低數據獲取和處理的難度,后續在計算和模型架構上的突破也有望加速到來。

陳光很多之前接觸技術不多的朋友可能會疑惑:為什么具身智能需要如此大量的交互數據?實際上,人類的學習有兩種基本方式:一種是通過示范學習,比如觀看視頻、模仿他人的操作,從中理解并習得經驗;另一種則是通過親身實踐,在與環境的持續交互中積累知識。

對于具身智能而言,它實際上是一個以環境交互為核心的機制。因此,通過自身的體驗來學習,是目前最有效且高效的方法。雖然現在也有模仿學習,比如通過 YouTube 視頻訓練模型,但在實際應用中,這類方法在遷移能力、魯棒性等方面仍面臨巨大挑戰。

舉個例子,比如實現機器人“踹不倒”的功能,只有當它真正經歷了失去平衡、重新調整、恢復穩定的全過程,機器人才能收集到有價值的數據,用于強化學習。這種通過親身體驗獲得的數據,是提升模型能力的關鍵資源。

相比之下,像 AlphaGo 這樣的系統能夠快速提升,是因為它們可以在虛擬環境中無限次地進行自我博弈,快速累積經驗。但具身智能要想通過仿真環境采集數據,要求極高。環境模擬不僅要精準,還需要考慮氣溫、氣壓、地面摩擦力等復雜因素。當前的仿真系統很難達到這種精度,因此,許多關鍵數據必須在真實世界中采集。但現實世界的數據采集受限于物理時間和資源成本,沒有“加速鍵”,無法像虛擬環境那樣批量生成。

因此,解決數據瓶頸,需要從多個方向同時推進:

  • 首先是自監督物理探索。就像我們在虛擬世界或 VR 中做的那樣,讓機器人自主探索環境、生成數據,無需大量人工干預。

  • 其次是生成式合成數據。可以借助大模型,像天氣預報那樣,通過擬合真實世界中各種復雜因素(如擴散模型、Transformer 等),生成更加精確可靠的訓練數據。

  • 此外,我們還應打破傳統從模擬到現實(Sim2Real)的一條路思維。未來,更理想的方式是現實與模擬的雙向融合:在真實世界中采集那些低成本、高價值的數據,在仿真環境中生成難以直接獲得的數據。對于任務精度要求不高的部分,可以充分發揮仿真的效率,形成現實與仿真的混合訓練體系,從而緩解當前數據不足的問題。

  • 另一個方向是少樣本學習。很多物理規律,尤其是稀有、小概率現象(比如杯子破碎、水穿杯子等現象),在傳統采集中容易被忽略。通過少量示范提煉出普適知識,能有效補足這類罕見場景的數據空缺。

  • 同時,多智能體(Multi-Agent)學習也是突破口之一。比如 Meta 研究的多智能體協作逃離迷宮,就是通過多個 Agent 互相傳遞經驗,降低單體學習對數據量的要求。這種經驗共享機制,能顯著提升學習效率。

  • 最后,機器人自身的內在驅動力設計也很關鍵。當前機器人在探索環境時,普遍缺乏“好奇心”,導致數據收集效率低。注入好奇心機制,不僅能讓機器人更主動探索,還能實現長時間持續的數據收集。例如,一個具備好奇心的機器人,能做到 24 小時不間斷地在環境中學習和記錄,這對緩解數據瓶頸意義重大。

綜上所述,雖然具身智能這條路充滿挑戰,但也蘊藏著希望。那些易于獲取的成果,如同低垂的果實,早已經被摘取了,未來的發展必然是逐步攻克越來越難的技術壁壘。這不僅需要時間,還需要各類技術積累與組合創新的共同推進。


未來展望

唐小引:在大模型領域,大家對未來的關注集中在 Agent、Scaling Law 等方向上。那在具身智能領域,其未來有哪些值得關注的方向以及趨勢?

陳光從長期發展的角度看,我們可以觀察到幾個明顯的趨勢。

首先,具身智能正從性能優化轉向適應性設計。其中性能優化主要涉及到機體性能的提升,或是智能思考、任務分解與規劃能力的增強。但相比之下,適應性顯得更為關鍵。當前機器人大多只能完成預設任務,若要邁向通用化,必須強化環境適應與新任務應對能力。因此,適應性設計將成為未來發展的核心關注點。

其次,是從確定性控制轉向概率性思維。因為現實世界本質上充滿了不確定性和隨機性。對規律的認識與世界的建模,關鍵在于如何在確定性中融入不確定性,或者在不確定性中體現確定性。因此,從大模型應用到具身智能設計,再到環境交互,概率性思維是關鍵一環。

再者,具身智能正從分析還原走向整體涌現。過去,機器人主要通過合成數據和真實數據學習經驗、知識與技能,以實現更自然的交互。而未來,我們將見證具身智能實現類似于 ChatGPT 到 OpenAI o1 的轉變,它將在多輪、多智能體交互中展現更強的智能與動態邏輯性。

最后,具身智能的機器人正逐步從工具屬性轉向伙伴屬性。這與我們使用大語言模型的方式類似:不僅僅讓它們完成特定任務,而是與它們共同探討問題解決方案。這種范式的變化正在加速,就像許多影視作品中描繪的一樣,現實中也已有初步的體現。以《鋼鐵俠》中的JARVIS為例,它不僅是一個工具式的API,還能提供建議、協助頭腦風暴,甚至參與設計過程。正是這種協作與伙伴式的交互,帶來了更豐富的體驗與功能。

以上四個方向,無論是對研究者還是開發者來說,在未來都值得重點關注。

黃浴在數據方面,我認為有兩點尤為重要:一是如何構建高質量數據,二是如何高效利用現有的互聯網數據。人類創建的數據始終備受關注,一方面因為它有助于緩解未來可能面臨的數據匱乏,另一方面也與仿真技術的發展密切相關。合成數據長期以來被視為彌補數據不足的有效手段。

近期,無論是Sim-to-Real還是Real-to-Sim的閉環過程中,都能看到計算機視覺領域對神經渲染技術的持續探索。比如早期的NeRF,以及近年來出現的Gaussian Splatting(高斯濺射),這類技術不僅能夠基于真實數據重建高逼真場景,還能大幅提升仿真環境的質量,因此成為當前的研究熱點。

從具身智能的視角來看,數據問題本質上也是一個AI問題,涉及安全性、可解釋性等核心挑戰。同時,模型的泛化能力也是未來的關鍵議題——即能否在新環境、新任務下快速適應,實現舉一反三。特別是在目標、環境或任務發生變化時,模型如果無法及時調整,就難以在實際應用中發揮價值。比如在自動駕駛領域,適應速度就是衡量智能系統性能的重要指標。

最后,我們也在關注底層智能對社會產生的深遠影響,包括與人文、倫理及社會變革相關的問題。

夏軒關于具身智能,未來的發展趨勢可以歸納為以下幾點。

  • 首先,在數據方面,未來需要更大規模、更高效的數據生產手段。盡管我們可以通過合成數據或互聯網數據訓練基礎模型,但在真正應用到具體機器人時,仍離不開針對性的真實數據微調。因此,如何提升數據采集效率,成為亟待解決的關鍵問題。

  • 第二,模仿學習與強化學習的融合將成為趨勢。這二者各有優劣:模仿學習依靠觀察獲得能力,強化學習通過環境交互進行優化。單獨使用時,二者在準確性和收斂速度上各有局限。近年來,越來越多研究者探索將二者結合,相信這一方向將在不久的將來帶來重要突破。

  • 第三,具身智能的系統架構正在經歷從分層決策到端到端,再回到分層決策的演變。早期采用“大小腦”式分層結構,強調工程實現;后來,端到端方法尤其以特斯拉的自動駕駛技術為代表,一度受到高度評價,引發了是否可以全面端到端的討論。但實踐證明,端到端方法在推理效率和實時性方面存在局限。因此,業界又開始關注快慢系統的分層組合。我個人認為,這種模式更接近人類認知處理方式,未來有望成為主流。

  • 第四,具身智能的最終目標是通用性,而人形機器人則是實現這一目標的重要載體。實現通用性要求機器人能夠適應人類環境,具備良好的環境兼容性、地形通過性和工具使用能力。此外,協作兼容性同樣重要。為了在家庭等場景中安全應用機器人,需要確保它們在與人類共處時不會造成潛在傷害。若一個人形機器人動作失控,對周圍人造成傷害,顯然是不可接受的。因此,初期可以優先將人形機器人部署在不易造成人身風險的場景中,逐步打磨其與人類的協作能力。

  • 最后,還需要關注機器人的環境適應細節。例如,當機器人進入室內時,如何應對鞋底沾泥的問題?未來,機器人需要具備自行更換鞋子的能力,而不是依賴人類操作。這類看似細小的場景細節,其實都直接關系到機器人能否真正融入人類日常生活。

關于《萬有引力》:

這是由 CSDN &《新程序員》執行總編唐小引主理的對話欄目。技術趨勢多變,一不留神總擔心錯過。正在發生的技術事件,對于我們開發者意味著什么?我們面臨的諸多困惑從何尋找答案?《萬有引力》即志在于此,直面事件與困惑,抽絲剝繭,解讀技術真相。

  • 欄目定位:一檔面向開發者群體,聚焦解讀技術事件的對話直播欄目。

  • 直播觀看平臺:CSDN 視頻號、CSDN 網站 & App

  • 多形式:文章、視頻、音頻都會有,持續關注 CSDN 公眾號都可獲取。目前《萬有引力》欄目已上線小宇宙平臺,歡迎大家關注!

2025 全球產品經理大會

2025 年 8 月 15–16 日

北京·威斯汀酒店

2025 全球產品經理大會將匯聚互聯網大廠、AI 創業公司、ToB/ToC 實戰一線的產品人,圍繞產品設計、用戶體驗、增長運營、智能落地等核心議題,展開 12 大專題分享,洞察趨勢、拆解路徑、對話未來。

更多詳情與報名,請掃碼下方二維碼。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
假如中國要立強國之威,必須要對外打一仗的話,打誰?

假如中國要立強國之威,必須要對外打一仗的話,打誰?

小企鵝侃世界
2025-06-13 22:09:27
臉都不要了!伊朗被美伊兩國連番羞辱后,才想起中伊25年之約?

臉都不要了!伊朗被美伊兩國連番羞辱后,才想起中伊25年之約?

阿纂看事
2025-06-13 21:18:56
70萬粉絲一夜歸零!“未成年”網紅終于要涼了?

70萬粉絲一夜歸零!“未成年”網紅終于要涼了?

雷科技
2025-06-14 20:24:25
吉雪萍拍全家福,富豪老公罕見露面,三個兒子都隨媽,長相帥氣

吉雪萍拍全家福,富豪老公罕見露面,三個兒子都隨媽,長相帥氣

180視角
2025-06-14 06:38:54
比亞迪“不講武德”!超級混動,顏值旅行車,更大更強,12萬級

比亞迪“不講武德”!超級混動,顏值旅行車,更大更強,12萬級

米粒說車唯一呀
2025-06-14 15:08:43
美國拿到稀土解禁令,不到24小時,白宮態度大變,中國被擺了一道

美國拿到稀土解禁令,不到24小時,白宮態度大變,中國被擺了一道

呼呼歷史論
2025-06-15 01:43:53
威廉王子的億萬富翁好友在馬球比賽中“吞食蜜蜂”死亡,生前曾說:我吞下了什么東西

威廉王子的億萬富翁好友在馬球比賽中“吞食蜜蜂”死亡,生前曾說:我吞下了什么東西

鄉野小珥
2025-06-14 11:40:31
鳳凰傳奇曾毅塌房:戴“性暗示”手表,機場踹女員工,玲花受牽連

鳳凰傳奇曾毅塌房:戴“性暗示”手表,機場踹女員工,玲花受牽連

春序娛樂
2025-06-14 13:15:28
涉嫌嚴重違紀違法!廣東一公安局分局原副局長被查

涉嫌嚴重違紀違法!廣東一公安局分局原副局長被查

花young的生活
2025-06-13 23:42:03
李夢為何缺陣?跟你想的不一樣,宮魯鳴用行動給出答案,2個方面

李夢為何缺陣?跟你想的不一樣,宮魯鳴用行動給出答案,2個方面

史書無明
2025-06-14 11:37:07
種牙背后五大雷區!三甲醫生含淚忠告:這些人的牙床正在悄悄崩塌

種牙背后五大雷區!三甲醫生含淚忠告:這些人的牙床正在悄悄崩塌

戰術小豬
2025-06-14 17:22:26
印度男子攢錢6年帶上妻兒4人飛往倫敦定居,客機起飛幾分鐘后墜毀在地

印度男子攢錢6年帶上妻兒4人飛往倫敦定居,客機起飛幾分鐘后墜毀在地

可達鴨面面觀
2025-06-13 08:57:43
恐怖如斯!今年季后賽福斯特執裁的比賽 步行者0-5 雷霆4-0

恐怖如斯!今年季后賽福斯特執裁的比賽 步行者0-5 雷霆4-0

直播吧
2025-06-14 11:49:26
杭州有個名叫“綠顏色的小區”,你聽說過嗎?

杭州有個名叫“綠顏色的小區”,你聽說過嗎?

都市快報橙柿互動
2025-06-14 14:53:24
以色列最高明的一招,放過哈梅內伊

以色列最高明的一招,放過哈梅內伊

超級學爸蛋總
2025-06-14 07:51:30
以色列高級顧問稱“目前沒有計劃殺死”伊朗政治領導人

以色列高級顧問稱“目前沒有計劃殺死”伊朗政治領導人

參考消息
2025-06-14 10:59:12
潛伏我國30年美國辣醬巨頭,年入450億擊敗老干媽,被誤認是國貨

潛伏我國30年美國辣醬巨頭,年入450億擊敗老干媽,被誤認是國貨

南權先生
2025-06-12 16:40:46
曾毅名下7家公司均注銷或被除名

曾毅名下7家公司均注銷或被除名

現代快報
2025-06-14 12:22:06
今年已有8位兩院院士出任大學校長

今年已有8位兩院院士出任大學校長

澎湃新聞
2025-06-13 17:38:29
Nature重磅:小時候接觸奶茶等高果糖飲食,影響大腦發育,增加青春期焦慮癥風險

Nature重磅:小時候接觸奶茶等高果糖飲食,影響大腦發育,增加青春期焦慮癥風險

生物世界
2025-06-12 12:07:50
2025-06-15 06:16:49
CSDN incentive-icons
CSDN
成就一億技術人
25642文章數 242071關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

本地
親子
時尚
教育
公開課

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

親子要聞

沒有禮物的父親節,我就自己來!

中年女人少穿黑色和灰色,年輕色穿出減齡效果,看起來嫩十歲

教育要聞

父母反對就要分開嗎?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 成人做爰高潮尖叫声免费观看| 亚洲一区二区三区无码国产| 日韩精品内射视频免费观看| 一区二区三区精品视频免费播放| 国产在线精品一区二区三区不卡| 亚洲国产精品无码久久久不卡| 鲁丝片一区二区三区免费| 成人亚洲欧美丁香在线观看| 欧洲熟妇色xxxx欧美老妇多毛网站| 在线观看国产精品va| 中文人妻av高清一区二区| 精品无码一区二区三区爱欲| 绝顶丰满少妇av无码| 国内精品伊人久久久久影院对白| 精品国产色情一区二区三区| 无码av一区二区三区不卡| 亚洲精品午夜无码电影网| 国产又粗又猛又爽又黄的视频在线观看动漫| 欧美男男作爱videos可播放| 亚洲妇女自偷自偷图片| 日本欧美大码a在线观看| AI做受???高潮AAAA视频| 狼人香蕉香蕉在线28 - 百度| 国产又a又黄又潮娇喘视频| 精品人妻人人做人人爽夜夜爽| 国产精品露脸视频观看| 国产成人亚洲综合无码品善网| 国产精品第一国产精品| 国产jjizz女人多水喷水| 人人爽人人爽人人爽| 欧美 亚洲 另类 丝袜 自拍 动漫| 亚洲性人人天天夜夜摸18禁止| 东京热人妻中文无码av| 国产在线精品二区| 无码丰满熟妇一区二区| 国产sm重味一区二区三区| 黄网站色视频免费国产| 精品国产成人一区二区三区| 国产午夜人做人免费视频网站| 亚洲av日韩aⅴ无码色老头| 精品欧美аv高清免费视频|