近期,大模型和人形機器人備受社會各界關注,很多人在思考:如何讓二者有效“融合”切實推動具身智能的發展?顧名思義,具身智能是具有“身體”的人工智能。具身智能為大模型的應用提供了更廣闊的平臺,使之從“賽博空間”走向物理世界;具身智能讓機器人變得更“聰明”,與人類的交流更為順暢。具身智能的發展給哲學反思帶來不少挑戰,本組筆談聚焦具身智能的定義、本質特征、類型和實現的可能性等基本理論問題,以期推動該領域研究的進一步發展。吳靜認為,具身智能的發展不僅需要有效改變現有大模型發展路徑的離身限制,還必須能夠構建更具有智能正義的世界模型。
本系列文章原刊《福建論壇(人文社會科學版)》2025年第4期,澎湃新聞經授權轉載。
【摘要】基于認知計算主義的生成式人工智能雖然取得了巨大進展,但其忽視具體語境和模擬信息的底層邏輯也造成了很多隱患。在對其進行反思的基礎上,具身智能理念應運而生。具身智能中的“身體”并非人類肉身,而是能獲取感性經驗的實體,它試圖重塑人工智能理解世界的模式,但依然面臨身體如何構建的難題。空間智能作為具身智能的一個階段,通過視覺標注為三維空間建模,連接物理與數字世界。然而其發展也面臨三大挑戰:一是泛化困難,需要跨越“語義鴻溝”;二是以視覺中心主義為基礎的圖像標注體系缺乏多樣性;三是人類的視覺空間認知模型與智能體身體多樣性可能相悖。因此,具身智能的發展需要哲學與技術的協同合作,以構建更合理的空間認知和世界模型,實現智能正義。
引言
當下,無論是OpenAI推出的GPT、Sora,還是谷歌研發的Gemini、Gemma,以及那些被稱作多模態大模型的生成式人工智能,大多是圍繞脫離具體語境信息構建的符號系統展開處理。這種發展路徑的背后有著歐美流行的認知計算主義的理論支撐,其底層邏輯認為數字信息的價值遠高于與實際場景緊密相連的模擬信息。認知計算主義認為,人類的認知就像計算機的計算過程,是對抽象符號的操作。在這種觀念下,數字信息因其具有精確性、可編碼性和便于計算處理的特點,被視為具有更高的價值。例如,在計算機程序中,所有的數據都被轉化為二進制數字進行存儲和運算,這種數字化的表示方式使信息處理變得高效和準確;在人工智能研發中,人們傾向于將各種信息——無論是文本、圖像還是聲音——都轉化為數字形式的符號,然后通過復雜的算法進行處理。
在生成式人工智能的發展歷程中,這種基于認知計算主義的發展路徑取得了顯著的成果,如GPT系列在自然語言處理任務上表現出色,能夠生成連貫的文本、進行智能問答,而谷歌的圖像生成技術也能創造出逼真的圖像作品。但由于忽視了具體語境和模擬信息,生成的內容可能出現不符合實際場景的情況,缺乏真實世界的“常識”。這種信息實體論不僅重塑了人們對現實的認知,還使得人工智能技術的研發過度聚焦于人類過往的經驗文本(如文字、影像、圖表等),卻忽視了具身智能交互性的發展。
早在1986年,羅德尼·布魯克斯就從控制論的專業視角出發,指出智能應當是具身化、情境化的。他認為,傳統的以信息表征為核心的經典人工智能發展路徑存在著偏差,想要突破這種信息表征帶來的局限,就需要制造出基于實際行為獲取信息的機器人。蘇黎世大學人工智能實驗室的前主任羅爾夫.普菲弗和加拿大佛蒙特大學的喬希.邦加德進一步提出,通過強化智能體“身體”與外部環境的交互,可以建立全新的學習反饋機制,以此來塑造出更能適應復雜世界的智能。那么,“身體”對于人工智能到底意味著什么呢?對此有必要展開進一步分析。
一、哲學史視域中從離身認知到具身認知的轉變
在當代哲學史的結構性嬗變中,語言哲學的式微與新唯物主義的興起構成了認識論坐標系的雙重運動,其內在邏輯需要置于對經驗主義傳統的解域化重構中進行考察。語言分析范式將經驗主義的知覺中心主義置換為語義先驗主義,通過命題邏輯的拓撲學構建起認識論的語言牢籠,這種邏各斯中心化的操作最終導致經驗世界被符號系統的遞歸性所吞噬,文本更是成為高光之下的符號學表演場。“從20世紀初對語言如何與世界相聯系的反思,到20世紀70年代對文本解構分析的巔峰之作,在本世紀的大部分時間里,語言一直是最重要的焦點。但是,在許多年輕學者中,人們常常感到,在哲學和社會理論中僅僅關注文本問題已經達到了批判的極限。”這種憂患意識同時也影響到對認知領域的范式反思。因為當數字化使得經驗主義的知覺內容被壓縮為圖靈機離散的電子信號時,吉爾·德勒茲和費利克斯·加塔利所關注的經驗生成的物質性基礎——“條件”——也正在被符號化和離身化。
新唯物主義的認識論革命正源于對這種符號暴力的反叛。當20世紀末的系統論、復雜性科學(如自組織理論、量子力學、混沌理論等)等揭示了物質世界的非線性、動態關聯性后,哲學不得不面臨重新思考物質的“活性”和關聯性的命題。新唯物主義通過重返斯賓諾莎式的物質單義性存在,希望將被后結構主義簡化為“符號效果”的物質性和主體性從話語和權力建構的重壓下拯救出來,從而將經驗主義的感知基底重構為物質能動性的拓撲學網絡(或者也可以說是拉圖爾意義上的行動者網絡)。
這種認識論轉型的深層邏輯在于:新唯物主義將經驗主義的知覺優先性轉化為物質實踐的優先性,通過引入復雜系統理論等后經典科學范式,構建起動態的“經驗—物質連續體”。在此視域下,卡倫·巴拉德的“現象本體論”將測量裝置的物質性置于現象構成的中心位置,徹底解構了觀察者與被觀察者的笛卡爾式二分,這種認識論的“物質轉向”本質上是對經驗主義的量子化改造。當語言哲學將意義封閉在能指鏈的差異游戲中時,新唯物主義通過重返實驗室中的物質操演,在經驗主義的地基上重建了認識論的實在論維度。這種認識論革命既是對分析哲學傳統的內在批判,也是對現象學傳統的物質論超越,并且以批判—建構的方式回應了生態危機、技術革命和后人類境遇的迫切問題。
同時,語言哲學和新唯物主義對計算認知主義的形塑與解構,既構成了當代認識論轉型中一個不可忽視的辯證維度,也深刻地改變了在計算認知主義基礎上發展起來的人工智能底層技術。這種影響既體現為分析哲學傳統為計算主義提供的“概念腳手架”,也表現為后期維特根斯坦學派對其理論預設的顛覆性批判,最終在新唯物主義框架下演化為對符號計算范式的本體論重構。有趣的是,盡管語言哲學一直聲稱反本質主義的立場,卻有力地影響了信息實在論對信息本質的理解,使信息被看作對應客觀事物或概念的實體。正如結構主義語言學強調語言系統內部的結構關系決定了其意義,信息實在論也將信息視為具有內在結構的實體,信息元素之間的關系模式賦予信息特定的價值和功能。這種觀點直接影響了后來“賽博格設想”中的信息通道問題,“這種設想……把信息視為某種無形的實體,可以在以碳元素為基礎的有機部件和以硅元素為基礎的電子部件之間相互流動,從而使碳和硅就像在同一個系統中運行”。在語言哲學的形式化范式為數字化的計算模型提供了理論基礎之后,奧斯汀與塞爾的言語行為理論通過揭示語言的使用維度,動搖了計算認知主義的符號本體論。當塞爾用“中文屋論證”揭露純句法操作無法產生語義理解時,實際上已經在邏輯而非經驗的基礎上論證了具身認知:感知性的“身體”絕不是符號表征的劇場,認知活動本質上是身體—環境耦合的具身實踐,而非離身的符號演算。不過,新唯物主義并未完全否定計算認知主義的遺產,而是希望通過引入“物質實踐”重塑物質能動性從而恢復世界的統一性和發展性。吉貝爾·西蒙東以“締合環境”概念為核心所闡釋的技術物的進化機制就可以被視作新唯物主義反對單一還原論和決定論的動力發展機制的體現。它有效地反駁了符號秩序架構物質實踐乃至知識生產的事實,極力避免“一旦不再被思考,差異就要消散于非存在之中”的符號霸凌。
在這種理論反思的基礎上,從離身認知到具身認知的轉變不但促使認知科學本身走向與經驗實證科學的跨學科聯合,同時也為人工智能發展的不同模式和路徑提供了技術模型。生成式人工智能的知識生產通過算法塑造了一種純粹的認識形式的領域,“純認識形式的領域被孤立了,在與所有經驗知識的關系中,既獲得了自律,又獲得了主權,使得對具體加以形式化并不顧一切地去重構純科學這樣的設想得以誕生和無限再生”。大語言模型的認知操作建立在符號的統計共現性上,其“理解”本質上是詞向量空間中的拓撲相似性映射。然而,這種模式完全剝離了情境的生成機制。從哲學認識論視角來看,這種普遍性和理性已然超脫于經驗表象的范疇。經驗表象作為人類認知與外界交互的初始層面,是主體對客體的直接感知呈現。而算法憑借其自身的內在結構,不再對現實的多元面向保持開放態勢,而只是接納數字化所形塑的內容。在符號學與知識論的關聯框架內,當詞與話語被算法所設定的符號秩序重新塑造時,這一過程實際上觸動了知識的內在肌理。生成式人工智能和大模型技術依賴的數據集存在結構性的缺陷,這成為當前智能發展道路上難以跨越的障礙。即便多模態大模型擴充了文本來源類型,情況依舊不容樂觀。其根本原因就在于,全球不同文本生產技術的發展水平參差不齊,會產生各式各樣的意義模式。這些文本一旦脫離原本的語境被轉化為通用符號,便與真實的生活產生了隔閡。有研究顯示,部分數據在參與模型訓練一段時間后,反而會干擾大模型的正常表現。
具身認知為突破這種困境提供了具有啟發性的路徑。當休伯特·德雷福斯指出復雜性的技能必然依賴身體對情境的“直接應對”(Coping),而非符號表征的規則推理,他其實已經前瞻性地描繪出了具身智能的兩個重要因素:身體以及身體與環境的適應性。從這個意義上來說,具身智能的確算不上新的理念,那么問題就在于:如何為人工智能裝上身體以及裝上什么樣的身體呢?
二、“身體”與“肉身”:具身性的限度與可能性
梅洛-龐蒂曾提出過兩個相互聯系但又有所區別的概念:“身體”和“肉身”。身體更多地帶有一種與客觀世界相對的主體維度的意味,是我們感知世界、與世界互動的基礎。身體與世界的關系更多地表現為一種主體對客體的作用和認知關系。此時的身體強調的是作為一種具有感知、行動等功能的主體存在,是行動者在世界中存在的載體,它與世界之間存在著一種相對明確的界限,肉身則更加強調一種存在的原初性和交融性。肉身不僅僅是生理意義上的身體,更是一種主體與客體、自我與世界緊密融合的存在狀態。它不是一個孤立的實體,而是一種更為深層、更為基礎的存在層面。世界通過肉身而展開,肉身也在世界中不斷生成和變化。對于這兩個概念,梅洛-龐蒂都強調它們的具身性,反對傳統哲學中將心靈與身體相分離的二元論觀點,認為人類的認知、感知和存在離不開身體或肉身這個基礎。
基于這一基礎,反觀從以大語言模型為基礎的生成式人工智能,到以“空間智能”為代表的具身人工智能的嘗試,就可以發現具身智能與現有的認知型智能體發展方向截然不同。具身智能強調讓人工智能擁有“身體”,以形成感覺、認知和判斷的基礎,從而獲得適應環境、辨別多種感覺刺激乃至綜合理解的能力。當然,這里的“身體”并非簡單的外在形式,更不是人類的“肉身”,而是具備獲取感性經驗能力的實體性存在,是造成認知差異以及情感—價值判斷不同的重要因素。正如人類依靠感官收集、處理信息來認知世界一樣,具身智能也試圖讓人工智能在與其所處情境的實時交互中,逐步構建對符號的理解。它把認知過程融入具體環境里,形成持續進化的反饋機制。更簡單地說,具身人工智能不再像傳統人工智能那樣,只是機械地對預設條件作出固定反應,也不再單純通過模仿神經網絡的方式來形成判斷。它更希望以接近人類理解世界的模式重塑從經驗感知到抽象理解的過程,借助傳感設備獲取聲音、影像、觸覺、溫度、表情等多維度的一手環境信息,構建起實時且動態的完整符號模型。其認知和理解過程不是“離線”(去情境化)進行,而是始終處于與外界環境持續交互的狀態。基于這種心智仿真結構形成的智能體,是一個與具體情境深度融合的開放網絡。但“肉身”本身的存在論特質無法被簡化為物理特質或算法邏輯,它不是一個簡單的仿生工程任務,更不是人工意識的物質基礎。
如果人類身體可以被視作思想這一復雜裝置的載體或運行場域,那么象征意義上的生產性問題則在于:如何為人工智能設計一個與其認知和能力相稱的身體?神人同形同性論與“恐怖谷效應”之間的互搏最終會將智能體的發展帶向類人化還是超人化?因為具身性的理論基礎正在于將身體—環境的“裝配”(Assemblage)視作相互作用的立場,而不是由事先預設的準則和條件形成的線性對應。正如休伯特·德雷福斯在批評離身認知的底層邏輯時所說的:“思想并不在信息元的基礎上運作,而是在直覺的和假設的塑形基礎上運作。它接受不準確的、模糊的材料。這樣的材料不像是根據預定閱讀的編碼或者能力被選擇的。它不會忽視一個情況的旁角和邊緣。”從這個意義上說,具身性的要求與在方法論上對于直接經驗的強調是聯系在一起的,它不僅需要將多模態的信息輸入轉譯成符號邏輯,更需要借助模糊邏輯與生成對抗網絡(GANs),以容忍認知中的不確定性。但問題在于,與人類身體或主體同步于經驗—感知的事實不同,人工智能的“身體”是缺失的,這種缺失并非是指缺少由現有的人工智能驅動的“實體性存在”(如傳感器與機械裝置),而是以“身體圖式”為交互依據與環境共同形成的感知—行動回路。這意味著具身智能絕不是在現有生成式人工智能的基礎上創造出的某種身體,而是重建智能體知識生產的認知框架,并在此基礎上建立行為,甚至形成可逆性模擬,即能夠從結果“反思”中總結并建立規則,而非通過算法的預設給定規則。
然而,即便從這些原則出發,具身性依然面臨著如何對智能體的身體進行想象的難題。“這些象征性問題始終以某種方式面臨著英國經驗主義中最重要的喀邁拉問題:我們是否真的能想象出某種先于感覺的東西,換句話說,即不是由感性知識(這種感性知識是關于我們平常的人類身體和世界的知識)衍生出來的東西?”科幻小說在突破神人同形同性論上作出了巨大努力。斯坦尼斯拉夫·萊姆在《索拉里斯星》中創造出來的膠質狀海洋就是通過量子糾纏的方式直接作用于觀察者的神經網絡,這顯然是對非人形有機體或智慧體的一種探索。
不過,具身智能對身體的思考還無須走到那么遠。只是,當后人類身體本身已經成為可編碼和增強的界面和場域時,對于智能身體的建構一方面面臨著對解剖學常規的無限突破可能,另一方面卻又依舊要試圖接近人類從經驗感知到綜合判斷的認知進路。這使得它在超越類人形式的想象方面必須持續地進行思想和實踐的雙重探索:如何通過身體形態學的無限可能來解構和重塑人類認知的常規框架,在人類可以理解、共鳴、交互的范圍內探索超越人類經驗的感知方式,正如攝影機鏡頭的發明和運鏡形式的多樣化重新勘定了視覺的界限和可表達性一樣。因為相較于肉眼觀察世界的直觀性和外在性,鏡頭語言具有更明顯的粗暴性和侵入性,它破壞了客觀世界的自然秩序,以無限的運動可能粗暴地干涉對象世界,并以電影語言(蒙太奇)的方式加以重組。這如同一場技術奇點來臨前的預演,使得德勒茲的“無器官身體”的隱喻在數字技術、機械自動化和生物工程的共同作用下得以不斷挑戰認知科學的規則,并且除了模擬感覺信息處理和運動控制結構外,具身智能的系統研究還應當將行為經濟學、動態系統方法和適應性決策納入其中,以解決目前AI系統在實時響應中決策仍依賴離散的時間切片的問題。
三、空間智能與智能正義
美籍華裔學者李飛飛深入討論了大語言模型與世界模型的根本差異。她認為,作為生成式人工智能技術基礎的大語言模型(LLM)關注的是表達和交流,是基于已有的抽象數據形成的知識生產;而擔當具身智能(她所提出的空間智能也是具身智能的一個階段)技術底層邏輯的大世界模型(LWM)關注的則是感知和行動,是基于視覺的空間感知。兩種模型在根本上是不同的模態。而李飛飛的實驗室所探索的空間智能之所以能夠聯結和理解物理世界和數字世界,并為AI應用開辟新的可能性,正在于其通過視覺標注為三維空間建模,從而使智能體與像素世界產生互動。
因此,我們可以將大世界模型理解成為智能行動體的空間性具身行為提供建模和推理依據的基礎建設。在一篇關于AI行動體的預印文本研究報告中,李飛飛的研究團隊直截了當地闡述了其研究旨向:“為了加快基于智能的多模態智能的研究,我們將‘人工智能行動體’定義為一類交互式系統,它可以感知視覺刺激、語言輸入和其他基于環境的數據,并能夠產生有意義的具身行為。”顯然,“空間智能”中的空間性并非單純的幾何空間或傳統虛擬現實中的3D搭建,而更多的是梅洛-龐蒂意義上的“身體空間性”,身體并非處于空間中的一個物體,而是行動體寓居于空間的方式。身體通過自身的運動和感知不斷地與周圍空間進行互動,從而賦予空間以豐富的意義。空間性是身體通過運動投射意義的能力。當盲人的手杖被身體“整合”為知覺的延伸時,這一現象揭示了身體作為動態綜合體的特性。通過手杖的觸碰和移動,盲人能夠感知到周圍環境的空間布局。這種感知并非像在幾何空間中那樣通過抽象的計算形成,而是身體直接的體驗。它使得身體的感知范圍得以擴展,從而在空間中自由地行動。
為了實現這個目標,從二維視覺到三維視覺的轉換尤為重要。只有在此基礎上,才能建立可以對空間幾何與物理過程進行精準建模、理解與推理的“世界模型”。這也是為什么李飛飛將大型圖片數據庫ImageNet視為朝著全面理解人類所處的視覺世界邁出的重要一步,它通過為二維圖像中的像素添加標簽來鏈接物理三維世界與數字三維世界,使智能體能夠通過理解標注發展出對身體空間性而非純粹的外在空間的理解。ImageNet之所以重要是因為它彌補了目前以大語言模型為基礎的人工智能發展路徑在空間推理上的顯著失能。即使是最先進的多模態大模型,雖然在語言理解和一般視覺任務上取得了顯著進展,但在空間認知方面與人類相比仍有顯著差距,測試中約71%的錯誤都源于空間推理方面的缺陷,即空間推理能力是當前主要瓶頸。
盡管以李飛飛為代表的不少研究者都將空間智能看成智能體實現自主具身決策的邏輯支撐和技術實現,但其仍然面臨著重大的理論挑戰和可行性困難,甚至有可能對智能應用的公平性和多樣性產生影響。
首先是空間智能泛化的挑戰。世界模型在本質上是要建立一個具有“通用性”的空間范式,這一范式不僅要與虛擬空間適配,還要與物理空間適配。然而,實現這種與具身智能行動能力匹配的通用空間模型,要比實現大語言模型的通用性困難得多。大語言模型因為是直接在已經具備一定通用性基礎上的抽象語言層面進行學習和泛化,相對比較容易,但空間智能需要從傳感器獲取的原始信號中學習,這意味著要跨越從原始數字信號到人類語義符號的“語義鴻溝”,不僅需要大量的標注數據,還要對傳感器獲取的原始信號進行精確標定,以確保其具備絕對物理尺度上的度量,這比從互聯網獲取海量圖像文本數據要困難得多。更關鍵的是,具身智能所面對的還不是純粹的物理空間,而是與身體感知能力相關的“身體的空間性”,這就要求除了從視覺、力覺、觸覺及嗅覺等高維感知信號中獲得通用性之外,還要發展出由智能體和環境對象共同定義出的具身決策的“行為空間”。其泛化的要求更增加了對不同范式的學習難度。
其次是以視覺中心主義為理論基礎的ImageNet的圖像標注體系的多樣性問題。李飛飛本人曾不止一次地強調,機器學習的成敗不僅在于模型,更在于數據的復雜度和規模是否能夠有效地驅動模型學習。相關學者也承認,真正的“空間智能”其實不受感官模式限制。例如,前面提到的盲人可以通過別的方式感知空間,因為色盲或色弱的視障人士的空間感受也會和常人有所不同。但由于李飛飛研究團隊選擇了將更為普遍的圖片和視頻數據作為基礎,因而其“空間智能”的著眼點側重于“視覺空間智能”。就技術應用的普遍性和可行性而言,這種策略是可以理解且更為經濟的。然而,這種以視覺為中心的模式忽略了特殊人群的認知差異問題。此外,即便同樣是以視覺為強勢認知,部分殘障人士借助視覺獲得的基于空間的認知和判斷也和普通人不同,畢竟身體的空間性首先要面對的不是均一的物理空間,而是與身體密切相關的空間,甚至還包括社會交互空間。如何通過豐富數據類型來解決或改善該問題,是研究團隊的頂層設計需要關注的。更重要的是,智能正義本身是AI倫理和社會公平關注的目標,而如果僅僅作為一項商業項目,解決該問題的投入和其經濟效益之間未必形成正比,對它的支持可能需要更多的社會力量來推動。
最后是人類中心的視覺空間認知模型與智能體身體的多樣性之間可能產生的悖反。本雅明在討論畫家與攝影師的差別時曾指出,畫家在作品中同現實保持自然距離,借助經驗來判斷現實。但是攝影師就像是外科醫生,可以從鏡頭的無窮角度刺入現實的織體。這兩種對待現實世界截然不同的態度和手段,反映出攝影技術的全部辯證性:攝影的創造深度完全取決于它對于世界的改造程度,現實世界越是被肢解得徹底,影像世界才越能多姿多彩。同樣地,當智能體的具身性突破了類人構造,其感知世界的方式也將發生根本性的轉變。人類視覺中空間的劃分、物體的重要性判斷等都是基于觀看的特性和日常經驗,但對于依靠熱感應來感知世界的智能體來說,溫度的高低才是判斷物體重要性和空間分布的關鍵因素。此外,智能體對空間的判斷標準也與人類大相徑庭。人類在判斷空間是否適宜行動時會考慮自身的身體尺度、運動能力以及視覺所及的安全性等因素,而智能體的行動決策更多地基于其自身的設計目標和感知能力。比如,專為狹小管道檢測設計的微型智能體,它對空間的“寬敞”則以自身的設計為標準。
人工智能的發展史是人類在數字世界展開的持續試錯實驗,更是哲學與工程學交織的巨型思想沙盤。從以視覺為基礎,到世界模型的提出,再到視覺空間智能乃至具身智能構想的發展進路,并不是一條坦途,它所面臨的挑戰和爭議會一直存在。如何構建更能發揮智能體多樣性優勢的空間認知和世界模型,是人工智能發展中的頂層設計問題,它需要哲學和技術的雙重在場。
來源:吳靜(南京師范大學公共管理學院哲學系教授、博士生導師,南京師范大學數字與人文研究中心主任。)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.