智東西
作者 陳駿達
編輯 心緣
智東西5月20日報道,今天,多模態(tài)AI企業(yè)考拉悠然和上海碼極客發(fā)布悠然無界大模型。這是一款面向空間智能的多模態(tài)世界模型,具備空間感知、空間推理、具身執(zhí)行、交互反饋等能力,將具身智能的大腦、小腦能力融合至單一模型。
在悠然無界大模型的基礎(chǔ)上,考拉悠然和上海碼極客還發(fā)布了空間智能Agent框架MAGXAgent,并使用這一框架打造了具備感知、決策、執(zhí)行等能力的多款空間智能本體產(chǎn)品(如智能物流機器人)。
在物理常識與具身智能推理任務(wù)測評集上,悠然無界大模型超越了OpenAI o1、GPT-4o、Qwen2.5-VL系列、Cosmos-Reason1系列等主流開源及閉源大模型。
悠然無界大模型能夠同時感知和理解數(shù)字空間、物理空間與社會空間,并具備跨模態(tài)的泛化能力和通用性,支持感知、決策、控制等多種任務(wù)的統(tǒng)一處理。
同時,它具備較強的抽象與遷移能力,能夠跨越不同智能體與系統(tǒng)架構(gòu)之間的差異,實現(xiàn)具身智能本體的協(xié)同與共享。
一、算力堆砌不等于真實生產(chǎn)力,需用世界模型鏈接物理世界
日前,考拉悠然首席執(zhí)行官沈復(fù)民向智東西等媒體詳細介紹了悠然無界大模型的技術(shù)細節(jié)與應(yīng)用場景。
沈復(fù)民認為,空間智能是AI發(fā)展的下一個階段。現(xiàn)有大語言模型在數(shù)字世界的成功,并不等同于在物理世界的價值,算力堆砌也不等于真實生產(chǎn)力。要彌補大模型能力與生產(chǎn)力之間的鴻溝,就需要打造世界模型,鏈接數(shù)字世界與物理世界。
本次發(fā)布的悠然無界大模型基于2023年推出的悠然大模型,后者是一款多模態(tài)的產(chǎn)業(yè)通用大模型,已在數(shù)十個行業(yè)落地。
悠然無界大模型在悠然大模型基礎(chǔ)上,強化感知、推理、決策、交互四方面能力。在訓(xùn)練時,考拉悠然采用了多元異質(zhì)數(shù)據(jù)聯(lián)合建模的方式,將真實數(shù)據(jù)、仿真數(shù)據(jù)與互聯(lián)網(wǎng)數(shù)據(jù)結(jié)合,并融入了跨領(lǐng)域知識,使模型的通用性更強。
悠然無界大模型在一個模型內(nèi)部實現(xiàn)了感知-規(guī)劃-執(zhí)行閉環(huán)控制,既能理解自然語言形式的物理世界任務(wù),也能感知具身智能本體的狀態(tài),驅(qū)動人形機器人、無人機、機器狗等終端智能體完成任務(wù)。
這一模型采用了考拉悠然提出的跨模態(tài)融合-自適應(yīng)感知框架,解決了三維空間感知中的自由空間檢測、小樣本點云分類和開放世界目標(biāo)識別等問題,提升了智能系統(tǒng)對復(fù)雜空間環(huán)境的理解與建模能力。
在空間規(guī)劃與推理層,考拉悠然打造了多模態(tài)空間語義分解推理框架與分層子目標(biāo)擴散規(guī)劃算法,解決了復(fù)雜空間關(guān)系邏輯鏈建模與非結(jié)構(gòu)化環(huán)境中長程路徑規(guī)劃問題。這是智能系統(tǒng)實現(xiàn)人類級空間推理與動態(tài)決策的關(guān)鍵。
涉及決策與執(zhí)行時,悠然無界大模型采用的幻覺誘導(dǎo)優(yōu)化算法,可解決多模態(tài)空間語義錯位的難題。
二、打造空間智能Agent框架,聽語音指令就能完成搬運任務(wù)
基礎(chǔ)模型之外,考拉悠然和上海碼極客打造了執(zhí)行物理世界通用任務(wù)、驅(qū)動MAGX硬件運行的空間智能Agent框架MAGXAgent,并發(fā)布了一批智能體硬件本體產(chǎn)品。
MAGXAgent基于悠然無界大模型底座賦予的世界知識與空間理解能力,具備空間探知、自主決策、動態(tài)執(zhí)行、交互反饋能力。未來可通過搭載于物流卸貨機器人、無人機、機器狗等任務(wù)本體,執(zhí)行完成應(yīng)急救援、裝卸運貨、智能巡檢等物理世界任務(wù)。
考拉悠然即將推出包括物流機器人MAGX Loader、智能巡檢設(shè)備MAGX Patrol在內(nèi)的一系列智能體硬件本體產(chǎn)品。
MAGX Loader展現(xiàn)了智能卸貨機器人與悠然無界大模型能力結(jié)合后的應(yīng)用場景,可完成復(fù)雜環(huán)境下的精準(zhǔn)目標(biāo)識別、自適應(yīng)位姿估計、實時障礙物評估、動態(tài)任務(wù)調(diào)度、卸貨路徑優(yōu)化、實時調(diào)整等一系列流程。它無需人工編程,只需輸入一段語音指令,即可全程自主實現(xiàn)貨品搬運。
結(jié)語:AI需要理解物理世界,多模態(tài)世界模型成熱門方向
具備對物理世界的理解和推理能力的世界模型,正逐漸成為當(dāng)前AI研究與應(yīng)用的前沿方向。與傳統(tǒng)依賴單一模態(tài)輸入的模型不同,世界模型融合視覺、語言、動作、時間等多模態(tài)信息,讓AI不僅能“看見”世界,更能“理解”和“預(yù)測”世界的變化。
有不少企業(yè)正加速布局這一賽道。谷歌已發(fā)布多款Genie系列世界模型,而英偉達在機器人與仿真領(lǐng)域有深度投入。與此同時,一批專注于世界模型的新興創(chuàng)業(yè)公司如World Labs、Decart等,也在探索訓(xùn)練效率更高、泛化能力更強的世界模型架構(gòu)。
考拉悠然是國內(nèi)較早探索多模態(tài)AI與世界模型技術(shù)落地的企業(yè)之一,已在智慧城市、工業(yè)制造等場景積累了實際應(yīng)用經(jīng)驗。其聯(lián)合創(chuàng)始人、董事長申恒濤院士認為:“AI的真正落地,一定要讓數(shù)字世界和物理世界融合。”
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.