悠然無界大模型發(fā)布，部分基準(zhǔn)測試超OpenAI o1、Qwen2.5-VL，落地智能巡檢、物流搬運

2025-05-20 14:40:29　來源: 智東西

北京舉報

分享至

智東西
作者陳駿達
編輯心緣

智東西5月20日報道，今天，多模態(tài)AI企業(yè)考拉悠然和上海碼極客發(fā)布悠然無界大模型。這是一款面向空間智能的多模態(tài)世界模型，具備空間感知、空間推理、具身執(zhí)行、交互反饋等能力，將具身智能的大腦、小腦能力融合至單一模型。

在悠然無界大模型的基礎(chǔ)上，考拉悠然和上海碼極客還發(fā)布了空間智能Agent框架MAGXAgent，并使用這一框架打造了具備感知、決策、執(zhí)行等能力的多款空間智能本體產(chǎn)品（如智能物流機器人）。

在物理常識與具身智能推理任務(wù)測評集上，悠然無界大模型超越了OpenAI o1、GPT-4o、Qwen2.5-VL系列、Cosmos-Reason1系列等主流開源及閉源大模型。

悠然無界大模型能夠同時感知和理解數(shù)字空間、物理空間與社會空間，并具備跨模態(tài)的泛化能力和通用性，支持感知、決策、控制等多種任務(wù)的統(tǒng)一處理。

同時，它具備較強的抽象與遷移能力，能夠跨越不同智能體與系統(tǒng)架構(gòu)之間的差異，實現(xiàn)具身智能本體的協(xié)同與共享。

一、算力堆砌不等于真實生產(chǎn)力，需用世界模型鏈接物理世界

日前，考拉悠然首席執(zhí)行官沈復(fù)民向智東西等媒體詳細介紹了悠然無界大模型的技術(shù)細節(jié)與應(yīng)用場景。

沈復(fù)民認為，空間智能是AI發(fā)展的下一個階段。現(xiàn)有大語言模型在數(shù)字世界的成功，并不等同于在物理世界的價值，算力堆砌也不等于真實生產(chǎn)力。要彌補大模型能力與生產(chǎn)力之間的鴻溝，就需要打造世界模型，鏈接數(shù)字世界與物理世界。

本次發(fā)布的悠然無界大模型基于2023年推出的悠然大模型，后者是一款多模態(tài)的產(chǎn)業(yè)通用大模型，已在數(shù)十個行業(yè)落地。

悠然無界大模型在悠然大模型基礎(chǔ)上，強化感知、推理、決策、交互四方面能力。在訓(xùn)練時，考拉悠然采用了多元異質(zhì)數(shù)據(jù)聯(lián)合建模的方式，將真實數(shù)據(jù)、仿真數(shù)據(jù)與互聯(lián)網(wǎng)數(shù)據(jù)結(jié)合，并融入了跨領(lǐng)域知識，使模型的通用性更強。

悠然無界大模型在一個模型內(nèi)部實現(xiàn)了感知-規(guī)劃-執(zhí)行閉環(huán)控制，既能理解自然語言形式的物理世界任務(wù)，也能感知具身智能本體的狀態(tài)，驅(qū)動人形機器人、無人機、機器狗等終端智能體完成任務(wù)。

這一模型采用了考拉悠然提出的跨模態(tài)融合-自適應(yīng)感知框架，解決了三維空間感知中的自由空間檢測、小樣本點云分類和開放世界目標(biāo)識別等問題，提升了智能系統(tǒng)對復(fù)雜空間環(huán)境的理解與建模能力。

在空間規(guī)劃與推理層，考拉悠然打造了多模態(tài)空間語義分解推理框架與分層子目標(biāo)擴散規(guī)劃算法，解決了復(fù)雜空間關(guān)系邏輯鏈建模與非結(jié)構(gòu)化環(huán)境中長程路徑規(guī)劃問題。這是智能系統(tǒng)實現(xiàn)人類級空間推理與動態(tài)決策的關(guān)鍵。

涉及決策與執(zhí)行時，悠然無界大模型采用的幻覺誘導(dǎo)優(yōu)化算法，可解決多模態(tài)空間語義錯位的難題。

二、打造空間智能Agent框架，聽語音指令就能完成搬運任務(wù)

基礎(chǔ)模型之外，考拉悠然和上海碼極客打造了執(zhí)行物理世界通用任務(wù)、驅(qū)動MAGX硬件運行的空間智能Agent框架MAGXAgent，并發(fā)布了一批智能體硬件本體產(chǎn)品。

MAGXAgent基于悠然無界大模型底座賦予的世界知識與空間理解能力，具備空間探知、自主決策、動態(tài)執(zhí)行、交互反饋能力。未來可通過搭載于物流卸貨機器人、無人機、機器狗等任務(wù)本體，執(zhí)行完成應(yīng)急救援、裝卸運貨、智能巡檢等物理世界任務(wù)。

考拉悠然即將推出包括物流機器人MAGX Loader、智能巡檢設(shè)備MAGX Patrol在內(nèi)的一系列智能體硬件本體產(chǎn)品。

MAGX Loader展現(xiàn)了智能卸貨機器人與悠然無界大模型能力結(jié)合后的應(yīng)用場景，可完成復(fù)雜環(huán)境下的精準(zhǔn)目標(biāo)識別、自適應(yīng)位姿估計、實時障礙物評估、動態(tài)任務(wù)調(diào)度、卸貨路徑優(yōu)化、實時調(diào)整等一系列流程。它無需人工編程，只需輸入一段語音指令，即可全程自主實現(xiàn)貨品搬運。

結(jié)語：AI需要理解物理世界，多模態(tài)世界模型成熱門方向

具備對物理世界的理解和推理能力的世界模型，正逐漸成為當(dāng)前AI研究與應(yīng)用的前沿方向。與傳統(tǒng)依賴單一模態(tài)輸入的模型不同，世界模型融合視覺、語言、動作、時間等多模態(tài)信息，讓AI不僅能“看見”世界，更能“理解”和“預(yù)測”世界的變化。

有不少企業(yè)正加速布局這一賽道。谷歌已發(fā)布多款Genie系列世界模型，而英偉達在機器人與仿真領(lǐng)域有深度投入。與此同時，一批專注于世界模型的新興創(chuàng)業(yè)公司如World Labs、Decart等，也在探索訓(xùn)練效率更高、泛化能力更強的世界模型架構(gòu)。

考拉悠然是國內(nèi)較早探索多模態(tài)AI與世界模型技術(shù)落地的企業(yè)之一，已在智慧城市、工業(yè)制造等場景積累了實際應(yīng)用經(jīng)驗。其聯(lián)合創(chuàng)始人、董事長申恒濤院士認為：“AI的真正落地，一定要讓數(shù)字世界和物理世界融合。”

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.