大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

5700問答對全面評估拷問AI空間感!新基準來了丨浙大&成電&港中文

0
分享至

ZJU REAL Lab 投稿
量子位 | 公眾號 QbitAI

杯子在我的左邊還是右邊?

這個對人類來說非常簡單的問題,連GPT-4o這樣級別的視覺語言大模型(VLMs)也可能答錯。

究其根本,還是當前的視覺語言大模型在大規模圖文數據中學習到的空間信息往往是片段化的,僅限于靜態視角的理解,缺乏多維度、多視角的空間推理能力

因此,當面對需要多視角空間推理的任務時,這些模型們就頻頻卡殼。



但是,具備穩健的空間推理能力與視角理解能力的AI系統,才能真正成為與人類協作的智能體。

為此,來自浙江大學、電子科技大學和香港中文大學的研究團隊提出了首個系統評估VLM多視角多任務下的空間定位能力的基準體系

ViewSpatial-Bench,涵蓋五種不同的任務類型,從相機和人類視角出發,全面評估模型的空間推理能力。

同時還并配備了能夠生成精確方向標簽的自動化3D標注流水線。通過高效的3D方向標注生成流程,實現了超過5700個問答對,覆蓋豐富的3D場景。

通過在多視角空間數據集上的微調,ViewSpatial-Bench團隊實現了模型性能的整體提升46.24%。



五大任務,覆蓋雙重視角

ViewSpatial-Bench評估集中包含5700個問答對,涵蓋相機視角與人類視角兩種框架下的五種空間定位識別任務



如圖所示,無論圖像聚焦的是場景布局還是人物動作,該基準測試要求模型在不同場景中準確理解空間結構并進行定位,系統性評估多模態模型的跨視角空間推理能力,其中包括:

從相機視角出發的兩類任務,主要評估視覺語言大模型基于自我視角的直觀空間理解能力。

  1. 物體相對方向識別:直接基于圖像判斷物體之間的空間關系。
  2. 人物視線方向識別:從相機視角識別圖中人物的注視方向。

還有三類任務從人類視角出發,聚焦于模型是否具備抽象的、依賴感知的空間理解能力。分別是:

  1. 物體相對方向識別:從圖中人物的視角,判斷其他物體與其的空間關系。
  2. 人物視線方向識別:假設自己處于圖中人物的位置,推斷其面朝的方向。
  3. 場景模擬的相對方向識別:通過模擬“自身”在場景中位置判斷物體的相對位置。

為構建高質量的空間推理評估基準,研究團隊基于ScanNet和MS-COCO兩大經典視覺數據集,開發了完整的自動化數據構建流水線。

構建流程如下:

首先從場景中選取包含豐富三維信息的圖像,結合現有標注信息精準提取物體位置坐標或人物姿態方向。

隨后基于這些三維坐標或朝向角度計算各類相對空間關系,通過精心設計的自然語言模板自動生成語義明確的問答對,最終經過人工驗證確保質量。



這一自動化處理方式在保證數據規?;透咝实耐瑫r,兼顧了空間關系的準確性和語言表述的多樣性,為模型訓練和評估奠定了堅實的數據基礎。

多模態大模型并未真正理解空間結構

基于構建的 ViewSpatial-Bench,研究團隊系統評估了包括GPT-4o、Gemini 2.0、InternVL3、Qwen2.5-VL等在內的十余種主流模型的表現,結果顯示:

在真正理解空間關系上,當前VLMs的表現還遠遠不夠



從整體準確率來看,多個頂尖模型在ViewSpatial-Bench上的得分并不高。

這表明,盡管模型具備基本的圖像理解能力,但在涉及多視角空間定位時,仍缺乏空間感與換位思考能力

更值得關注的是不同任務類型間的顯著表現差異。

在攝像頭視角下,模型在人物面朝方向判斷任務上的平均準確率僅為25.6%,遠低于”物體相對方向判斷”的38.9%。然而在人物視角下,這一趨勢卻完全反轉。

這種“任務-視角”交叉表現的失衡揭示了當前VLMs的核心缺陷:它們無法構建統一的三維空間認知框架來支持跨視角推理

實質上,模型并未真正理解空間結構,而是將不同視角下的推理過程割裂處理,缺乏從統一空間表征中靈活調度信息的能力。

有趣的是,實驗結果還揭示出一個反直覺的現象:

大多數模型在人物視角的任務上表現略優于攝像頭視角

例如,GPT-4o 在人物視角平均準確率為36.29%,略高于攝像頭視角的33.57%;InternVL2.5、Kimi-VL也表現出類似趨勢。

這一現象打破了我們對“自我視角更易處理”的常識性認知,這與上面任務表現的失衡有直接聯系,說明模型在訓練過程中可能存在學習了更偏“第三人稱”視角的空間分布規律,而缺乏從相機視角進行空間映射的能力。

這種偏差揭示了當前訓練語料在視角分布上存在結構性不平衡,為未來的數據構建和模型優化指明了重要方向。

如何讓模型理解“換位思考”

針對當前視覺語言大模型在多視角空間推理方面的根本性局限,研究團隊開發了Multi-View Spatial Model(MVSM)專門用于跨視角空間理解進行系統性優化

MVSM采用自動化空間標注框架生成了約43000個高質量的多樣化空間關系樣本,全面覆蓋ViewSpatial-Bench的五個任務類別。

實驗結果顯示,在ViewSpatial-Bench上,MVSM相比其骨干模型Qwen2.5-VL實現了46.24%的絕對性能提升,充分驗證了針對性訓練在解決空間認知缺陷方面的有效性。



如上圖所示,為了進一步驗證MVSM的空間理解能力,研究團隊在VSI-Bench和自建的ViewSpatial Interaction Application Dataset(VSI-App)上進行了評估。

在VSI-Bench中,MVSM在需要視角轉換能力的物體相對方向任務上取得了0.93%的提升,在路徑規劃任務上更是實現了9.54%的顯著改進。



VSI-App包含50個場景(25個室內,25個戶外),專門設計用于評估具身交互環境中的人類中心空間推理。

在這個更貼近現實的測試中,MVSM依然取得了顯著領先,尤其在結構更清晰的室內場景中表現尤為出色(提升+20%),在戶外場景中也有適度提升(+4.00%)

以上結果證明,MVSM不僅能夠建模靜態空間關系,還能處理穿越3D環境的動態軌跡以及人機交互場景——這些能力都是從視角感知訓練方法中自然涌現的,而非通過顯式的優化獲得。

ViewSpatial-Bench和MVSM的提出不僅為多模態模型的空間理解能力提供了系統評估工具,也首次在數據和訓練范式上重構了“視角采擇”這一關鍵人類認知能力的建模方式。

通過建立首個多視角空間推理基準并實現顯著的性能突破,為AI系統獲得類人空間認知能力提供了可行路徑:

更聰明的空間感知,是下一代機器人與多模態助手的關鍵一步。

論文鏈接:
https://arxiv.org/abs/2505.21500
項目主頁:
https://zju-real.github.io/ViewSpatial-Page
GitHub倉庫:
https://github.com/ZJU-REAL/ViewSpatial-Bench

— 完 —

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
印尼媒體:中國足協在接觸申臺龍,希望他能接替伊萬科維奇

印尼媒體:中國足協在接觸申臺龍,希望他能接替伊萬科維奇

雷速體育
2025-06-15 01:21:30
今年第一只破發股,中策橡膠上市7日破發,中簽未賣的股民有點懵

今年第一只破發股,中策橡膠上市7日破發,中簽未賣的股民有點懵

數據挖掘分析
2025-06-15 08:59:22
續簽3年3900萬!放棄1年4479萬!火箭雙喜臨門,KD交易成頭等大事

續簽3年3900萬!放棄1年4479萬!火箭雙喜臨門,KD交易成頭等大事

世界體育圈
2025-06-15 12:45:11
上海女子不上班,但卻住豪宅開豪車,警察:她家現金堆成山了

上海女子不上班,但卻住豪宅開豪車,警察:她家現金堆成山了

懸案解密檔案
2025-05-09 18:00:29
谷牧晚年坦言:很懷念建國初的民主時光,后來很多同志不敢講真話

谷牧晚年坦言:很懷念建國初的民主時光,后來很多同志不敢講真話

南書房
2025-06-14 18:40:05
伊朗剛炸完,胡塞又出手,多枚導彈砸向以軍,以總理專機逃往希臘

伊朗剛炸完,胡塞又出手,多枚導彈砸向以軍,以總理專機逃往希臘

愛下廚的阿釃
2025-06-15 08:12:48
武漢市兩個汽車4S店房產被拍賣,拍出5949.8萬高價

武漢市兩個汽車4S店房產被拍賣,拍出5949.8萬高價

天天話事
2025-06-15 10:27:21
惡魔醫生劉翔峰,罪行累累,喪心病狂!

惡魔醫生劉翔峰,罪行累累,喪心病狂!

燕梳樓頻道
2025-06-12 22:49:14
特朗普:若伊朗對美發動攻擊,美國將“以空前規模全力回擊”

特朗普:若伊朗對美發動攻擊,美國將“以空前規模全力回擊”

界面新聞
2025-06-15 14:44:50
“拿親女兒打窩?”女兒擋胸口母親還要拍照,2.6w網友看不下去了

“拿親女兒打窩?”女兒擋胸口母親還要拍照,2.6w網友看不下去了

妍妍教育日記
2025-06-12 17:50:28
退休夫婦花10萬“郵輪養老”:船上住15年,包吃包打掃,還能環游世界4圈,比在陸地上便宜得多!

退休夫婦花10萬“郵輪養老”:船上住15年,包吃包打掃,還能環游世界4圈,比在陸地上便宜得多!

背包旅行
2025-06-13 10:35:37
美國拿到稀土解禁令,不到24小時,白宮態度大變,中國被擺了一道

美國拿到稀土解禁令,不到24小時,白宮態度大變,中國被擺了一道

科技虎虎
2025-06-14 17:52:32
印度北部發生直升機墜毀事故 致7人遇難

印度北部發生直升機墜毀事故 致7人遇難

財聯社
2025-06-15 13:47:12
被稱為“蛇中之王”的過山峰,它最大能長多大?這蛇又有多可怕?

被稱為“蛇中之王”的過山峰,它最大能長多大?這蛇又有多可怕?

農夫也瘋狂
2025-06-14 11:37:18
伊朗1小時發射數十枚彈道導彈打擊以色列,專炸富人別墅區!

伊朗1小時發射數十枚彈道導彈打擊以色列,專炸富人別墅區!

阿龍聊軍事
2025-06-15 10:38:01
47歲黃曉明在上海,熱情又帥氣,16cm高跟鞋搶眼,發際線一言難盡

47歲黃曉明在上海,熱情又帥氣,16cm高跟鞋搶眼,發際線一言難盡

墨印齋
2025-06-15 09:52:26
嚴屹寬開車300公里回家,幫老婆拖地擦廁所,40歲杜若溪想要二胎

嚴屹寬開車300公里回家,幫老婆拖地擦廁所,40歲杜若溪想要二胎

界史
2025-06-13 09:22:56
“只有親朋好友參加!”韓國總統李在明長子將于14日低調完婚!

“只有親朋好友參加!”韓國總統李在明長子將于14日低調完婚!

AI商業論
2025-06-14 11:54:44
她才是娛樂圈公認的大美女:已經39歲了,但顏值高過好多年輕女星

她才是娛樂圈公認的大美女:已經39歲了,但顏值高過好多年輕女星

逍遙史記
2025-06-13 15:42:40
世俱杯首戰驚現奇葩一幕:孫楊嘲諷梅西隊友,網友怒了

世俱杯首戰驚現奇葩一幕:孫楊嘲諷梅西隊友,網友怒了

姜大叔侃球
2025-06-15 12:05:31
2025-06-15 15:12:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10670文章數 176168關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

以色列空襲胡塞武裝高層秘密會議 現場大約有10具尸體

頭條要聞

以色列空襲胡塞武裝高層秘密會議 現場大約有10具尸體

體育要聞

裁判可以噴,但也從步行者自身找找問題?

娛樂要聞

鳳凰傳奇曾毅塌房?網友:別連累玲花

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

本地
親子
旅游
教育
藝術

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

親子要聞

我的爸呀,節日快樂!還得是我爸

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

新高考“3+1+2”賦分制下,最“吃虧”的3類學生,建議提前了解

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 中文字幕巨大的乳专区| 丰满的少妇愉情hd高清果冻传媒| 亚洲精品久久久久久中文字幕| 亚洲精品毛片av一区二区三区| 秋霞午夜成人鲁丝片午夜精品| 婷婷色爱区综合五月激情| a在线观看免费网站大全| 亚洲精品人成网线在播放va| 18黑白丝水手服自慰喷水网站| 国产成人啪精品午夜网站| 丰满人妻熟妇乱偷人无码| 在线综合亚洲中文精品| 国产日韩欧美亚欧在线| 丰腴饱满的极品熟妇| 人妻少妇中文字幕乱码| 特级欧美插插插插插bbbbb| 国内精品久久久久久久coent| 久久人人爽人人爽久久小说| 一本大道无码人妻精品专区| 国产成人精品免高潮在线观看| 国产网曝门亚洲综合在线| 夜夜揉揉日日人人青青| 77777熟女视频在线观看| 国产精品_国产精品_k频道w| 无码国产激情在线观看| 米奇7777狠狠狠狠视频影院| 精品精品国产欧美在线小说区| 国产精品99久久99久久久动漫| 中文字字幕在线精品乱码| 亚洲国产精品久久久久久久| 小泽玛利亚一区二区在线| 亚洲国产精品无码久久久蜜芽| 国内精品人妻无码久久久影院| 夜夜春夜夜爽| 色吊丝永久性观看网站| 国产麻豆md传媒视频| 色欲麻豆国产福利精品| 麻豆精品久久久久久中文字幕无码| 亚洲av永久无码精品三区在线| 中文字幕无线观看中文字幕| 国产亚洲精品自在久久vr|