發起Open-Sora-Plan開源項目,在github狂攬12k星的北大袁粒課題組最新動向,他們剛剛提出了一個名為UniWorld-V1的統一大模型架構
論文地址:
https://arxiv.org/abs/2506.03147
GitHub 地址:
https://github.com/PKU-YuanGroup/UniWorld-V1
圖1 UniWorld在多個基準上達到先進的性能
通過對 GPT-4o-Image 的實驗觀察,研究團隊發現其在視覺特征提取上更依賴語義編碼器而非傳統的 VAE,這一洞察為統一模型的架構設計提供了新思路
基于上述發現,提出了 UniWorld-V1 —— 一個整合高分辨率對比語義編碼器與多模態大模型的統一生成框架,僅用 2.7M 樣本即可同時支持圖像理解、生成、編輯與感知等多種任務
在多個基準上,UniWorld-V1 性能與 BAGEL(2665M 樣本)和專業的圖像編輯模型 Step1X-Edit相當,并且開源了全部代碼、模型權重與數據集,促進后續研究與復現
觀察
在“編輯實驗”中,讓 GPT-4o-Image 將公交車背面的廣告涂成藍色,觀察到編輯前后黃色和綠色標簽文字的位置發生明顯不一致,說明低頻結構沒有被嚴格保留,VAE 特征(強調低頻信息)無法解釋這一現象
在“去噪實驗”中,將一張狗的圖像分別加噪至 0.4× 和 0.6×,GPT-4o-Image 對低噪圖像能夠正確去噪,但在高噪(0.6×)下將狗誤判為鹿。進一步調用 GPT-4o 和 Qwen2.5-VL 理解模塊發現,它們對高噪圖像也一致地識別為鹿,表明 GPT-4o-Image 依賴強大的多模態理解先驗而非 VAE 的低頻信息。
綜上,這些觀察支持了 GPT-4o-Image 使用基于語義編碼器的視覺特征提取方案。
架構
基于實驗發現,將原先基于 VAE 的低級控制信號替換為對比式視覺-語言模型 SigLIP 編碼器(選用最高分辨率版本 SigLIP2-so400m/14,固定輸出 512×512)。在視覺理解部分,沿用了團隊先前工作中使用的 Qwen2.5-VL-7B 預訓練模型。對于參考圖像,同時使用 Qwen2.5-VL-7B 和 SigLIP 進行處理,并將兩者的輸出拼接后,作為 FLUX 文本分支的輸入,從而實現更優的特征融合與建模。基于實驗發現,將原先基于 VAE 的低級控制信號替換為對比式視覺-語言模型 SigLIP 編碼器(選用最高分辨率版本 SigLIP2-so400m/14,固定輸出 512×512)
實驗
在 GenEval 測試中,UniWorld-V1 取得總體 0.79 分;使用與 BLIP3-o 相同的提示重寫后得分提升至 0.84,已非常接近 BAGEL 的 0.88。在 WISE 基準上,UniWorld-V1 綜合得分 0.55,尤其在“空間”類題材中獲得 0.73 分,僅次于 GPT-4o-Image 的 0.89,位列其他統一模型之首,展現了其在整合世界知識生成圖像方面的競爭力
在 ImgEdit-Bench 對比中,UniWorld-V1 以總分 3.37 位居所有開源模型之首,顯著領先于 Step1X-Edit 和 BAGEL(均為 3.17)。它在 Adjust(3.70)、Remove(3.54)、Extract(2.23)、Replace(3.49)和 Hybrid(3.13)五大關鍵指標上均獲開源模型最高分,展現了在屬性調整、元素移除、對象提取、混合編輯與內容替換等任務中的卓越能力。雖然 GPT-4o-Image 以 4.31 繼續領跑,但 UniWorld-V1 的表現最接近該行業標桿,標志著其在開源陣營中已實現媲美頂級模型的圖像編輯水平
通過示例與 GPT-4o-Image 進行了定性對比。結果顯示,UniWorld-V1 在各類感知任務上表現不俗,甚至在許多方面超越了 GPT-4o-Image。尤其在 Canny 邊緣檢測、法線圖生成、HED、分割和草圖生成等任務中,UniWorld-V1 的指令理解與執行能力更強。這表明其一體化架構能夠提供廣泛且準確的圖像感知功能,是首個具備如此多樣且高保真視覺分析能力的開源統一模型
?星標AI寒武紀,好內容不錯過?
用你的贊和在看告訴我~
求贊
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.