大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

圖像分詞器造反了!華為 Selftok:自回歸內核完美統一擴散模型

0
分享至




自回歸(AR)范式憑借將語言轉化為離散 token 的核心技術,在大語言模型領域大獲成功 —— 從 GPT-3 到 GPT-4o,「next-token prediction」以簡單粗暴的因果建模橫掃語言領域。但當我們將目光轉向視覺生成,卻發現這條黃金定律似乎失效了……

現有方案硬生生將圖像網格化為空間 token,強行塞入自回歸架構。這像極了 NLP 早期用 CNN 建模語言的彎路 —— 當視覺表達被空間局部性束縛,因果鏈被切割得支離破碎,如何能真正擁抱 AR 的本質?

華為盤古多模態生成團隊破局思路:讓圖像學會「說 AR 的語言」。團隊指出:視覺要想復刻 LLM 的成功,必須徹底重構 token 化范式!基于昇騰 AI 基礎軟硬件的 Selftok 技術,通過反向擴散過程將自回歸先驗融入視覺 token,讓像素流轉化為嚴格遵循因果律的離散序列。



  • 項目主頁:https://Selftok-team.github.io/report/
  • ArXiv 鏈接:https://arxiv.org/abs/2505.07538
  • Github鏈接: https://github.com/selftok-team/SelftokTokenizer

Selftok 的突破在于:

  • 反向擴散鍛造因果 token—— 通過擴散過程的時序分解,讓視覺表達徹底 AR 化
  • 強化學習友好型 token—— 首個嚴格滿足貝爾曼方程 (Bellman Equation) 的視覺離散表征
  • 純 AR 大一統架構 —— 無需復雜模塊堆疊,優雅地實現 LLM 和 diffusion 的融合,單憑 next-token prediction 統一跨模態生成

實驗結果實現:

  • 視覺重建新突破:Imagenet 上重建指標達到離散 token SoTA
  • 跨模態生成新高度:無需圖文對齊數據!僅憑視覺 token 策略梯度,GenEval 生成質量超越 GPT-4o
  • 親和昇騰計算架構:昇騰原生算子融合 + MindSpeed 框架,實現端到端原生開發

值得一提的是,該系列工作的開篇論文《Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens》也入選了 CVPR 2025 最佳論文候選(Best Paper Candidate, 14/13008,0.1%)

介紹

當前行業共識認為大語言模型(LLMs)正面臨語言數據瓶頸,而圖像、視頻等非語言數據仍存在巨大開發潛力。技術圈普遍認為,構建統一的多模態架構將是釋放 AI 更強涌現能力的關鍵。要將視覺等非語言模態整合進類似 LLMs 的離散自回歸模型(discrete AR,dAR),核心挑戰在于將連續視覺信號轉化為離散 Token。華為盤古多模態生成團隊首創不依賴空間先驗的視覺 Token 方案,通過與語言模態聯合訓練構建視覺 - 語言模型(VLM),在圖像生成、圖像編輯等任務中展現出卓越能力。其強化學習優化后的生成性能已超越 AR 范式現有模型,開創了多模態自回歸訓練的新范式。

為何選擇離散化視覺 token?當前主流方案采用語言 dAR 與圖像連續自回歸模型(continuous AR, cAR)的混合架構,認為連續表征能最小化圖像壓縮損失。但大量研究表明:離散表征同樣可保持高精度,而連續表征存在三重致命缺陷:其一,預測穩定性差,cAR 采用均方誤差(MSE)訓練的向量回歸器較 dAR 的交叉熵(XE)分類器更易出錯,這迫使多數 cAR 放棄因果預測范式,轉向雙向建模,從根本上違背 decoder-only 架構的自回歸設計哲學;其二,強化學習復雜度激增,連續狀態 - 動作空間使馬爾可夫決策過程從有限轉為無限,策略優化難度呈指數級上升;其三,解耦能力受限,連續表征在學習過程中會帶來模式坍縮 (視覺幻覺),離散可以實現因子更好的解耦。



圖 1

為什么選擇摒棄空間先驗?早期 CV 研究將空間特征 Token 化視為自回歸建模標配,但華為 AIGC Selftok 團隊指出:空間 Token 的因果依賴本質與 AR 范式存在根本沖突。如下圖所示,碰撞效應導致虛假依賴,編碼任一空間 Token 時引入與其他所有 Token 的貝葉斯偽相關,破壞 AR 所需的因果圖結構;從而導致強化學習失序,非 AR 依賴使 Token 預測影響歷史狀態,無法滿足貝爾曼方程,導致策略優化陷入局部最優困境。實驗證明,非空間 Token 的 RL 效果上限顯著低于 AR Token。



基于此,Selftok 團隊提出 Self-consistency Tokenizer:通過擴散模型反向過程的 AR 特性編碼圖像生成軌跡,每個 Token 對應擴散步驟的時間戳(如圖 3)。



圖 3

該方案實現三大突破:

1)AR 原生架構(自回歸之本):徹底摒棄空間先驗,保持重建精度同時提升圖文模態兼容性,為 dAR-VLM 預訓練與 RL 微調奠定基礎;

2)擴散范式統一(擴散之法):直接貫通擴散模型與自回歸架構,無需額外模塊即可完成跨模態統一。自回歸等價于遞歸,可像歸并排序算法(下左圖)一樣分而治之。同理,將 x_0→x_1(下右圖)的路徑分解成兩部分,x_0→x_t 由擴散模型采樣得到,x_t→x_1 學習 token;



圖 3.1

3)推理性能躍升(推理之用):Selftok-Token 完美適配策略優化,使 dAR-VLM 獲得類 LLM 的 RL 訓練能力。實驗證明,無監督的 Selftok-Zero 在 GenEval 和 DPG-Bench 榜單分別以 92% 和 85.57 分超越基于 Spatial token 的 AR 范式模型,驗證了 Selftok token 與 AR 范式的組合威力。

方法簡述

Tokenizer:Selftok tokenizer 主要由三部分構成:encoder,quantizer 與 decoder。整體的結構如圖 4 所示:



圖 4

Selftok 編碼器采用雙流架構:圖像分支繼承 SD3 的 VAE 隱空間編碼,文本分支創新性替換為可學習連續向量組以捕捉擴散特征,通過動態掩碼機制提升計算效率。核心量化器通過 EMA 更新的 codebook 和獨創的 "code 偏移監測 - 重激活" 機制,解決傳統訓練不均衡問題,實現擴散過程與自回歸建模的統一。解碼器基于 SD3 權重改進,文本分支采用 codebook embedding 替代傳統輸入,并通過時序感知 token 分配策略(隨 timestep 縮減 token 數量)強化自回歸特性。為了進一步提升推理效率,渲染器通過引入 "畫布"token 消除 timestep 依賴,在昇騰 910B2 上實現單卡推理速度從 8.2 秒壓縮至 0.31 秒,同時完全保留重建質量。生成路徑離散化技術將連續擴散轉化為 token 驅動確定性映射,奠定視覺自回歸建模新范式。



圖 6

Selftok 團隊通過可視化對比揭示了 token 表征的本質差異:

1)漸進重建(左→右):通過逐步掩碼輸入 token 序列測試重建能力。



VQGAN、FlowMo、VAR 因 token 與圖像塊強綁定,在短序列輸入時呈現塊狀偽影;而 Selftok 即使保留極少量 token 仍保持全局語義連貫。

2)Token 插值(左→右):通過逐步替換左右圖像 token 實現插值。



傳統方法因空間局部性產生斷裂形變,Selftok 則實現平滑語義過渡,驗證了自回歸建模的理論優勢。

Pretrain and SFT:在預訓練階段,模型架構基于 LLaMA-3-8B 進行擴展,在原有語言詞表的基礎上新增了 32,768 個圖像 token 的詞表。正如前文所述,Selftok dAR-VLM 可以完全復用現有的 LLM 訓練范式與訓練框架。具體實現上,該模型基于昇騰 MindSpeed 框架和昇騰 910B NPU 進行訓練優化,整個流程被設計為兩個關鍵階段:

1.多模態對齊:這個階段引入四種數據輸入格式(如圖 8 所示)來幫助模型實現模態的對齊,分別為 text-to-image, image-to-text, image-only 與 text-only,使得模型從 LLM 轉變為 VLM。



圖 8

2.多任務對齊:這個階段收集了高質量的圖像與文本數據對模型在三類任務(如圖 8 所示)上進行監督微調(sft):text-to-image, image-editing 與 image-understanding,進一步提升模型的能力上限并擴展模型的能力邊界。此外針對 AR token 的特性,Selftok 團隊也設計了新的推理策略,會根據當前圖像 token 的熵來確定是否進行 logit adjustment。新的推理策略也幫助模型進一步提升了圖像生成的效果。



公式 1

RL:Selftok 團隊首先證明了 AR tokens 能夠推導出貝爾曼方程,進而證明采用策略優化的 RL 算法具有最優解。在此理論基礎上,選擇使用 GRPO 算法對模型進行優化。不同于數學問題或代碼生成這類能夠獲得精確 reward 的任務,文生圖任務難以精確的評估生成效果與指令遵循能力。為了解決這個問題,Selftok 團隊設計了兩類獎勵函數:基于程序與基于 VQA 任務。基于程序的獎勵函數能夠有效的評估生成圖像中的物體屬性、空間關系、數量等是否與 prompt 相符合,團隊使用目標檢測模型來檢測上述內容,并提高目標檢測的閾值,在提升圖文一致性的同時顯著的提升了圖像內容的合理性與美感;基于 VQA 任務的獎勵函數面向更加通用的場景,首先 prompt 會被分解為多個問題,隨后使用 Internvl 與 GPT-4o 來回答這些問題,并計算出最終的 reward。

實驗結果顯示基于程序的獎勵函數能夠更加有效的提升模型的表現,在 GenEval Bench 上 Selftok-Zero 顯著的優于包括 GPT-4o 在內的其他所有模型。

結果

Tokenizer 結果:Selftok tokenizer 在 ImageNet 上的多個重建指標都達到了 sota,相比于其他的 tokenizer,Selftok tokenizer 對細節的重建效果更好,也更加貼近原始圖片,量化結果如表 1 所示。



表 1

文生圖結果:華為盤古多模態生成團隊在 GenEval 與 DPG 兩個 benchmark 上評測文生圖的的表現。其中在 GenEval Benchmark 上,基于 Selftok-sft 模型 RL 后的 sefltok-zero 大幅領先包括 GPT-4o 在內的所有模型,達到 92 的分數。相比與 sft 模型,經過 RL 后的模型在多個子任務上都達到 SOTA,且大幅領先其他模型。如表 2 所示:



表 2

在 DPG Benchmark 上,Selftok-zero 僅次于 HiDream-I1,并在多個子項上達到 sota。相比于 Selftok-sft,Selftok-zero 的表現全面提升,進一步證明了 Selftok token 在 RL 算法上的有效性。結果如表 3 所示:



表 3

可視化結果如圖 9 所示:



圖 9

圖像編輯結果:Selftok 團隊還在 PIE-Bench 上檢測了模型的圖像編輯能力,結果顯示 Selftok 模型的編輯效果在編輯模型中也處于領先地位,量化指標如表 4 所示,編輯過程可視化結果如圖 10。



表 4



圖 10

在多輪編輯任務中,Selftok 展示了精確的理解能力與非編輯區域的保持能力,編輯指令的遵循能力能夠與 GPT-4o,Gemini-2.0 等匹配,如圖 11 所示:



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
塞蒂恩:比賽收尾階段可以做的更好;如果能更早遇到張稀哲就好了

塞蒂恩:比賽收尾階段可以做的更好;如果能更早遇到張稀哲就好了

懂球帝
2025-06-14 22:03:22
太假了?中甲隊離譜配合失誤+門將讓出空門!送遼寧外援戴帽大禮

太假了?中甲隊離譜配合失誤+門將讓出空門!送遼寧外援戴帽大禮

我愛英超
2025-06-14 21:08:50
全國英語四級難度升級,大學生一片哀嚎,六級可能也讓考生破防!

全國英語四級難度升級,大學生一片哀嚎,六級可能也讓考生破防!

小嵩
2025-06-14 16:11:46
賴亞文再度表態!中國女排3大難題或迎刃而解,大小王組合成關鍵

賴亞文再度表態!中國女排3大難題或迎刃而解,大小王組合成關鍵

吾愛女排
2025-06-14 21:23:26
局部大到暴雨!江蘇這些地區……

局部大到暴雨!江蘇這些地區……

江蘇警方
2025-06-14 19:46:29
小沈陽18歲女兒NINA出道照釋出,滿滿松弛感,韓味十足

小沈陽18歲女兒NINA出道照釋出,滿滿松弛感,韓味十足

極目新聞
2025-06-12 13:49:53
記者:曼聯正在與達米安-馬丁內斯進行接觸&奧納納將離隊

記者:曼聯正在與達米安-馬丁內斯進行接觸&奧納納將離隊

懂球帝
2025-06-14 23:06:19
福耀科技大學招生數量引熱議,家長恐慌:這誰敢去

福耀科技大學招生數量引熱議,家長恐慌:這誰敢去

史書無明
2025-06-13 12:55:53
中國航空人怒了,C919用的竟是LEAP-1C發動機,真能扯!

中國航空人怒了,C919用的竟是LEAP-1C發動機,真能扯!

Thurman在昆明
2025-06-14 16:32:00
被宣布“死刑”的新西蘭富豪,竟然在中國活了下來!

被宣布“死刑”的新西蘭富豪,竟然在中國活了下來!

北國向錫安
2025-05-13 14:52:12
浙江2-2上海海港,賽后評分:不是王鈺棟第一,上海海港30號第一

浙江2-2上海海港,賽后評分:不是王鈺棟第一,上海海港30號第一

側身凌空斬
2025-06-14 17:37:52
賴清德暗示接受兩岸統一,要求北京調整對臺政策,國臺辦直接挑明

賴清德暗示接受兩岸統一,要求北京調整對臺政策,國臺辦直接挑明

小鬼頭體育
2025-05-21 04:35:43
自己宣!決定了!李月汝!

自己宣!決定了!李月汝!

左右為籃
2025-06-14 11:57:44
以軍稱超70架戰斗機參與在伊朗首都的夜間行動

以軍稱超70架戰斗機參與在伊朗首都的夜間行動

荷蘭豆愛健康
2025-06-15 00:42:12
中共中央批準:陳杰同志任上海市委常委

中共中央批準:陳杰同志任上海市委常委

新民晚報
2025-06-13 22:22:54
看看溫網的獎金方案,瞬間覺得鄭欽文WTA500倫敦賽晉級四強不香了

看看溫網的獎金方案,瞬間覺得鄭欽文WTA500倫敦賽晉級四強不香了

星光看娛樂
2025-06-14 14:57:57
姚晨這是把老公熬成爹的節奏,她自己倒是越活越年輕了!

姚晨這是把老公熬成爹的節奏,她自己倒是越活越年輕了!

阿廢冷眼觀察所
2025-06-04 04:04:39
300天靜默后,柬埔寨公布一個數字,讓所有人重新審視中國這步棋

300天靜默后,柬埔寨公布一個數字,讓所有人重新審視中國這步棋

任紀煙
2025-06-13 19:39:11
老鼓樓再迎拆遷!6年價值狂漲15倍,南京首個原拆原建小區,真香!

老鼓樓再迎拆遷!6年價值狂漲15倍,南京首個原拆原建小區,真香!

阿離家居
2025-06-14 16:14:47
大反轉?羅帥宇自殺結案,官方通報真相解析!為何質疑聲不止?

大反轉?羅帥宇自殺結案,官方通報真相解析!為何質疑聲不止?

丹哥熱評
2025-06-14 23:58:08
2025-06-15 02:00:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10640文章數 142338關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

房產
健康
數碼
藝術
軍事航空

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

呼吸科專家破解呼吸道九大謠言!

數碼要聞

黃仁勛親筆簽名版 RTX 5090 鍍金顯卡以 24200 美元達成慈善拍賣

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

軍事要聞

伊媒:以色列國防部大樓被伊朗導彈擊中

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧美狠狠入鲁的视频777色| 男男车车的车车网站w98免费| 久久精品网站免费观看| 97成人碰碰久久人人超级碰oo| 亚洲精品乱码久久久久久中文字幕| 狠狠色狠狠色综合日日不卡| 亚洲最大av一区二区三区| 日日摸日日碰人妻无码老牲| 乱人伦人妻中文字幕在线| 好爽又高潮了毛片免费下载| 中文字幕乱码在线人视频| 日韩少妇激情一区二区| 成 人 黄 色 免费 网站无毒| 亚洲综合色婷婷六月丁香宅男大增| 亚洲制服丝袜一区二区三区| 捆绑白丝粉色jk震动捧喷白浆| 波多野结衣乳巨码无在线| 亚洲毛片αv无线播放一区| 亚洲av日韩av永久无码久久| 嫩草院一区二区乱码| 奇米影视7777久久精品人人爽| 亚洲中文字幕久在线| 狠狠色狠狠色综合日日不卡| 苍井空一区二区三区在线观看| 国产美女在线精品免费观看| 国产裸体美女永久免费无遮挡| 久久精品国产一区二区无码| 免费看一区无码无a片www| 九九re6热在线视频精品66| 72种姿势欧美久久久久大黄蕉| 久久精品99国产精品亚洲| 大桥未久亚洲无av码在线| 亚洲国产av无码精品无广告| 亚洲综合欧美色五月俺也去| 亚洲人成电影在线观看天堂色| 国产强奷在线播放| av一本久道久久波多野结衣| 午夜婷婷精品午夜无码a片影院| 久久伊99综合婷婷久久伊| 国产特黄级aaaaa片免| 最新版天堂资源中文官网|