大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

視頻生成模型無損加速兩倍,秘訣是「抓住attention時空稀疏性」

0
分享至



自 OpenAI 發布 Sora 以來,AI 視頻生成技術進入快速爆發階段。憑借擴散模型強大的生成能力,我們已經可以看到接近現實的視頻生成效果。但在模型逼真度不斷提升的同時,速度瓶頸卻成為橫亙在大規模應用道路上的最大障礙。

當前最好的視頻生成模型 Wan 2.1、HunyuanVideo 等,在單張 H100 GPU 上生成一個 5 秒的 720p 視頻往往需要耗時 30 分鐘以上。主要瓶頸出現在 3D Full Attention 模塊,約占總推理時間的 80% 以上。

為了解決這個問題,來自加州伯克利和 MIT 的研究者們提出了聯合提出了一種新穎的解決方案:Sparse VideoGen。



  • 論文標題:Sparse VideoGen: Accelerating Video Diffusion Transformers with Spatial-Temporal Sparsity
  • 論文鏈接:https://arxiv.org/abs/2502.01776
  • 代碼:https://github.com/svg-project/Sparse-VideoGenn
  • 網頁:https://svg-project.github.io/

這是一種完全無需重新訓練模型的視頻生成加速方法。通過挖掘注意力機制中的空間與時間稀疏性,配合自適應稀疏選擇與算子優化,成功將推理時間減半。令人驚訝的是,它生成的視頻與 Dense Attention 方法相比,幾乎沒有肉眼可見的差別,保持極高的像素保真度 (PSNR = 29)。Sparse VideoGen 也是第一個能夠達到這種級別的像素保真度的方法。

目前,Sparse VideoGen 已經支持了 Wan 2.1, HunyuanVideo, CogVideoX 等多種 SOTA 開源模型,并且 T2V(文生視頻),I2V(圖生視頻)都可以加速。他們的所有代碼均已開源。該工作已經被 ICML 2025 錄取。

擴散式視頻生成的性能瓶頸

擴散模型(Diffusion Models)已經成為圖像與視頻生成的主流方案。特別是基于 Transformer 架構的 Video Diffusion Transformers(DiTs),在建模長時空依賴與視覺細節方面具有顯著優勢。然而,DiTs 模型的一大特征 ——3D Full Attention—— 也帶來了巨大的計算負擔。每個 token 不僅要考慮當前幀的空間上下文,還要參與跨幀的時間建模。隨著分辨率和幀數的提升,Attention 的計算復雜度以二次增長,遠高于普通圖像生成模型。

例如,HunyuanVideo 和 Wan 2.1 在 1×H100 上生成 5 秒 720p 視頻需要 29 分鐘,其中Attention 計算占據超過 80% 的時間。如此高昂的代價,大大限制了擴散視頻模型在真實世界中的部署能力。



Sparse VideoGen 的核心設計

抓住 Attention 中的稀疏性

在 Video Diffusion Transformer 的 Attention Map 中存在兩種獨特的稀疏模式:空間稀疏性 (Spatial sparsity) 和時間稀疏性 (Temporal sparsity)。大多數 Attention Head 都可以歸類為其中之一,并可以相應地定義兩類 Attention Head:Spatial Head 和 Temporal Head。

Spatial Head - 關注空間鄰近的 Token

Spatial Head 主要關注相同幀及相鄰幀中的 Token,其 Attention Map 呈塊狀布局,集中于主對角線附近。它負責建模局部空間一致性,使得圖像生成在幀內連貫。

Temporal Head - 關注不同幀中的相同 Token

Temporal Head 主要用于捕捉幀間的 Token 關系。其 Attention Map 呈斜線式布局,并具有恒定步長。這種機制確保了時間一致性,即同一物體在多個幀中保持連貫。

這種 Attention 模式的解構,幫助模型在計算過程中識別哪些 token 是「重要的」,哪些可以忽略,從而構建稀疏注意力策略。



實現無損像素保真度的關鍵

動態自適應的稀疏策略

盡管 Spatial Head 和 Temporal Head 分別解決了空間和時間一致性問題,但真正實現無損像素保真度的關鍵在于最優地組合它們。

在不同的去噪步驟(denoising steps)以及不同的生成提示(prompts)下,最優的稀疏策略可能會發生顯著變化。因此,靜態的稀疏模式無法保證最佳效果,必須采用動態、自適應的策略。

為此,Sparse VideoGen 采用了一種在線稀疏模式優化方法(Online Profiling),通過動態的決定 Attention Mask,用于動態決定每個注意力頭所采用的稀疏策略。

其方法如下:

1. 每一步推理過程中,隨機采樣極少量(僅 0.05%,約 64 個)的 Query Token;

2. 分別使用 Spatial 和 Temporal 兩種稀疏模式計算其注意力結果,并與 Dense Attention 對比誤差;

3. 為每個 Attention Head 選擇誤差最小的稀疏模式。

僅使用 64 個 Query Token(占全部 token 總數的 0.1%),即可準確預測最優的稀疏模式。這種輕量級探索 + 局部誤差擬合的策略,幾乎不增加額外計算開銷(<3%),但可在不同步驟下精準選取最優稀疏模式,從而最大限度保證畫質(PSNR > 29)且實現有效加速。



從算子層優化稀疏計算

Layout Transformation + Kernel 加速

盡管利用稀疏性能夠顯著提升 Attention 速度,但如何達到最優的加速效果仍然是一大問題。尤其是Temporal Head 的非連續內存訪問模式仍然對 GPU 的性能構成挑戰。

Temporal Head(時間注意力頭)需要跨多個幀訪問相同空間位置的 token。然而,傳統的張量布局通常是以幀為主(frame-major)的順序存儲數據,即同一幀的所有 token 連續存儲,而不同幀的相同位置的 token 則分散開來。

為了解決這一問題,Sparse VideoGen 引入了一種硬件友好的布局轉換方法。該方法通過將張量從幀為主的布局轉換為 token 為主(token-major)的布局,使得 Temporal Head 所需的 token 在內存中呈現連續排列,從而優化了內存訪問模式。具體而言,這種轉換通過轉置操作實現,將原本分散的 token 重組為連續的內存塊,符合 GPU 的內存訪問特性。



這種布局轉換不僅提高了內存訪問效率,還使得稀疏注意力計算能夠更好地利用 GPU 的并行計算能力。實驗結果表明,經過布局轉換后,Sparse VideoGen 在 Temporal Head 上實現了接近理論極限的加速效果,顯著提升了整體推理速度。



除了注意力機制的優化,Sparse VideoGen 還對 Query-Key Normalization(QK-Norm)和 Rotary Position Embedding(RoPE)進行了定制化優化,以進一步提升推理效率。在標準實現中,QK-Norm 和 RoPE 的計算開銷較大,成為推理過程中的性能瓶頸之一。為此,研究者對這兩個模塊進行了算子優化,QK-Norm 的吞吐量在所有場景下均優于 PyTorch 的標準實現,平均加速比為 7.4 倍,。同樣地,定制化的 RoPE 實現也在所有幀數下表現出更高的吞吐量,平均加速比為 14.5 倍。

實驗成果

媲美原模型的畫質,顯著的推理速度提升

在 Wan2.1、HunyuanVideo 和 CogVideoX 上,Sparse VideoGen 展現出強大性能:

1. 在 H100 上將 HunyuanVideo 的推理時間從約 30 分鐘降至 15 分鐘以內;將 Wan 2.1 的推理時間從 30 分鐘將至 20 分鐘;

2. 保持 PSNR 穩定在 29dB 以上,接近 Dense Attention 輸出畫質;

3. 可無縫接入多種現有 SOTA 視頻生成模型(Wan 2.1、CogVideoX、HunyuanVideo);

4. 同時支持 T2V(文本生成視頻)和 I2V(圖像生成視頻)任務。

在未來,隨著視頻擴散模型的復雜度進一步上升,如何在不損失視覺質量的前提下提升效率,將是核心問題之一。SVG 的工作展示了一條重要方向:結構理解 + 自適應稀疏性可能成為視頻生成推理優化的黃金組合。

這一研究也在提示我們:視頻生成模型不必一味追求更大,理解其內部結構規律,或許能帶來比擴容更可持續的性能突破。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
離婚7年,楊冪高調宣布喜訊,劉愷威終為自己的錯誤買了單!

離婚7年,楊冪高調宣布喜訊,劉愷威終為自己的錯誤買了單!

聚合大娛
2025-06-14 17:40:06
浙江一婚席吃掉50萬元,結賬嫌太貴拒付款,餐具供應商:我的錢也沒給

浙江一婚席吃掉50萬元,結賬嫌太貴拒付款,餐具供應商:我的錢也沒給

極目新聞
2025-06-14 10:52:54
40歲健身網紅唐博濤離世,妻子透露原因,常年健身經常爬320層樓

40歲健身網紅唐博濤離世,妻子透露原因,常年健身經常爬320層樓

娛樂圈圈圓
2025-06-14 15:20:50
11國棄權,中方反對票失效,以方侵犯伊朗主權,更可怕的還在后面

11國棄權,中方反對票失效,以方侵犯伊朗主權,更可怕的還在后面

吳欣純Deborah
2025-06-14 16:59:12
南航“美女經理”:除了生理期就沒閑過,兩年半和上級開房410次

南航“美女經理”:除了生理期就沒閑過,兩年半和上級開房410次

就一點
2025-06-13 16:45:25
湖北XX學院,奔馳哥與學生妹活色生香,追逐野鴛鴦成校園樂趣,這瓜真的驚艷!

湖北XX學院,奔馳哥與學生妹活色生香,追逐野鴛鴦成校園樂趣,這瓜真的驚艷!

閑侃閑侃
2025-06-15 07:17:03
伊朗最高領袖高級顧問沙姆哈尼,因傷勢過重離世

伊朗最高領袖高級顧問沙姆哈尼,因傷勢過重離世

政知新媒體
2025-06-15 07:03:36
恥辱!香港運動員奪冠拒唱國歌,這樣的運動員不止一個

恥辱!香港運動員奪冠拒唱國歌,這樣的運動員不止一個

柳絮憶史
2025-06-14 07:10:03
國防大學的教授也是一個水貨

國防大學的教授也是一個水貨

回旋鏢
2025-06-14 15:59:57
7國加入戰場,伊朗要被群毆?局勢變成5對2,中方不再靜觀其變

7國加入戰場,伊朗要被群毆?局勢變成5對2,中方不再靜觀其變

阿傖說事
2025-06-14 23:10:38
素材來了!!霍華德和史蒂芬森上演抱摔沖突 奧尼爾轉發

素材來了!!霍華德和史蒂芬森上演抱摔沖突 奧尼爾轉發

直播吧
2025-06-15 08:48:15
伊朗領導人正在集體逃離伊朗-三架客機于凌晨緊急升空飛俄等地

伊朗領導人正在集體逃離伊朗-三架客機于凌晨緊急升空飛俄等地

桂系007
2025-06-14 22:02:39
以色列空襲也門胡塞武裝領導人住所

以色列空襲也門胡塞武裝領導人住所

新華社
2025-06-15 07:34:15
伊朗不打倒神棍政權,國家將永無希望

伊朗不打倒神棍政權,國家將永無希望

廖保平
2025-06-14 09:19:25
美媒爆料:以色列過去48小時內要求美國加入針對伊朗的軍事行動,但美國尚未考慮這一選項

美媒爆料:以色列過去48小時內要求美國加入針對伊朗的軍事行動,但美國尚未考慮這一選項

環球網資訊
2025-06-15 09:09:47
美媒:以色列暗殺胡塞武裝高級領導人失敗

美媒:以色列暗殺胡塞武裝高級領導人失敗

環球網資訊
2025-06-15 06:41:35
提車兩周,上高速半小時自燃,所有門打不開!一車主發帖引發關注

提車兩周,上高速半小時自燃,所有門打不開!一車主發帖引發關注

火山詩話
2025-06-15 07:29:21
以色列國家安全總局局長巴爾宣布辭職

以色列國家安全總局局長巴爾宣布辭職

新京報
2025-06-15 07:30:02
伊朗革命衛隊聲稱擊落F-35并俘獲女飛行員,以色列諷刺虛假宣傳

伊朗革命衛隊聲稱擊落F-35并俘獲女飛行員,以色列諷刺虛假宣傳

明月聊史
2025-06-14 15:56:59
19歲小伙訂婚,新娘一臉不情愿像40歲,網友:新學員娶了老司機

19歲小伙訂婚,新娘一臉不情愿像40歲,網友:新學員娶了老司機

辣媒專欄記錄
2025-06-07 10:45:03
2025-06-15 10:28:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10640文章數 142338關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

印度空難幸存者:機身撞出巨大裂口 爬出去后發生爆炸

頭條要聞

印度空難幸存者:機身撞出巨大裂口 爬出去后發生爆炸

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

鳳凰傳奇曾毅塌房?網友:別連累玲花

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

藝術
親子
時尚
旅游
軍事航空

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

親子要聞

父親節潑冷水:3種中國式父愛要不得!希望你一個也不占

夏天最值得入手的6件單品,全在這了

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

軍事要聞

伊媒:以色列國防部大樓被伊朗導彈擊中

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产伦精品一区二区三区免.费| 欧美熟妇精品一区二区三区| 人禽杂交18禁网站免费| 精品国产乱码久久久软件下载| 一本色道无码不卡在线观看| 国产精品毛片更新无码| 亚洲线精品一区二区三区| 国产性天天综合网| 99国精品午夜福利视频不卡| 亚洲日韩欧美国产高清αv| 精品人无码一区二区三区| 大伊香蕉精品视频在线天堂| 久热这里在线精品| 国产精品久久自在自线青柠| 99久久国产露脸国语对白| 偷窥自拍性综合图区| 无码av天天av天天爽| 中文字幕亚洲无线码在线一区| 国产无遮挡又黄又爽高潮| 亚洲成aⅴ人片久青草影院按摩| 国产在线无码不卡播放| 久久超碰97中文字幕| √最新版天堂资源网在线| 亚洲第一狼人天堂久久| 国产av夜夜欢一区二区三区| 成年女人a毛片免费视频| 国精产品一品二品国在线| 亚洲av无码有乱码在线观看| 久久亚洲精品无码观看网站| 久久精品亚洲一区二区三区浴池| 婷婷激情综合色五月久久竹菊影视| 亚洲av无码久久精品色欲| 国产精品久久久久久99人妻精品| 成人久久精品一区二区三区| 特黄做受又硬又粗又大视频小说| 中文无码vr最新无码av专区| 97超级碰碰人妻中文字幕| 亚洲国产成人精品无码区蜜柚| 99精品国产一区二区| 东京热无码一区二区三区av| 无遮挡又爽又刺激的视频|