自 OpenAI 發布 Sora 以來,AI 視頻生成技術進入快速爆發階段。憑借擴散模型強大的生成能力,我們已經可以看到接近現實的視頻生成效果。但在模型逼真度不斷提升的同時,速度瓶頸卻成為橫亙在大規模應用道路上的最大障礙。
當前最好的視頻生成模型 Wan 2.1、HunyuanVideo 等,在單張 H100 GPU 上生成一個 5 秒的 720p 視頻往往需要耗時 30 分鐘以上。主要瓶頸出現在 3D Full Attention 模塊,約占總推理時間的 80% 以上。
為了解決這個問題,來自加州伯克利和 MIT 的研究者們提出了聯合提出了一種新穎的解決方案:Sparse VideoGen。
- 論文標題:Sparse VideoGen: Accelerating Video Diffusion Transformers with Spatial-Temporal Sparsity
- 論文鏈接:https://arxiv.org/abs/2502.01776
- 代碼:https://github.com/svg-project/Sparse-VideoGenn
- 網頁:https://svg-project.github.io/
這是一種完全無需重新訓練模型的視頻生成加速方法。通過挖掘注意力機制中的空間與時間稀疏性,配合自適應稀疏選擇與算子優化,成功將推理時間減半。令人驚訝的是,它生成的視頻與 Dense Attention 方法相比,幾乎沒有肉眼可見的差別,保持極高的像素保真度 (PSNR = 29)。Sparse VideoGen 也是第一個能夠達到這種級別的像素保真度的方法。
目前,Sparse VideoGen 已經支持了 Wan 2.1, HunyuanVideo, CogVideoX 等多種 SOTA 開源模型,并且 T2V(文生視頻),I2V(圖生視頻)都可以加速。他們的所有代碼均已開源。該工作已經被 ICML 2025 錄取。
擴散式視頻生成的性能瓶頸
擴散模型(Diffusion Models)已經成為圖像與視頻生成的主流方案。特別是基于 Transformer 架構的 Video Diffusion Transformers(DiTs),在建模長時空依賴與視覺細節方面具有顯著優勢。然而,DiTs 模型的一大特征 ——3D Full Attention—— 也帶來了巨大的計算負擔。每個 token 不僅要考慮當前幀的空間上下文,還要參與跨幀的時間建模。隨著分辨率和幀數的提升,Attention 的計算復雜度以二次增長,遠高于普通圖像生成模型。
例如,HunyuanVideo 和 Wan 2.1 在 1×H100 上生成 5 秒 720p 視頻需要 29 分鐘,其中Attention 計算占據超過 80% 的時間。如此高昂的代價,大大限制了擴散視頻模型在真實世界中的部署能力。
Sparse VideoGen 的核心設計
抓住 Attention 中的稀疏性
在 Video Diffusion Transformer 的 Attention Map 中存在兩種獨特的稀疏模式:空間稀疏性 (Spatial sparsity) 和時間稀疏性 (Temporal sparsity)。大多數 Attention Head 都可以歸類為其中之一,并可以相應地定義兩類 Attention Head:Spatial Head 和 Temporal Head。
Spatial Head - 關注空間鄰近的 Token
Spatial Head 主要關注相同幀及相鄰幀中的 Token,其 Attention Map 呈塊狀布局,集中于主對角線附近。它負責建模局部空間一致性,使得圖像生成在幀內連貫。
Temporal Head - 關注不同幀中的相同 Token
Temporal Head 主要用于捕捉幀間的 Token 關系。其 Attention Map 呈斜線式布局,并具有恒定步長。這種機制確保了時間一致性,即同一物體在多個幀中保持連貫。
這種 Attention 模式的解構,幫助模型在計算過程中識別哪些 token 是「重要的」,哪些可以忽略,從而構建稀疏注意力策略。
實現無損像素保真度的關鍵
動態自適應的稀疏策略
盡管 Spatial Head 和 Temporal Head 分別解決了空間和時間一致性問題,但真正實現無損像素保真度的關鍵在于最優地組合它們。
在不同的去噪步驟(denoising steps)以及不同的生成提示(prompts)下,最優的稀疏策略可能會發生顯著變化。因此,靜態的稀疏模式無法保證最佳效果,必須采用動態、自適應的策略。
為此,Sparse VideoGen 采用了一種在線稀疏模式優化方法(Online Profiling),通過動態的決定 Attention Mask,用于動態決定每個注意力頭所采用的稀疏策略。
其方法如下:
1. 每一步推理過程中,隨機采樣極少量(僅 0.05%,約 64 個)的 Query Token;
2. 分別使用 Spatial 和 Temporal 兩種稀疏模式計算其注意力結果,并與 Dense Attention 對比誤差;
3. 為每個 Attention Head 選擇誤差最小的稀疏模式。
僅使用 64 個 Query Token(占全部 token 總數的 0.1%),即可準確預測最優的稀疏模式。這種輕量級探索 + 局部誤差擬合的策略,幾乎不增加額外計算開銷(<3%),但可在不同步驟下精準選取最優稀疏模式,從而最大限度保證畫質(PSNR > 29)且實現有效加速。
從算子層優化稀疏計算
Layout Transformation + Kernel 加速
盡管利用稀疏性能夠顯著提升 Attention 速度,但如何達到最優的加速效果仍然是一大問題。尤其是Temporal Head 的非連續內存訪問模式仍然對 GPU 的性能構成挑戰。
Temporal Head(時間注意力頭)需要跨多個幀訪問相同空間位置的 token。然而,傳統的張量布局通常是以幀為主(frame-major)的順序存儲數據,即同一幀的所有 token 連續存儲,而不同幀的相同位置的 token 則分散開來。
為了解決這一問題,Sparse VideoGen 引入了一種硬件友好的布局轉換方法。該方法通過將張量從幀為主的布局轉換為 token 為主(token-major)的布局,使得 Temporal Head 所需的 token 在內存中呈現連續排列,從而優化了內存訪問模式。具體而言,這種轉換通過轉置操作實現,將原本分散的 token 重組為連續的內存塊,符合 GPU 的內存訪問特性。
這種布局轉換不僅提高了內存訪問效率,還使得稀疏注意力計算能夠更好地利用 GPU 的并行計算能力。實驗結果表明,經過布局轉換后,Sparse VideoGen 在 Temporal Head 上實現了接近理論極限的加速效果,顯著提升了整體推理速度。
除了注意力機制的優化,Sparse VideoGen 還對 Query-Key Normalization(QK-Norm)和 Rotary Position Embedding(RoPE)進行了定制化優化,以進一步提升推理效率。在標準實現中,QK-Norm 和 RoPE 的計算開銷較大,成為推理過程中的性能瓶頸之一。為此,研究者對這兩個模塊進行了算子優化,QK-Norm 的吞吐量在所有場景下均優于 PyTorch 的標準實現,平均加速比為 7.4 倍,。同樣地,定制化的 RoPE 實現也在所有幀數下表現出更高的吞吐量,平均加速比為 14.5 倍。
實驗成果
媲美原模型的畫質,顯著的推理速度提升
在 Wan2.1、HunyuanVideo 和 CogVideoX 上,Sparse VideoGen 展現出強大性能:
1. 在 H100 上將 HunyuanVideo 的推理時間從約 30 分鐘降至 15 分鐘以內;將 Wan 2.1 的推理時間從 30 分鐘將至 20 分鐘;
2. 保持 PSNR 穩定在 29dB 以上,接近 Dense Attention 輸出畫質;
3. 可無縫接入多種現有 SOTA 視頻生成模型(Wan 2.1、CogVideoX、HunyuanVideo);
4. 同時支持 T2V(文本生成視頻)和 I2V(圖像生成視頻)任務。
在未來,隨著視頻擴散模型的復雜度進一步上升,如何在不損失視覺質量的前提下提升效率,將是核心問題之一。SVG 的工作展示了一條重要方向:結構理解 + 自適應稀疏性可能成為視頻生成推理優化的黃金組合。
這一研究也在提示我們:視頻生成模型不必一味追求更大,理解其內部結構規律,或許能帶來比擴容更可持續的性能突破。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.