大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

清華團隊提出微縮版FP4注意力機制,以即插即用方式加速推理

0
分享至

近日,清華大學團隊打造了首個用于推理加速的微縮版 FP4 注意力機制——SageAttention3,在英偉達 RTX5090 上實現了 1038TOPS 的計算性能。相比此前在英偉達 RTX5090 上計算性能最快的、由美國斯坦福大學提出的 FlashAttention,SageAttention3 的計算性能快了 5 倍。實驗表明,SageAttention3 能夠加速各種模型,并且不會導致端到端質量指標的下降。

與此同時,研究團隊還打造了首個用于訓練加速的可訓練 8 比特注意力機制——SageBwd,并探討了它在訓練任務中的可行性。其發現,8 比特注意力機制可以在微調任務中實現無損性能,不過在當前階段的預訓練任務中仍存在一定局限性。


(來源:arXiv)

由于注意力機制的時間復雜度是 n2,因此注意力機制的效率非常重要。為此,他們通過兩個關鍵貢獻提高了注意力的效率:首先,研究團隊利用英偉達 Blackwell GPU 中的新 FP4 Tensor 內核來加速注意力計算。實驗表明,SageAttention3 能夠以即插即用的方式加速各種模型的推理。其次,研究團隊在訓練任務中率先采用了低比特注意力機制,而此前包括 FlashAttention3 和 SageAttention 在內的現有低比特注意力機制僅僅關注推理。

據該研究團隊所知,本次研究首次實現了面向推理加速的 FP4 注意力機制設計,并開創性地探索了低比特注意力在大型模型訓練中的可行性。目前,相關代碼已開源:https://github.com/thu-ml/SageAttention。



解決兩大障礙和一個難點

研究團隊在論文中表示,FP4 注意力機制面臨兩個主要障礙,而 8 比特可訓練注意力機制則面臨著一個關鍵難點。具體來說:

第一個問題是:FP4 量化的數值表示范圍極為有限(僅能表示 15 個可取值),導致無論是逐張量(per-tensor)還是逐詞元(per-token)的量化方法,均無法有效保持模型精度。

第二個問題是:注意力圖 P 主要由 [0,1] 范圍內的小值組成。(注:注意力圖 P 是 Self-Attention 中的核心輸出矩陣,表示輸入序列中所有位置之間的相關性權重。)若直接量化為 FP4 格式,這些數值會迫使擴展因子的動態范圍被極度壓縮。然而,硬件要求量化因子必須采用 FP8 數據類型,這一限制導致縮放因子以 FP8 格式表示時會產生顯著的精度損失。

第三個問題是:在訓練過程中使用 8 比特注意力機制時,研究團隊發現注意力圖的梯度特別容易受到量化誤差的影響,從而導致輸入梯度中的誤差累積。

為了解決第一個問題,研究團隊提出針對注意力機制中的兩次矩陣乘法,即 QK? 和 PV 中使用 FP4 微縮放量化方法。通過將量化組大小限制為 1x16(而非基于張量或通道),讓本次方法在提高 FP4 量化精度的同時,能夠有效抑制每個塊內的異常值影響。

為了解決第二個問題,研究團隊提出了一種針對注意力圖 P 的兩級量化方法,從而充分利用了 FP8 縮放因子的表示范圍,提高了注意力圖 P 的量化精度。具體而言,該方法首先通過逐 token 量化將每個 token 的數值范圍歸一化至 [0, 448 × 6],隨后采用 FP4 微縮放量化來提升精度。

為了解決第三個問題,研究團隊在反向傳播涉及的五個矩陣乘法運算中,識別出對精度最為敏感的那個,并將其精度保持在 FP16 級別。



FP4 注意推理加速以及硬件實現與優化

在數據類型的確定上,FP4 數據類型有著兩種選擇。第一個選擇是 NVFP4,其數據類型為 E2M1,量化塊大小為 1×16,擴展因子為 E4M3 數據類型。第二個選擇是 MXFP4,它也是 E2M1 數據類型,然而其量化塊大小為 1×32,擴展因子為 E8M0 數據類型。

一番對比之后,研究團隊選擇了 NVFP4,這是因為 NVFP4 在注意力量化方面的精度遠高于 MXFP4。下表展示了在 AI 視頻生成模型 CogVideoX 所有層上使用實數 Q、K、V 的 MXFP4 和 NVFP4 的準確性。結果表明,NVFP4 的精度優于 MXFP4。


(來源:arXiv)

不同于 FP16,在 FP4 的矩陣乘法中,FP32 累加器的內存布局與其操作數 A 的寄存器布局不同。如果通過線程間數據交換來匹配操作數 A 的布局,會導致內核性能下降。研究團隊的方法是通過對 P tile 的列進行置換,來調整累加器的布局。為了保證矩陣乘法的正確性,研究團隊相應地重新排列 K 的列,這一過程可以與量化內核融合處理。

進行微縮放量化時,需要找到每行連續 16 個元素中的最大值。然而,這 16 個元素分布在 4 個線程中,這就需要線程內部先求最大值,再通過線程間的 shuffle 操作進行歸并,這大大拖慢了內核的執行速度。研究團隊針對這一做法進行了優化,即把量化過程與在線 softmax 融合處理,與此同時這種融合還能計算每行的最大值。


(來源:arXiv)

在傳統的 warp 專用內核中,消費者線程束通常同時執行矩陣乘法和存儲操作,而生產者線程束只是負責加載輸入數據,消費者線程束之間通過乒乓調度(ping-pong)調度實現階段重疊。

然而,在研究團隊的 FP4 注意力內核中,由于寄存器資源受限,這種方式無法實現。因此,研究團隊設計了新的方案,即在生產者線程束之間進行乒乓調度:當一個生產者線程束為下一次矩陣乘法操作加載輸入數據時,另一個生產者線程束同時將輸出結果存儲到全局內存中,而消費者線程束則僅負責將矩陣乘法的結果從寄存器轉移到共享內存中。

通過采用這種新穎的設計,讓他們在寄存器數量的限制下,實現了矩陣乘法和全局內存存儲操作的重疊,從而提高了吞吐量。



將 INT8 注意力用于訓練,并開展相關實驗

據了解,低比特量化注意力相關工作,比如 FlashAttention3 和 SageAttention,僅適用于推理場景。

如前所述,研究團隊提出了一種用于訓練的 INT8 注意力機制——SageBwd。該機制將注意力計算中的七個矩陣乘法里的六個量化為 INT8 精度,同時在微調任務中實現了零性能損失。

實驗中,研究團隊驗證了 SageAttention3 和 SageBwd 在語言、圖像和視頻生成等多種代表性模型中的有效性。

具體來說,他們在以下方面進行了實驗:

在文本到文本任務的測試實驗中,使用的是 Qwen2.5 和 Llama3.2;在文本到視頻任務的測試實驗中,使用的是 CogvideoX、HunyuanVideo 和 Mochi;在文本到圖像任務的測試實驗中,使用的是 Flux 和 Stable-Diffusion3.5。

研究團隊將本次方法與 FlashAttention2、xformers、SageAttention 和 SageAtteention2 進行了比較。

需要說明的是,FlashAttention3 只能在英偉達 Hopper GPU 上運行,因此 FlashAttention 2 已經是英偉達 RTX5090 和英偉達 RTX4090 上能運行的最快版本。

下圖展示了 SageAttention3 及其基線模型在 RTX 5090 上的內核運行速度。可以看出,SageAttention3 相較于 FlashAttention2 實現了 4~5 倍的加速,相較于 xformers 實現了 8~11 倍的加速。


(來源:arXiv)

下圖展示了 SageBwd 及其基線模型在英偉達 RTX 4090 上的“正向+反向”傳播的速度。結果表明,SageBwd 相較于 FlashAttention2 最多實現了 1.67 倍的加速,并且比基于 Triton 實現的 FlashAttention2 以及 xformers 具有更高的加速比。


(來源:arXiv)

在下表中,研究團隊使用 SageAttention3 和其他注意力方法比較了各種模型上的端到端質量指標。結果表明,SageAttention3 在這些模型中幾乎不會造成端到端的質量損失。


(來源:arXiv)

為了評估 SageBwd 在訓練任務中的有效性,研究團隊進行了兩個實驗。

首先,研究團隊在 GSM8K、DROP、MMLU 和 HELLASWAG 數據集上對 Qwen2.5(3B)和 Llama3.2(1B)的基礎模型進行微調。下圖顯示了微調損耗結果,表明 SageBwd 與 BF16 完全對齊。


(來源:arXiv)

此外,研究團隊對多個測試數據集上微調模型的答案質量的評估表明,SageBwd 實現了與 BF16 相同的性能。


(來源:arXiv)

其次,研究團隊使用 Llama(400M)模型在 FineWebEdu 上進行預訓練任務。下圖顯示了損耗曲線,表明雖然 SageBwd 可以實現損耗收斂,但其收斂速度相對較慢。這種限制制約了它在預訓練任務中的適用性。


(來源:arXiv)

下圖顯示了視頻生成的一些比較示例,包括使用 SageAttention3 在混元上生成視頻和在 Stable-diffsion3.5 上生成圖像。結果表明,SageAttention3 保持了完好的生成質量。


(來源:arXiv)

下圖總結了端到端推理和訓練延遲的改進情況。結果顯示,相比混元和 CogVideoX,SageAttention3 在英偉達 RTX5090 上實現了約 3 倍和 2.4 倍的端到端推理生成加速。此外,SageBwd 在英偉達 RTX4090 上使用 8K/16K token 微批量訓練 Llama(1B)時,實現了大約 1.15 倍的加速。


(來源:arXiv)

盡管 SageBwd 展現出比 FP16 實現更快的性能,但研究團隊觀察到其當前速度與理論上限之間存在顯著差距。這一差距可能是由 Triton 內核實現不夠優良導致的,研究團隊計劃進一步對其進行優化。研究團隊在論文中表示,探索低比特注意力在預訓練任務中的應用也是一個富有前景的研究方向,非常值得探索。

參考資料:

相關論文:https://.org/pdf/2505.11594

開源代碼:https://github.com/thu-ml/SageAttention

排版:劉雅坤

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
醫生發現,每天一個雞蛋的老人,過不了幾個月,身體或有6大變化

醫生發現,每天一個雞蛋的老人,過不了幾個月,身體或有6大變化

新時代的兩性情感
2025-06-03 09:28:29
43歲知名主持人金昀離世!產后4個月患病,閨蜜曝最后搶救細節

43歲知名主持人金昀離世!產后4個月患病,閨蜜曝最后搶救細節

葉公子
2025-06-14 17:25:07
突發!美國,拒絕以色列!

突發!美國,拒絕以色列!

證券時報
2025-06-15 10:47:05
550萬在美華人數據全公開,88%中國籍博士留在美國!

550萬在美華人數據全公開,88%中國籍博士留在美國!

霹靂炮
2025-05-29 23:14:55
黑哨爆料:NBA會通知裁判把系列賽延長至6-7場 姚明火箭就是例子

黑哨爆料:NBA會通知裁判把系列賽延長至6-7場 姚明火箭就是例子

羅說NBA
2025-06-15 11:08:53
全世界現在都在賭,中美到底誰先扛不住?大部分預測中國輸。

全世界現在都在賭,中美到底誰先扛不住?大部分預測中國輸。

慢看世界
2025-06-14 15:56:34
Labubu新品遭黃牛哄搶高價轉賣,律師:涉嫌多重違法

Labubu新品遭黃牛哄搶高價轉賣,律師:涉嫌多重違法

新京報
2025-06-15 10:49:13
男乒世界第一換人!不是樊振東,更不是王楚欽

男乒世界第一換人!不是樊振東,更不是王楚欽

體壇狗哥
2025-06-13 21:31:00
是什么把老百姓辛苦幾十年積攢的資產吞噬殆盡?

是什么把老百姓辛苦幾十年積攢的資產吞噬殆盡?

慢看世界
2025-06-07 16:16:30
史無前例!以色列報告:消滅了伊朗革命衛隊空軍的幾乎所有領導人

史無前例!以色列報告:消滅了伊朗革命衛隊空軍的幾乎所有領導人

一種觀點
2025-06-13 21:43:20
為啥說現在小孩的年齡是謎?網友:這一代有望恢復秦漢時期的身高

為啥說現在小孩的年齡是謎?網友:這一代有望恢復秦漢時期的身高

解讀熱點事件
2025-06-15 00:05:03
六個癥狀不斷出現,十有八九是惡性腫瘤,最好去檢查一下!

六個癥狀不斷出現,十有八九是惡性腫瘤,最好去檢查一下!

醫學原創故事會
2025-06-13 18:37:16
杭州文旅再次破防!“天價”飯店還有衛生問題,老板態度囂張至極

杭州文旅再次破防!“天價”飯店還有衛生問題,老板態度囂張至極

云景侃記
2025-06-14 07:45:07
廣東街頭驚現“走地魚”!離水不死還能翻山越嶺?

廣東街頭驚現“走地魚”!離水不死還能翻山越嶺?

大象新聞
2025-06-15 10:51:14
已證實:雙雙遭襲身亡

已證實:雙雙遭襲身亡

FM93浙江交通之聲
2025-06-14 18:20:55
馬刺媒體發問:萬一文班亞馬真的退役去當一名和尚怎么辦?

馬刺媒體發問:萬一文班亞馬真的退役去當一名和尚怎么辦?

直播吧
2025-06-14 19:50:20
財政部定調提高養老金!2025年怎么漲?每月至少能獲得60元增幅?

財政部定調提高養老金!2025年怎么漲?每月至少能獲得60元增幅?

王五說說看
2025-06-15 09:36:45
南京高中排名為啥讓江寧人破防?

南京高中排名為啥讓江寧人破防?

解說阿洎
2025-06-15 13:32:58
小玥兒陪父母直播!汪小菲玩女兒玩具,笑到起飛!網友:融洽!

小玥兒陪父母直播!汪小菲玩女兒玩具,笑到起飛!網友:融洽!

大笑江湖史
2025-06-14 22:56:07
俄軍再次擊落自己戰機,伊朗只是俄烏戰爭一枚棋子

俄軍再次擊落自己戰機,伊朗只是俄烏戰爭一枚棋子

史政先鋒
2025-06-14 19:32:21
2025-06-15 16:48:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15294文章數 513783關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

清華高顏值女孩父親:不同意女兒直播 創業不能盲目瞎搞

頭條要聞

清華高顏值女孩父親:不同意女兒直播 創業不能盲目瞎搞

體育要聞

裁判可以噴,但也從步行者自身找找問題?

娛樂要聞

鳳凰傳奇曾毅塌房?網友:別連累玲花

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

教育
房產
手機
家居
藝術

教育要聞

對于地理視角的回顧:這道題的練習對于完成廣東高考綜合題第17題有幫助

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

手機要聞

華為鴻蒙 HarmonyOS 5.1 系統新增特性曝光

家居要聞

森林幾何 極簡灰調原木風

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 特黄aaaaaaa片免费视频| 人妻影音先锋啪啪av资源| 强行交换配乱婬bd| 久久人妻少妇偷人精品综合桃色| 精品无人区麻豆乱码1区2区| 午夜视频体内射.com.com| 精品免费看国产一区二区| 人妻教师痴汉电车波多野结衣| 天天做天天摸天天爽天天爱| 富婆如狼似虎找黑人老外| 国产丰满乱子伦无码专| 欧美男生射精高潮视频网站| 亚洲欧美日韩国产精品专区| 性高湖久久久久久久久aaaaa| 少妇久久久久久被弄到高潮| 精品国产乱码久久久久久婷婷| 一本一道av无码中文字幕| 人妻少妇456在线视频| 综合网日日天干夜夜久久| 国产精品美女久久久久av爽李琼| 亚洲aⅴ无码成人网站国产app| 青青草原综合久久大伊人精品| 国产十八禁在线观看免费| 色妞色综合久久夜夜| 亚洲人成中文字幕在线观看| 色先锋av影音先锋在线| 国产手机精品一区二区| 天天综合网久久综合免费人成| 国产精品天干天干在线综合| 国产国拍精品av在线观看按摩| 人妻人人妻a乱人伦青椒视频| 亚洲国产高清在线一区二区三区| 欧美日韩综合在线精品| 99re8精品视频热线观看| 亚洲精品亚洲人成在线下载| 免费无码一区二区三区a片百度| 国产又色又爽又黄刺激的视频| 日韩精品毛片无码一区到三区| 久久不见久久见免费影院www日本| 日韩一区国产二区欧美三区| 久久人人妻人人做人人爽|