大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

差分注意力機制引領變革,DIFF Transformer攻克長序列建模難題

0
分享至




近年來,Transformer 架構在自然語言處理領域取得了巨大成功,從機器翻譯到文本生成,其強大的建模能力為語言理解與生成帶來了前所未有的突破。

然而,隨著模型規模的不斷擴大和應用場景的日益復雜,傳統 Transformer 架構逐漸暴露出缺陷,尤其是在處理長文本、關鍵信息檢索以及對抗幻覺等任務時,Transformer 常常因過度關注無關上下文而陷入困境,導致模型表現受限。

為攻克這一難題,來自微軟和清華的研究團隊提出了DIFF Transformer,一種基于差分注意力機制的創新基礎模型架構。



  • 論文標題:Differential Transformer
  • 論文鏈接:https://openreview.net/pdf?id=OvoCm1gGhN
  • 代碼鏈接:https://aka.ms/Diff-Transformer

其核心思想是通過計算兩組 Softmax 注意力圖的差值來放大對關鍵上下文的關注,同時消除注意力噪聲干擾。DIFF Transformer 具備以下顯著優勢:

在語言建模任務中,DIFF Transformer 在模型大小、訓練 token 數量等方面展現出了卓越的可擴展性,僅需約 65% 的模型規模或訓練 token 數量即可達到與傳統 Transformer 相當的性能,大幅提升了語言模型通用表現。

在長文本建模、關鍵信息檢索、數學推理、對抗幻覺、上下文學習、模型激活值量化等一系列任務中,DIFF Transformer 展現了獨特優勢,相比傳統 Transformer 有顯著提升。

DIFF Transformer 的特性使其在自然語言處理領域具有廣闊的應用前景,有望成為推動語言模型發展的新動力。此外,已有跟進研究初步驗證方法在視覺、多模態等領域中的有效性,顯示出其跨模態通用的潛力。該研究已被 ICLR 2025 接收,并獲選為 Oral 論文(入選比例 1.8%)。

方法

本文提出了一種名為 Differential Transformer(DIFF Transformer) 的基礎模型架構,旨在解決傳統 Transformer 在長文本建模中對無關上下文過度分配注意力的問題。該方法通過差分注意力機制(Differential Attention)放大對關鍵上下文的關注,同時消除注意力噪聲,從而顯著提升模型在多種任務中的性能。

差分注意力機制

傳統 Transformer 的注意力機制通過 Softmax 函數對輸入序列中的不同 token 進行加權,但 Softmax 的性質導致模型難以完全消除無關上下文的影響。為了克服這一問題,DIFF Transformer 引入了差分注意力機制。

具體而言,該機制將查詢向量(Query)和鍵向量(Key)在注意力頭(Head)維度分為兩組,分別計算兩組的 Softmax 注意力圖,然后計算兩者的差值作為最終的注意力分數。這一設計類似于電子工程中的差分放大器,以及降噪耳機,通過兩組信號相減以消除共有噪聲。

差分注意力的數學表達如下:







圖 2. Transformer 與 DIFF Transformer 注意力分數分布可視化

圖 2 展示了 DIFF Transformer 和傳統 Transformer 在注意力分數分配上的顯著差異。作者將一段關鍵信息插入大段不相關文本的中間位置,并對模型抽取關鍵信息時的注意力分數分配進行可視化。

傳統 Transformer 的注意力分數被廣泛分配到整個上下文中,只有極少分數分配至關鍵信息;而 DIFF Transformer 能夠將更高的分數集中在目標答案上,并且幾乎不向無關上下文分配注意力。

注意力分數分配的稀疏性與精準性也使得 DIFF Transformer 在處理長文本關鍵信息檢索任務時顯著優于 Transformer。

實驗

作者通過一系列實驗驗證了 DIFF Transformer 在多個方面的卓越性能,證明了其在大語言模型中應用的獨特潛力與優勢。

語言建模

作者研究了 DIFF Transformer 在擴展模型規模和訓練數據量時的性能,如圖 3 所示。實驗表明,DIFF Transformer 僅需約 65% 的參數規模或訓練數據量即可達到與 Transformer 相當的語言建模性能。例如,6.8B 參數規模的 DIFF Transformer 在語言建模損失上與 11B 參數規模的 Transformer 相當。



圖 3. 語言建模上的模型參數、訓練數據量可擴展性實驗

長文本建模

作者將模型擴展到 64K 上下文長度,并在長文本書籍數據上進行了評估。結果顯示,考慮累積平均負對數似然(NLL)指標, DIFF Transformer 在不同序列位置上均優于 Transformer,能夠更有效地利用長上下文信息。



圖 4. 長文本書籍數據模型性能評估

關鍵信息檢索

作者通過「多針檢索」(Multi-Needle Retrieval)實驗評估了模型從大量上下文中提取關鍵信息的能力,如圖 5 所示。實驗表明,DIFF Transformer 在不同上下文長度和答案深度下均表現出更高的準確率,尤其是在文本較長以及答案位于文本更靠前位置時,優勢更為明顯。例如,在 64K 上下文中,DIFF Transformer 在答案位于 25% 深度時的準確率比 Transformer 高出 76%。此外,統計信息顯示,DIFF Transformer 在注意力分數分配上也表現出更高的聚焦能力,能夠準確定位關鍵信息,并展現了更高的信噪比。



圖 5. 多針檢索評估

上下文學習

作者從兩個角度評估了 DIFF Transformer 的上下文學習能力:多樣本上下文學習和樣本順序魯棒性測試。 如圖 6 所示,在多樣本上下文學習任務中,作者使用了 4 個不同的數據集(TREC、TREC-fine、Banking-77 和 Clinic-150),并逐步增加示例數量,直到總長度達到 64K tokens。結果顯示,DIFF Transformer 在不同數據集上均優于 Transformer,平均準確率提升顯著。



圖 6. 多樣本上下文學習

在魯棒性測試中,作者通過打亂示例順序的方式評估了模型的性能穩定性。如圖 7 所示,DIFF Transformer 在不同示例排列下的性能方差顯著低于 Transformer,表明其對輸入順序的敏感性更低,具有更強的魯棒性。



圖 7. 樣本順序魯棒性測試

幻覺評測

作者利用文本摘要和問答任務作為兩個典型的幻覺評測場景,評估了 DIFF Transformer 在降低大模型幻覺(hallucination)方面的表現。結果如圖 8 所示,DIFF Transformer 在生成摘要和回答問題時顯著提升了準確率,減少了幻覺現象。這是因為差分注意力機制能夠準確定位重要文段,避免無關上下文對模型預測的干擾。



圖 8. 利用文本摘要、問答任務進行幻覺評測

異常激活值分析

作者還發現 DIFF Transformer 能夠顯著減少模型激活中的異常值,這為模型激活值的量化提供了新的可能性。實驗表明,DIFF Transformer 在注意力激活值(attention logits)和隱藏狀態(hidden states)中的最大激活值顯著低于 Transformer。例如,在注意力激活值的 Top-1 激活值上,DIFF Transformer 比 Transformer 低了近 8 倍。利用這一性質,DIFF Transformer 在注意力激活值的低比特量化下的性能也優于 Transformer,如圖 9 所示。



圖 9. 注意力激活值的低比特量化

數學推理能力

作者在數學推理任務上進一步驗證了 DIFF Transformer 的性能。作者采用兩階段訓練,在 3B 預訓練模型的基礎上進行有監督微調,并在 MATH 等 8 個數學數據集上評測模型性能。在第一階段,采用 20B token 合成數學數據對模型進行微調,使模型獲得基礎數學能力,評測結果如圖 10 所示。從 15B token 開始,DIFF Transformer 展現出了顯著優于 Transformer 的數學能力,至 20B token 結束的時候,準確率的差距達到了 11% 左右。



圖 10. 第一階段數學合成數據微調

在第二階段,作者利用 Deepseek-R1 輸出所構造的數據集 OpenThoughts-114K-Math 對模型進行蒸餾,使模型更強大的深度推理能力。如圖 11 所示,在 8 個數據集上,DIFF Transformer 相較 Transformer 均有不同程度的提升,平均準確率提升了 7.5%,這表明差分注意力機制更強大的上下文建模能力在推理任務中也至關重要。



圖 11. 第二階段深度推理能力評測

討論與未來工作

DIFF Transformer 自發布以來獲得了較大關注與討論。作者在Hugging Face論文討論平臺、alphaXiv平臺上與社區開展了深入的探討。在 X 平臺(原 Twitter)上,Google DeepMind 高級研究科學家(Senior Staff Research Scientist)Petar Veli?kovi?與作者就文章中的理論分析展開討論,ViT 核心作者Lucas Beyer也在閱讀文章后撰寫了一篇深入的論文總結,相關發帖已獲得數十萬瀏覽。目前 DIFF Transformer 也已集成至 Hugging Face 的transformers 庫中。

  • Hugging Face:https://huggingface.co/papers/2410.05258
  • alphaXiv:https://www.alphaxiv.org/abs/2410.05258v1
  • Petar Veli?kovi?:https://x.com/PetarV_93/status/1874820028975267866
  • Lucas Beyer:https://x.com/giffmana/status/1873869654252544079
  • transformers庫:https://github.com/huggingface/transformers/tree/main/src/transformers/models/diffllama

未來工作方面,作者認為可以利用 DIFF Transformer 的性質設計低比特注意力算子,以及利用差分注意力的稀疏特性進行鍵值緩存(key-value cache)的剪枝。此外,將 DIFF Transformer 應用在除語言以外的其他模態上也值得探索。近期工作DiffCLIP將差分注意力擴展至視覺、多模態領域,揭示了 DIFF Transformer 在不同模態任務中的更多結構特性與應用潛力。

  • DiffCLIP:https://arxiv.org/abs/2503.06626

總結

本文的貢獻主要在兩個方面:

(1)DIFF Transformer 通過創新的差分注意力機制,有效解決了傳統 Transformer 在處理文本時受到噪聲干擾、注意力分配不準確的問題;

(2)憑借對關鍵信息的關注和對噪聲的抵御能力,DIFF Transformer 在語言建模、長文本建模、關鍵信息檢索、數學推理、對抗幻覺、上下文學習、模型激活值量化等任務中表現出色,有望在自然語言處理、多模態等領域作為基礎模型架構。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
7場進球荒,克雷桑隨心所欲踢,解約老崔別想了 泰山轉折點在杯賽

7場進球荒,克雷桑隨心所欲踢,解約老崔別想了 泰山轉折點在杯賽

替補席看球
2025-06-15 09:17:38
奔馳車集體“擺爛”,車主崩潰!

奔馳車集體“擺爛”,車主崩潰!

車轱轆話V
2025-06-13 19:15:48
任正非承認落后,外媒也指出華為芯片比美國落后,但結果破防了

任正非承認落后,外媒也指出華為芯片比美國落后,但結果破防了

互聯魚
2025-06-13 15:22:45
特朗普提交其任內首份公開財務披露報告:持股加密貨幣平臺獲超5700萬美元收益,234頁報告有145頁為股票債券投資記錄!

特朗普提交其任內首份公開財務披露報告:持股加密貨幣平臺獲超5700萬美元收益,234頁報告有145頁為股票債券投資記錄!

每日經濟新聞
2025-06-14 14:29:23
我方專家警告:若中美開戰,只需一天,全球就會知道美國真實水平

我方專家警告:若中美開戰,只需一天,全球就會知道美國真實水平

夏目歷史君
2025-06-12 20:51:27
郭晶晶霍啟剛逛首飾店,霍啟剛大方付款,郭晶晶穿回力鞋逛街舒服

郭晶晶霍啟剛逛首飾店,霍啟剛大方付款,郭晶晶穿回力鞋逛街舒服

逍遙史記
2025-06-14 17:23:33
浙江2-2上海海港,賽后評分:不是王鈺棟第一,上海海港30號第一

浙江2-2上海海港,賽后評分:不是王鈺棟第一,上海海港30號第一

側身凌空斬
2025-06-14 17:37:52
五里河公園,多車被砸,嫌疑人已被沈陽警方抓捕!

五里河公園,多車被砸,嫌疑人已被沈陽警方抓捕!

魯中晨報
2025-06-14 16:42:09
中方警告全球:不得配合!美媒直言:中國超越的“分水嶺”已到

中方警告全球:不得配合!美媒直言:中國超越的“分水嶺”已到

博覽歷史
2025-06-15 05:30:04
點球門神!38歲烏斯塔里飛身撲點,半場6神撲獲8.4分

點球門神!38歲烏斯塔里飛身撲點,半場6神撲獲8.4分

奧拜爾
2025-06-15 09:00:52
撿漏“雙一流”?廣東考生今年沒那么幸運了!

撿漏“雙一流”?廣東考生今年沒那么幸運了!

金哥說新能源車
2025-06-15 03:05:54
國際原子能機構總干事:絕不能攻擊核設施

國際原子能機構總干事:絕不能攻擊核設施

極目新聞
2025-06-14 07:31:51
館長訪問四行倉庫后震撼感慨2段話,諷刺統派代表,飆罵獨派代表

館長訪問四行倉庫后震撼感慨2段話,諷刺統派代表,飆罵獨派代表

史潎的生活日記
2025-06-15 02:21:37
以色列何去何從,歷史驚人的相似,猶太人在打中國的主意

以色列何去何從,歷史驚人的相似,猶太人在打中國的主意

回京歷史夢
2025-05-23 16:06:37
78歲大媽3分鐘簽完安樂死文件,醫生突然遞來手機:"您該先聽這個"

78歲大媽3分鐘簽完安樂死文件,醫生突然遞來手機:"您該先聽這個"

雨仔講故事
2025-06-13 18:47:33
以色列開始斬首伊朗最高領袖,伊朗稱擊落3架F35

以色列開始斬首伊朗最高領袖,伊朗稱擊落3架F35

史政先鋒
2025-06-14 12:44:59
美制戰機損失最大的一天,德黑蘭大批客機爆炸:伊朗空軍被摧毀了

美制戰機損失最大的一天,德黑蘭大批客機爆炸:伊朗空軍被摧毀了

爆笑大聰明阿衿
2025-06-14 15:17:55
擺地攤、玩電商!第一批深圳00后,已經實現財務自由,他們有多強

擺地攤、玩電商!第一批深圳00后,已經實現財務自由,他們有多強

青眼財經
2025-06-06 12:38:26
梁植誠任廣西壯族自治區紀委監委駐自治區發改委紀檢監察組組長

梁植誠任廣西壯族自治區紀委監委駐自治區發改委紀檢監察組組長

汲古知新
2025-06-15 01:55:04
飛天茅臺價格持續走低,有網友分析若到1900元,多數經銷商要賠錢

飛天茅臺價格持續走低,有網友分析若到1900元,多數經銷商要賠錢

愛看劇的阿峰
2025-06-15 00:51:33
2025-06-15 10:07:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10640文章數 142338關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

印度空難幸存者:機身撞出巨大裂口 爬出去后發生爆炸

頭條要聞

印度空難幸存者:機身撞出巨大裂口 爬出去后發生爆炸

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

鳳凰傳奇曾毅塌房?網友:別連累玲花

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

時尚
數碼
藝術
本地
軍事航空

夏天最值得入手的6件單品,全在這了

數碼要聞

為什么iPad不直接運行macOS系統?蘋果高管這樣說

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

軍事要聞

伊媒:以色列國防部大樓被伊朗導彈擊中

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲日韩精品一区二区三区无码| 国产成人无遮挡免费视频| 亚洲午夜免费福利视频| 韩国日本三级在线观看| 九九精品国产亚洲av日韩| 人妻熟妇乱又伦精品视频无广告| 真实国产老熟女粗口对白| 亚洲国产综合无码一区| 国产人妻大战黑人20p| 亚洲av无码av日韩av网站| 日本道精品一区二区三区| 国产成人精选在线观看不卡| 欧美肥妇毛多水多bbxx水蜜桃| 精品夜夜爽欧美毛片视频| 中文字幕漂亮人妻熟睡中被公侵犯| 国产精品午夜无码av体验区| 国产日韩av免费无码一区二区| 亚洲国产精品久久久久爰色欲| 国产白袜脚足j棉袜在线观看| 国产精品日韩专区第一页| 中文字幕亚洲精品无码| 国产熟妇高潮呻吟喷水| 自拍亚洲一区欧美另类| 欧美日韩精品人妻狠狠躁免费视频| 小13箩利洗澡无码视频免费网站| 国产精品亚洲一区二区三区喷水| 久久天天躁狠狠躁夜夜躁2012| 久久久久国产一区二区| 18禁美女裸体网站无遮挡| 国产成人无码av在线播放不卡| 国内露脸中年夫妇交换| 性色av无码中文av有码vr| 久久亚洲精品中文字幕| 少妇高潮惨叫喷水在线观看| 最新精品国偷自产在线婷婷| 91精品少妇一区二区三区蜜桃臀| 亚洲日韩欧美国产另类综合| 女人被弄到高潮的免费视频| 99久久精品日本一区二区免费| 亚洲日韩∨a无码中文字幕| 蜜臀色欲av在线播放国产日韩|