大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

Multi-Token突破注意力機制瓶頸,Meta發明一種很新的Transformer

0
分享至

機器之心報道

編輯:蛋醬、杜偉

Attention 還在卷自己。

當上下文包含大量 Token 時,如何在忽略干擾因素的同時關注到相關部分,是一個至關重要的問題。然而,大量研究表明,標準注意力在這種情況下可能會出現性能不佳的問題。

標準多頭注意力的工作原理是使用點積比較當前查詢向量與上下文 Token 對應的鍵向量的相似性。與查詢相似的關鍵字會獲得更高的注意力權重,隨后其值向量會主導輸出向量。

例如,與「Alice」Token 相對應的查詢向量能夠定位上下文中所有提及「Alice」的內容。然而,每個注意力權重只取決于單個關鍵字和查詢向量(除了歸一化為 1)。

對單個 token 向量相似性的依賴給注意力機制帶來了根本性的限制。在許多情況下,上下文的相關部分無法通過單個 token 來識別。例如,查找一個同時提到「Alice」和「rabbit」的句子需要查詢向量對這兩個 token 進行編碼。用一個注意頭查找「Alice」,再用另一個注意頭查找「rabbit」,可以分別找到這兩個詞,但不足以確定這兩個詞在哪里被同時提及雖然可以通過 Transformer 的層將多個 token 編碼成一個向量,但這需要增加維度,而且模型需要將大量容量用于這項任務。

在本文中,研究者提出了一種超越「單個 token」瓶頸的新型注意力機制 ——Multi-Token 注意力(MTA),其高層次目標是利用多個向量對的相似性來確定注意力必須集中在哪里。

而研究者僅通過對現有注意力機制進行簡單的修改去實現這一目標。他們設計了對注意力權重的卷積運算,該運算在三個維度上運行:鍵、查詢和注意力頭。這就允許其注意力權重以相鄰鍵、之前的查詢和其他頭為條件。

直觀地說,在上述例子中,MTA 可以先分別查找「Alice」和「rabbit」的提及,然后將這些注意力組合在一起,只關注兩者都存在的地方。



  • 論文:Multi-Token Attention
  • 論文鏈接:https://arxiv.org/abs/2504.00927

具體來說,這項研究的亮點在于:

  • 研究者首先用一個有趣的玩具任務進行實驗,該任務揭示了標準注意力的缺陷,并證明 MTA 可以輕松解決這一問題;
  • 接下來,研究者通過在標準語言建模任務中對 1050 億個詞庫的 880M 個參數模型進行預訓練,對本文的方法進行了大規模測試;
  • 研究者發現 MTA 在驗證復雜度和標準基準任務方面都有所改進,而參數數量只增加了 0.001%;
  • 此外,研究者還在長語境任務(如 Needle-in-the-Haystack 和 BabiLong)上評估了所生成的模型,結果發現 MTA 的表現明顯優于基線。

方法概覽

如圖 1(右圖)所示,本文提出的「Multi-Token 注意力」由建立在多頭注意力基礎上的三個重要部分組成:鍵 - 查詢卷積、頭混合卷積和帶深度縮放的組歸一化。

研究者提出了鍵 - 查詢卷積,以在頭部內組合多個鍵和查詢,并提出了頭卷積,在頭之間共享知識并放大重要信息。最后,研究者應用具有深度縮放功能的組歸一化來抵消殘差流,改善梯度流。



鍵 - 查詢卷積(key-query convolution)

對于 pre-softmax 卷積,MTA 在注意力 logit 上進行了一個卷積操作,并結合來自多個查詢和鍵 token 的信息:



鍵和查詢的長度維數中采用了卷積,同時 batch 和頭維數保持獨立。更確切地說,從查詢 q_i 到鍵 k_j 的注意力權重 a_ij 計算如下:



對于鍵,研究者使用指示函數 1_i≥j?j′將未來鍵歸零。但是,這樣的掩碼太復雜,無法實現(必須修改卷積 CUDA 內核),因此本文提出了一個更簡單的版本,將已有的因果掩碼應用了兩次:



對于 post-softmax 卷積,研究者同樣在注意力權重的頂部進行卷積操作:



這使得注意力權重之間的交互累加而不是相乘。研究者試驗了兩個版本,但默認情況下使用 pre-softmax 版本。每個注意力頭都有單獨的 θ 參數,所以它們可以執行不同的卷積操作。選擇的內核維數決定了如何將離得遠的 token 組合在一起。

頭混合卷積(head mixing convolution)

鍵 - 查詢卷積允許從不同的時間步中混合注意力權重,而研究者進一步提出在頭組中使用頭卷積,因此可以將不同頭的注意力權重組合起來。

具體地,對于大小為 c_h 的頭卷積內核,所有頭被分為 M/c_h 個組。在每個組中,研究者使用了不重疊的卷積操作。這樣一來,MTA 不僅允許在每個頭內部的多個查詢和鍵向量上調整注意力權重,還可以跨頭共享注意力信息。

舉例而言,考慮將所有頭分為兩個組,使內核大小為「c_h = 2」。當使用上標來表示頭指數時,則 A^1 和 A^2 是來自兩個不同頭的注意力權重。這時,新的注意力權重如下:



其中 w_11、w_12、w_21 和 w_22 是內核權重。這里 softmax 之后出現混合,但可以在 softmax 之前混合 logit。



將一切組合起來(putting everything together)

在前文中,研究者引入兩種不同的方式來混合注意力權重,一是跨鍵 - 查詢時間步,二是跨不同頭。這兩種方式都可以在單個 MTA 模塊中實現。每種方式都有 pre - 和 post-softmax 版本,因此有多種方法將它們組合在一起。如果都采用 pre-softmax 來混合,則可以通過單個 3 維卷積操作來實現,如下圖 2 所示。



實驗結果

研究者在一系列標準和長距離(long-range)依賴任務上對 MTA 架構進行了實驗,并與基線進行了比較,從「toy」任務開始。他們使用了鍵 - 查詢卷積 pre-softmax 和頭混合 post-softmax,另有說明除外。

簡單的 toy 任務

研究者首先測試了 toy 任務,以驗證本文方法相較于標準多頭注意力的有效性。此任務中為模型提供了一個塊序列,其中每個塊由 N 個隨機字母組成。相比之下,MTA 先是找到了每個問題字母的位置,然后使用卷積操作來增加所有 L 字母一起被發現的位置的注意力。

結果如下表 1 所示,如預期一樣,具有標準多頭注意力的 transformer 解決這項任務時,即使問題中只有「L = 2」字母,通常也無法找到目標塊。相比之下,MTA 以接近零誤差的成功率解決了所有版本的任務。



大型語言建模

對于語言建模實驗,研究者對 880M 參數的模型進行了預訓練,并比較了 Transformer、DIFF Transformer 和 Transformer with MTA。對于每個模型,他們進行了兩次訓練,并在下表 2 中提供了平均驗證困惑度。

結果顯示,經過 MTA 訓練的模型,在所有驗證數據集上均實現了性能提升,即使只在四分之一的層中應用鍵 - 查詢卷積,并且要比 DIFF Transformer 的可學習參數更少。此外,使用層 scaling 的組歸一化是一個重要組件,可以為 DIFF Transformer 和 MTA 架構提供更優越的性能。



接著,研究者在以上相同的六個數據集上對模型進行了另外 10.5B token 的微調,并將上下文長度從 2048 增加到了 4096。同時將 RoPE 的 θ 值增加到了 50 萬,將權重衰減變成 0,并將預熱步驟降為 50,其他參數與預訓練階段保持一致。結果表明,使用 MTA 生成的 Transformer 模型在困惑度評估中同樣優于新的基線。

在 zero-shot 設置下,研究者進一步評估了模型在一系列流行基準上的表現,結果如下表 3 所示。經過 MTA 訓練的模型在大多數基準上優于基線,并取得了更高的平均分,盡管這些并不是長上下文任務。



長距離依賴任務 Long-range dependency tasks

此前的研究表明,Transformer 很難找到相關信息,尤其是在長上下文中。

為了在這種情況下測試 MTA,研究者在三個任務中對訓練有素的模型進行了評估: LAMBADA、NeedleIn-A-Haystack 和 BabiLong。所有這些任務都要求模型幾乎要密切關注埋藏在上下文中的長距離 tokens。

LAMBADA。研究者觀察到使用 MTA 訓練的模型在正確猜測下一個單詞方面更勝一籌(如表 4),明顯優于基線 Transformer 模型。



如表 5 所示,使用 MTA 訓練的模型在所有「針數」和不同上下文長度的撈針能力都有顯著提高。



BabiLong。研究者將重點放在了 QA1-5 任務上,在這些任務中,正確的回答需要不同數量的事實或論據關系。輸入和目標輸出樣本如表 7 所示。



圖 4(左)展示了平均準確率,附圖 5 展示了每個任務的準確率。與其他模型相比,MTA 模型表現良好,尤其是當輸入中有較多干擾文本(4K token)時。





更多實驗結果請查看原論文。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
突發:以色列對伊朗發動打擊

突發:以色列對伊朗發動打擊

澎湃新聞
2025-06-15 00:28:03
拒絕350萬美金,再見約基奇!威少做出決定,NBA生涯之路越走越寬

拒絕350萬美金,再見約基奇!威少做出決定,NBA生涯之路越走越寬

世界體育圈
2025-06-14 10:40:55
朱拉尼讓老婆包上頭巾引導百姓,成功破壞了敘利亞的世俗化!

朱拉尼讓老婆包上頭巾引導百姓,成功破壞了敘利亞的世俗化!

聞識
2025-06-10 12:44:54
48小時封殺令!知名女星高考特權頂包,牽連大佬集體落馬倒計時!

48小時封殺令!知名女星高考特權頂包,牽連大佬集體落馬倒計時!

新語愛八卦
2025-06-13 16:30:57
印度空難有新說法?機長生前留下3字,消息一出,美不許停飛波音

印度空難有新說法?機長生前留下3字,消息一出,美不許停飛波音

嘆知
2025-06-14 21:53:14
勝負已分,特朗普被催交兵權,紐森連下3封戰書,美國新總統要出

勝負已分,特朗普被催交兵權,紐森連下3封戰書,美國新總統要出

娛樂的宅急便
2025-06-14 18:11:58
大反轉!調查組通報,央視披露細節,羅某宇墜樓真相和傳聞不一樣

大反轉!調查組通報,央視披露細節,羅某宇墜樓真相和傳聞不一樣

二月侃事
2025-06-14 13:50:42
小伙心臟不舒服,上出租后打了三通電話!表現“超強自救意識”

小伙心臟不舒服,上出租后打了三通電話!表現“超強自救意識”

揚子晚報
2025-06-14 14:00:56
馬筱梅被總裁摟腰,汪小菲無動于衷,網友說如果是大S沒人敢這樣

馬筱梅被總裁摟腰,汪小菲無動于衷,網友說如果是大S沒人敢這樣

大笑江湖史
2025-06-14 15:56:51
貨車司機遇害 兇手失蹤后被宣布“死亡” 廣西崇左市已第一時間全面啟動核查復查

貨車司機遇害 兇手失蹤后被宣布“死亡” 廣西崇左市已第一時間全面啟動核查復查

閃電新聞
2025-06-15 00:11:23
上海小伙連殺6名警察!判死刑前說:你不給我說法,我就給你說法

上海小伙連殺6名警察!判死刑前說:你不給我說法,我就給你說法

談史論天地
2025-06-13 05:10:06
巴鐵空軍馳援伊朗,殲-10C掛霹靂-15迎戰F-35?

巴鐵空軍馳援伊朗,殲-10C掛霹靂-15迎戰F-35?

頭條爆料007
2025-06-14 15:21:04
74歲劉鑾雄坐輪椅買車,相中一臺1000w紅旗,5人貼身照顧排面大

74歲劉鑾雄坐輪椅買車,相中一臺1000w紅旗,5人貼身照顧排面大

葉公子
2025-06-14 16:27:52
那爾那茜父母參加的飯局!

那爾那茜父母參加的飯局!

八卦瘋叔
2025-06-15 08:50:19
“財政吃緊”的真相,終于有人講明白了!原來錢是這樣花掉的

“財政吃緊”的真相,終于有人講明白了!原來錢是這樣花掉的

搬磚營Z
2025-06-12 23:49:39
高圓圓雖然很漂亮,但到這個年齡還是少穿這種露肉的衣服好。

高圓圓雖然很漂亮,但到這個年齡還是少穿這種露肉的衣服好。

TVB的四小花
2025-06-12 10:14:51
尤文欲簽安東尼,或用鐵腰與曼聯交換!范德薩建議阿莫林留下圓神

尤文欲簽安東尼,或用鐵腰與曼聯交換!范德薩建議阿莫林留下圓神

羅米的曼聯博客
2025-06-15 09:23:11
小米高管王騰參觀華為Pura80,體驗完后露出了輕松的笑容

小米高管王騰參觀華為Pura80,體驗完后露出了輕松的笑容

映射生活的身影
2025-06-14 21:50:39
以色列箭3太空打爆伊朗導彈,卻被這一幕破防:以軍不敗神話破滅

以色列箭3太空打爆伊朗導彈,卻被這一幕破防:以軍不敗神話破滅

科羅廖夫
2025-06-14 19:00:19
《紐約時報》:特朗普對中國玩過頭了,中國證明其處在強大的地位

《紐約時報》:特朗普對中國玩過頭了,中國證明其處在強大的地位

小鬼頭體育
2025-06-14 16:29:19
2025-06-15 11:00:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10640文章數 142338關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

印度空難幸存者:機身撞出巨大裂口 爬出去后發生爆炸

頭條要聞

印度空難幸存者:機身撞出巨大裂口 爬出去后發生爆炸

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

鳳凰傳奇曾毅塌房?網友:別連累玲花

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

時尚
房產
教育
藝術
軍事航空

夏天最值得入手的6件單品,全在這了

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

教育要聞

一張圖掌握五年級下的數學知識

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

軍事要聞

伊媒:以色列國防部大樓被伊朗導彈擊中

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 曰韩无码二三区中文字幕| 极品少妇被猛得白浆直流草莓视频| 性做久久久久久久免费看| 波多野结衣网站| 国产专区一线二线三线码| 中文成人无码精品久久久不卡| 中文字幕日韩精品亚洲一区| 欧美视频二区欧美影视| 日本特黄特色aaa大片免费| 天天爽夜夜爽人人爽曰| 97在线无码免费人妻短视频| 欧美 变态 另类 人妖| 国产精品久久久久9999高清| 免费极品av一视觉盛宴| 男人扒开女人双腿猛进女人| 伊人久久久大香线蕉综合直播| 小12国产萝裸体视频福利| 一本无码中文字幕在线观| 亚洲aⅴ天堂av天堂无码麻豆| 人妻少妇偷人精品视频| 久久99久久99精品免视看| 日韩国产成人无码av毛片蜜柚| 精品久久香蕉国产线看观看亚洲| 欧美综合区自拍亚洲综合绿色| 人人人妻人人人妻人人人| 18禁成人???猛撞视频在线看| 在线亚洲+欧美+日本专区| 亚洲欧洲日产国码无码久久99| 精品99日产一卡2卡三卡4| 精品国产在天天线2019| 久久精品这里热有精品| 亚洲人成电影网站色www两男一女| 日韩一区二区三区无码影院| 欧美精品18videosex性欧美| 女人被强╳到高潮喷水在线观看| 亚洲 制服 丝袜 无码 在线| 99re热这里只有精品最新| 亚洲精品久久一区二区三区777| 久久久精品国产免大香伊| 中文字幕精品一区二区2021年| 老色鬼久久亚洲av综合|