大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

時(shí)空壓縮!劍橋大學(xué)注意力機(jī)制MTLA:推理加速5倍,顯存減至1/8

0
分享至



在大語(yǔ)言模型蓬勃發(fā)展的背景下,Transformer 架構(gòu)依然是不可替代的核心組件。盡管其自注意力機(jī)制存在計(jì)算復(fù)雜度為二次方的問(wèn)題,成為眾多研究試圖突破的重點(diǎn),但 Transformer 在推理時(shí)靈活建模長(zhǎng)距離上下文的能力,使得許多線性復(fù)雜度的替代方案(如 RNN、Linear Attention、SSM 等)難以真正取代它的地位。

尤其是在大語(yǔ)言模型廣泛采用 decoder-only 架構(gòu)之后,自注意力機(jī)制的重要性進(jìn)一步凸顯。然而,這種機(jī)制也帶來(lái)新的挑戰(zhàn):推理過(guò)程中每一步都需要訪問(wèn) Key-Value(KV)緩存,該緩存的大小隨著生成序列長(zhǎng)度線性增長(zhǎng),逐漸成為影響推理效率的關(guān)鍵瓶頸。隨著模型參數(shù)維度不斷擴(kuò)大,KV 緩存所需的顯存和帶寬開(kāi)銷顯著上升,限制了模型的推理長(zhǎng)度與可支持的 batch size。

值得一提的是,近期由 DeepSeek 團(tuán)隊(duì)提出的 MLA 機(jī)制,通過(guò)在隱空間維度對(duì) KV 緩存進(jìn)行壓縮,顯著提升了推理效率,推動(dòng)了大模型在低資源場(chǎng)景下的高效部署。但隨著生成序列的持續(xù)增長(zhǎng),時(shí)間維度的冗余信息也逐漸暴露,壓縮其所帶來(lái)的潛力亟待挖掘。然而,如何在保持性能的前提下壓縮時(shí)間維度,一直受到增量式推理復(fù)雜性的限制。

為此,劍橋大學(xué)機(jī)器智能實(shí)驗(yàn)室最新提出了 Multi-head Temporal Latent Attention(MTLA),首次將時(shí)序壓縮與隱空間壓縮相結(jié)合,在 KV 緩存的兩個(gè)維度上同時(shí)施加時(shí)空壓縮策略。MTLA 利用超網(wǎng)絡(luò)動(dòng)態(tài)融合相鄰時(shí)間步的信息,并設(shè)計(jì)了步幅感知的因果掩碼以確保訓(xùn)練與推理的一致性,在顯著降低推理顯存與計(jì)算成本的同時(shí),保持甚至略優(yōu)于傳統(tǒng)注意力機(jī)制的模型性能,為大語(yǔ)言模型推理效率的提升提供了新的解決思路。



  • 論文標(biāo)題:Multi-head Temporal Latent Attention
  • 論文地址:https://arxiv.org/pdf/2505.13544
  • 項(xiàng)目地址:https://github.com/D-Keqi/mtla

現(xiàn)有方法的局限與 MTLA 的突破

在構(gòu)建大語(yǔ)言模型時(shí),KV 緩存帶來(lái)的顯存與計(jì)算開(kāi)銷問(wèn)題早已受到廣泛關(guān)注。當(dāng)前主流的大模型通常采用基于自注意力的 Grouped-Query Attention(GQA)機(jī)制,對(duì)標(biāo)準(zhǔn) Transformer 中的 Multi-Head Attention(MHA)進(jìn)行改進(jìn)。GQA 通過(guò)減少 Key/Value 頭的數(shù)量來(lái)減小 KV 緩存的規(guī)模,具體做法是將多個(gè) Query 頭分組,每組共享同一個(gè) KV 頭。

當(dāng) GQA 的組數(shù)等于 Query 頭數(shù)量時(shí),其等價(jià)于標(biāo)準(zhǔn) MHA;而當(dāng)組數(shù)為 1 時(shí),即所有 Query 頭共享同一組 KV,這種極端形式被稱為 Multi-Query Attention(MQA)。雖然 MQA 極大地減少了顯存占用,但顯著影響模型性能;相比之下,GQA 在效率與效果之間取得了更好的平衡,因此成為當(dāng)前大語(yǔ)言模型中最常見(jiàn)的注意力變體。

與此不同,DeepSeek 團(tuán)隊(duì)提出的 Multi-head Latent Attention(MLA)采用了另一種思路:不減少頭的數(shù)量,而是在隱空間中壓縮 KV 的特征維度。實(shí)驗(yàn)結(jié)果表明,MLA 相較于 GQA 表現(xiàn)出更優(yōu)的性能與效率。然而,這種壓縮方式仍存在上限,為了維持模型性能,隱空間維度的壓縮幅度不能過(guò)大,因此 KV 緩存的存儲(chǔ)開(kāi)銷依然是限制模型推理效率的一大瓶頸。



除了在隱空間對(duì) KV 緩存進(jìn)行壓縮之外,時(shí)間維度也是一個(gè)極具潛力但尚未充分挖掘的方向。隨著生成序列變得越來(lái)越長(zhǎng),KV 緩存中在時(shí)間軸上的信息冗余也日益明顯。然而,由于自注意力機(jī)制在生成時(shí)通常采用自回歸的增量推理模式,KV 緩存與每一個(gè)生成的 token 是一一對(duì)應(yīng)的,這使得在保持模型性能的前提下壓縮時(shí)間維度成為一項(xiàng)挑戰(zhàn),也導(dǎo)致了該方向長(zhǎng)期缺乏有效解決方案。

MTLA 的提出正是對(duì)這一空白的回應(yīng)。它通過(guò)引入時(shí)間壓縮機(jī)制和步幅感知的因果掩碼,巧妙解決了訓(xùn)練與推理行為不一致的問(wèn)題,在保持高效并行訓(xùn)練能力的同時(shí),實(shí)現(xiàn)了推理過(guò)程中的 KV 時(shí)間壓縮。進(jìn)一步地,MTLA 還結(jié)合了 MLA 的隱空間壓縮策略,從空間與時(shí)間兩個(gè)維度同時(shí)優(yōu)化 KV 緩存的表示,將自注意力機(jī)制的效率推向了新的高度。

MTLA 的核心技術(shù)與訓(xùn)練策略

在增量推理階段,MTLA 會(huì)對(duì)經(jīng)過(guò)隱空間壓縮后的 KV 緩存進(jìn)行時(shí)間維度的增量式合并,進(jìn)一步壓縮存儲(chǔ)空間。上圖展示了該過(guò)程的示意,并與標(biāo)準(zhǔn)的 MHA 進(jìn)行了對(duì)比。

以時(shí)間壓縮率 s=2 為例,每?jī)蓚€(gè)相鄰的 KV 緩存將合并為一個(gè)。在生成第一個(gè)字符時(shí),KV 緩存長(zhǎng)度為 1;生成第二個(gè)字符后,新生成的 KV 與前一個(gè)被合并,KV 緩存長(zhǎng)度仍然保持為 1。這種動(dòng)態(tài)合并機(jī)制有效壓縮了時(shí)間維度上的冗余信息。

然而,這也帶來(lái)了并行訓(xùn)練上的挑戰(zhàn):雖然兩個(gè)時(shí)間步的 KV 緩存長(zhǎng)度相同,但它們所包含的信息不同,若不加以區(qū)分,容易導(dǎo)致訓(xùn)練與推理行為不一致。

MTLA 通過(guò)一種優(yōu)雅的方式解決了這一問(wèn)題。正如下圖所示,在訓(xùn)練階段,MTLA 保留了所有中間狀態(tài)的 KV 表達(dá),并引入了步幅感知因果掩碼(stride-aware causal mask),確保每個(gè) query 在訓(xùn)練時(shí)訪問(wèn)到與推理階段一致的 KV 區(qū)域,從而準(zhǔn)確模擬增量推理中的注意力行為。

得益于這一設(shè)計(jì),MTLA 能夠像標(biāo)準(zhǔn)注意力機(jī)制一樣通過(guò)矩陣乘法實(shí)現(xiàn)高效并行計(jì)算,在保持訓(xùn)練效率的同時(shí)完成對(duì)時(shí)間維度的壓縮。



此外,MTLA 還引入了解耦的旋轉(zhuǎn)位置編碼(decoupled RoPE)來(lái)建模位置信息,并對(duì)其進(jìn)行了時(shí)間維度上的壓縮,進(jìn)一步提升了整體效率。

值得強(qiáng)調(diào)的是,MTLA 不僅是一種更高效的自注意力機(jī)制,它還具備極強(qiáng)的靈活性與可調(diào)性。例如,當(dāng)將時(shí)間壓縮率 s 設(shè)置得足夠大時(shí),MTLA 在推理過(guò)程中幾乎只保留一個(gè) KV 緩存,這種形式本質(zhì)上就退化為一種線性序列建模方法。換句話說(shuō),線性序列建模可以被視為 MTLA 的極端情況,MTLA 在注意力機(jī)制與線性模型之間架起了一座橋梁。

然而,在許多復(fù)雜任務(wù)中,傳統(tǒng)注意力機(jī)制所具備的二次計(jì)算復(fù)雜度雖然代價(jià)高昂,卻提供了更強(qiáng)的建模能力。因此,MTLA 所引入的 “可調(diào)時(shí)間壓縮率 s” 這一設(shè)計(jì)思路,恰恰為模型提供了一個(gè)在效率與性能之間靈活權(quán)衡的可能空間。

MTLA 的卓越性能

MTLA 在一系列任務(wù)中展現(xiàn)了出色的性能,包括語(yǔ)音翻譯,文本摘要生成,語(yǔ)音識(shí)別和口語(yǔ)理解。例如在語(yǔ)音翻譯中,MTLA 在保持與標(biāo)準(zhǔn) MHA 相當(dāng)?shù)姆g質(zhì)量的同時(shí),實(shí)現(xiàn)了超過(guò) 5 倍的推理速度提升,并將推理過(guò)程中的 GPU 顯存占用降低了超過(guò) 8 倍。

值得注意的是,僅當(dāng)時(shí)間壓縮率 s=2 時(shí),MTLA 對(duì) KV 緩存的壓縮程度就已經(jīng)與 MQA 相當(dāng),且在模型性能上更具優(yōu)勢(shì)。而相比之下,MQA 所采用的減少 KV 頭數(shù)量的方法已達(dá)上限,而 MTLA 還有進(jìn)一步的空間。



未來(lái)發(fā)展

MTLA 具備在大規(guī)模場(chǎng)景中部署的顯著潛力,尤其是在大語(yǔ)言模型參數(shù)規(guī)模不斷擴(kuò)大、以及思維鏈等技術(shù)推動(dòng)下生成序列日益增長(zhǎng)的背景下,對(duì) KV 緩存進(jìn)行時(shí)空壓縮正是緩解推理開(kāi)銷的關(guān)鍵手段。在這樣的趨勢(shì)下,MTLA 有望成為未來(lái)大語(yǔ)言模型中自注意力模塊的重要替代方案。

當(dāng)然,與 DeepSeek 提出的 MLA 類似,MTLA 相較于 GQA 和 MQA,在工程落地方面的改動(dòng)不再是簡(jiǎn)單的一兩行代碼可以實(shí)現(xiàn)的優(yōu)化。這也意味著要將其大規(guī)模應(yīng)用到現(xiàn)有 LLM 框架中,還需要來(lái)自社區(qū)的持續(xù)推動(dòng)與協(xié)同開(kāi)發(fā)。

為促進(jìn)這一過(guò)程,MTLA 的實(shí)現(xiàn)代碼已全面開(kāi)源,希望能夠?yàn)檠芯空吲c工程實(shí)踐者提供便利,共同推動(dòng)高效注意力機(jī)制在大模型時(shí)代的落地與普及。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
《醬園弄》路演票價(jià)大跌!楊冪趙麗穎宣傳不積極,靠章子怡扛票房

《醬園弄》路演票價(jià)大跌!楊冪趙麗穎宣傳不積極,靠章子怡扛票房

萌神木木
2025-06-14 16:12:42
資本力量太可怕!半個(gè)娛樂(lè)圈都在吹捧的labubu,被郭麒麟戳破真相

資本力量太可怕!半個(gè)娛樂(lè)圈都在吹捧的labubu,被郭麒麟戳破真相

趣文說(shuō)娛
2025-06-12 13:46:39
上海這一夜:王子文臀比無(wú)敵了,靳東大佬氣場(chǎng),劉詩(shī)詩(shī)太驚艷

上海這一夜:王子文臀比無(wú)敵了,靳東大佬氣場(chǎng),劉詩(shī)詩(shī)太驚艷

八卦南風(fēng)
2025-06-13 11:05:58
巴菲特認(rèn)為,未來(lái)20年或50年后,日美將更強(qiáng)大,對(duì)中國(guó)卻保持謹(jǐn)慎

巴菲特認(rèn)為,未來(lái)20年或50年后,日美將更強(qiáng)大,對(duì)中國(guó)卻保持謹(jǐn)慎

文辰國(guó)學(xué)
2025-06-09 10:37:56
豐田又來(lái)“搞雙胞胎”?這次玩得有點(diǎn)狠,大漢蘭達(dá)都要慌了

豐田又來(lái)“搞雙胞胎”?這次玩得有點(diǎn)狠,大漢蘭達(dá)都要慌了

橙心說(shuō)車(chē)
2025-06-12 08:24:17
連續(xù)交易、大額封漲停、虛假報(bào)撤!知名“牛散”操縱多只股票股價(jià)被罰沒(méi)近7700萬(wàn)元

連續(xù)交易、大額封漲停、虛假報(bào)撤!知名“牛散”操縱多只股票股價(jià)被罰沒(méi)近7700萬(wàn)元

每日經(jīng)濟(jì)新聞
2025-06-14 10:47:09
天呢!網(wǎng)傳最大的鐵飯碗要破裂,直接影響200萬(wàn)人生計(jì)…

天呢!網(wǎng)傳最大的鐵飯碗要破裂,直接影響200萬(wàn)人生計(jì)…

慧翔百科
2025-05-21 14:02:24
伊朗發(fā)射導(dǎo)彈“表演式”報(bào)復(fù)以色列,還有多少底牌?

伊朗發(fā)射導(dǎo)彈“表演式”報(bào)復(fù)以色列,還有多少底牌?

山河路口
2025-06-14 11:57:27
馬英九還沒(méi)啟程,民進(jìn)黨大佬先到大陸,這一次,賴清德根本攔不住

馬英九還沒(méi)啟程,民進(jìn)黨大佬先到大陸,這一次,賴清德根本攔不住

牛鍋巴小釩
2025-06-14 10:28:42
羅帥宇這小伙子,還是太相信法律了

羅帥宇這小伙子,還是太相信法律了

熊太行
2025-06-13 15:46:03
6月15日:這幾個(gè)生肖今日運(yùn)勢(shì)爆棚,喜事連連,福運(yùn)亨通!

6月15日:這幾個(gè)生肖今日運(yùn)勢(shì)爆棚,喜事連連,福運(yùn)亨通!

素然追光
2025-06-15 00:20:42
購(gòu)買(mǎi)700架第五代隱形戰(zhàn)斗機(jī) 儲(chǔ)備數(shù)百萬(wàn)枚大口徑炮彈:全面?zhèn)鋺?zhàn)!

購(gòu)買(mǎi)700架第五代隱形戰(zhàn)斗機(jī) 儲(chǔ)備數(shù)百萬(wàn)枚大口徑炮彈:全面?zhèn)鋺?zhàn)!

聚峰軍評(píng)
2025-06-10 10:17:44
湖南聯(lián)合調(diào)查組發(fā)布關(guān)于“羅某宇墜樓事件”的情況通報(bào):認(rèn)定其系跳樓自殺死亡,排除刑事案件

湖南聯(lián)合調(diào)查組發(fā)布關(guān)于“羅某宇墜樓事件”的情況通報(bào):認(rèn)定其系跳樓自殺死亡,排除刑事案件

每日經(jīng)濟(jì)新聞
2025-06-13 22:56:39
特朗普突然打出一張“王牌”,下令拒絕對(duì)華出口?比關(guān)稅更危險(xiǎn)!

特朗普突然打出一張“王牌”,下令拒絕對(duì)華出口?比關(guān)稅更危險(xiǎn)!

阿筀田間生活
2025-06-14 03:44:10
巴基斯坦戰(zhàn)勝印度的后遺癥:美國(guó)給400億,俄國(guó)給鋼廠,中國(guó)給殲35

巴基斯坦戰(zhàn)勝印度的后遺癥:美國(guó)給400億,俄國(guó)給鋼廠,中國(guó)給殲35

泠泠說(shuō)史
2025-06-10 10:42:24
DeepSeek:未來(lái)10年,中國(guó)壓力最大的8個(gè)職業(yè),中小學(xué)教師非首位

DeepSeek:未來(lái)10年,中國(guó)壓力最大的8個(gè)職業(yè),中小學(xué)教師非首位

市井覓食記
2025-02-26 00:20:55
絕對(duì)不買(mǎi)新能源車(chē)的那批人,到底在堅(jiān)守什么?

絕對(duì)不買(mǎi)新能源車(chē)的那批人,到底在堅(jiān)守什么?

少數(shù)派報(bào)告Report
2025-06-13 22:44:55
吉雪萍拍全家福,富豪老公罕見(jiàn)露面,三個(gè)兒子都隨媽,長(zhǎng)相帥氣

吉雪萍拍全家福,富豪老公罕見(jiàn)露面,三個(gè)兒子都隨媽,長(zhǎng)相帥氣

180視角
2025-06-14 06:38:54
范冰冰,裙開(kāi)叉開(kāi)到大腿根,領(lǐng)口深v,饅頭真白還大

范冰冰,裙開(kāi)叉開(kāi)到大腿根,領(lǐng)口深v,饅頭真白還大

說(shuō)真話的小陳
2025-06-13 09:52:49
低估了“蒸荔枝”排寒的威力,吃了幾次,舒服多了!

低估了“蒸荔枝”排寒的威力,吃了幾次,舒服多了!

房產(chǎn)衫哥
2025-06-12 05:35:18
2025-06-15 02:04:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10640文章數(shù) 142338關(guān)注度
往期回顧 全部

科技要聞

一輛新車(chē)比特斯拉FSD都便宜,全行業(yè)陪葬?

頭條要聞

以防長(zhǎng)威脅哈梅內(nèi)伊:若繼續(xù)發(fā)射導(dǎo)彈 德黑蘭將成火海

頭條要聞

以防長(zhǎng)威脅哈梅內(nèi)伊:若繼續(xù)發(fā)射導(dǎo)彈 德黑蘭將成火海

體育要聞

約戰(zhàn)天王山,步行者G4輸在了哪?

娛樂(lè)要聞

小S迎47歲生日,首個(gè)生日沒(méi)大S陪伴

財(cái)經(jīng)要聞

樓市權(quán)威發(fā)聲

汽車(chē)要聞

長(zhǎng)城為了拿環(huán)塔冠軍有多拼?魏建軍在下一盤(pán)大棋!

態(tài)度原創(chuàng)

手機(jī)
家居
旅游
公開(kāi)課
軍事航空

手機(jī)要聞

蘋(píng)果新系統(tǒng)引領(lǐng)新潮流?OPPO:不跟進(jìn)

家居要聞

森林幾何 極簡(jiǎn)灰調(diào)原木風(fēng)

旅游要聞

熱聞|清明假期將至,熱門(mén)目的地有哪些?

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊媒:以色列國(guó)防部大樓被伊朗導(dǎo)彈擊中

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 午夜无码片在线观看影院y| 人妻护士在线波多野结衣| 久久人人97超碰caoporen| 好大好深好猛好爽视频免费| 自拍偷自拍亚洲精品偷一| 男女野外做爰全过程69影院| 午夜福利电影无码专区| 大肉大捧一进一出视频| 国内精品九九久久精品| 综合 欧美 亚洲日本| 国产在线视频福利资源站| 熟妇人妻无码中文字幕| 亚洲人成网站在线播放大全| 免费无码又爽又刺激动态图| 国产又黄又大又粗视频| 国产精品国产三级国产av麻豆| 综合网日日天干夜夜久久| 青草av久久一区二区三区| 国产精品一国产av麻豆| 在线精品自偷自拍无码| 中文字幕乱码免费视频| 国产av无码专区亚洲aⅴ| 国产日产欧产精品精品蜜芽| 97se亚洲国产综合自在线不卡| 秋霞鲁丝片av无码少妇| 久久免费精品视频| 又色又污又爽又黄的网站| 无码三级在线看中文字幕完整版| 强奷漂亮少妇高潮在线观看| 色五月丁香五月综合五月4438| 欧美最猛黑人xxxxx猛交| 香蕉久久国产AV一区二区| 少妇久久久久久被弄高潮| 国产福利一区二区精品秒拍| 99精品热这里只有精品| 久久久亚洲欧洲日产国产成人无码| 国产精品久久久久久久久久久久午衣片| 草草影院ccyy国产日本欧美| 欧美人牲交a欧美精区日韩| 国产极品jk白丝喷白浆图片| 亚洲国产成人精品无码区花野真一|