大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

全球首次,Transformer「混血」速度狂飆65倍!英偉達已下注

0
分享至


新智元報道

編輯:KingHZ

【新智元導讀】擴散建模+自回歸,打通文本生成任督二脈!這一次,來自康奈爾、CMU等機構的研究者,提出了前所未有的「混合體」——Eso-LM。有人驚呼:「自回歸危險了。」

擴散方法打入語言模型領域!

最近,康奈爾博士生Subham Sahoo,在X介紹了擴散大語言模型的最新工作。


這項研究引發了AI研究領域的思考。

英偉達研究院杰出研究科學家Pavlo Molchanov說:「擴散大語言模型正在崛起!」

谷歌研究院學生研究員、康奈爾大學博士生Yash Akhauri更是指出:「自回歸危在旦夕」。


這項新鮮出爐的研究,提出了突破性的方法:Esoteric Language Models(Eso-LMs)。


論文鏈接:https://arxiv.org/abs/2506.01928

項目鏈接:https://s-sahoo.com/Eso-LMs/

這是首個在保持并行生成的同時,引入KV緩存機制的方法。

推理速度相比標準MDM提升了 65 倍,相比支持KV緩存的半自回歸基線模型快3–4倍。


這是一種新的語言建??蚣?,融合了自回歸(AR)和離散擴散模型(MDM)兩種范式,性能超越了之前的混合方法BD3-LMs。

研究者還發現,BD3-LMs 在低采樣步數下性能下降,而新方法在低計算量(NFE)場景下與離散擴散模型相當,在高計算量場景下與自回歸模型相當。

這次的結果為離散擴散模型建立了新的困惑度(perplexity)最優水平,縮小了與自回歸模型的差距。


另外值得一提的是,除了共同一作Zhihan Yang外,還有多位華人作者,其中包括知名華人學者邢波(Eric Xing)。



語言也能擴散

這并非擴散方法首次「入侵」文本生成領域。

甚至達到商用級別的擴散語言模型,都不止一個。


斯坦福、UCLA和康奈爾的三位教授聯合創立了Inception Labs,推出了全球首個商用級別的擴散語言模型

擴散語言模型最大特點就是快:推理速度可達ChatGPT的6倍!

IBM甚至認為擴散模型就是下一代AI,GPT這類自回歸范式受到有力挑戰。


不過,三位教授具體如何實現這一突破,目前尚屬商業機密,外界難以得知。

而在AI巨頭中,谷歌是第一家嘗試擴散語言模型——

而這次的新論文,作者Arash Vahdat是英偉達研究院的科研總監(Research Director),領導基礎生成式人工智能(GenAIR)團隊。



莫非英偉達也要押注擴散語言模型?

擴散模型:后來者居上?

眾所周知,掩蔽擴散模型(Masked Diffusion Models,MDMs)是自回歸(AR)語言模型的有力替代方案——

但它們有兩個致命短板:

速度慢:沒有KV緩存 = 實際上比AR慢得多;

質量差:在復雜任務中表現不佳,似然度低于AR。

塊擴散(Block Diffusion)模型BD3-LM,在每個區塊內執行擴散過程,以先前區塊為條件,實現分塊生成token序列。

它融合了自回歸模型與擴散模型的優勢:在支持可變長度生成的同時,利用KV緩存和并行采樣提升推理效率,從而克服兩種傳統方法的局限性——

既能實現更高質量的生成效果,又能保持高效推理特性。


但是,BD3-LM的速度與質量仍需權衡:

低采樣步數下出現模式崩塌,導致樣本質量差;

而且只支持部分緩存,塊內鍵值緩存仍缺失。

針對現有方法在速度與質量之間的權衡,研究者提出了一種全新的混合范式:Eso-LM。


論文鏈接:https://arxiv.org/abs/2503.09573

這次研究人員結合掩蔽擴散和自回歸,提出了新的語言建模范式:Esoteric Language Models (Eso-LMs)。

新范式兼顧了速度與質量,超越了BD3-LM。

正如圖1所示,Eso-LM包含擴散和順序兩個階段:

在擴散階段(Diffusion Phase),Eso-LM每一步去噪一個或多個可能不相鄰的掩蔽token (圖1中底部字母「M」)。

在順序階段(Squential Phase),Eso-LM從左到右逐個去噪剩余的掩蔽token。

與BD3-LM不同,Eso-LM (B)允許在兩個階段使用統一的KV緩存,藍色邊框框住了正在構建KV緩存的transformer單元;當單元的KV緩存構建完成時,該單元變成藍色。

下方的序列顯示了transformer中token的自然順序。


圖1: 使用Eso-LM (B) 高效生成示例序列。

這招「KV緩存」原本是自回歸模型加速推理的「殺手锏」。

但Eso-LM利用創新的混合訓練方法,將KV緩存引入了擴散模型。

具體來說:

  • 混合訓練:Eso-LM在訓練時一半數據采用AR風格(干凈的上下文預測下一個單詞),另一半采用擴散風格(打亂輸入,部分掩碼,逐步去噪)。

  • 推理優化:在生成過程中,Eso-LM只對部分單詞(掩碼和干凈單詞)進行前向計算,并緩存干凈單詞的KV對,大幅減少計算量。


爆改Transformer

靈活切換注意力

自回歸模型(AR)需要因果注意力和逐個token解碼,而掩碼去噪模型(MDM)依賴雙向注意力。

要想同時支持順序(AR)和并行(MDM)生成模式,并使用共享的Transformer架構,必須解決它們之間的架構不匹配問題。

研究者引入了注意力偏置矩陣A,調整標準的自注意力機制:


其中Q,K,V分別表示自注意力機制中query、key和value矩陣。

偏置矩陣A控制注意力流:當Ai,j=0時,表示「允許」從tokeni注意到j;當Ai,j=?∞時,表示「阻止」這種注意力。

這種機制只要一個transformer,就能根據需要模擬因果(單向)和雙向注意力行為。

基于統一的注意力機制,研究者提出了兩個變體:Eso-LM(A)Eso-LM(B)。

Eso-LM(A)通過稀疏化注意力并在每一步擴散過程中僅將去噪transformer應用于部分遮蔽token,從而降低計算量。

Eso-LM(B)進一步擴展了這個想法,不僅對遮蔽token應用因果mask,還對干凈token應用,從而實現更高效的KV緩存(KV-caching)——代價是困惑度略有下降。

擴散階段

在擴散階段,標準的采樣方法會浪費大量FLOPs。

為了提高效率,研究者對標準采樣和訓練過程提出了兩個關鍵改進。

在采樣過程中,預先計算擴散去噪計劃SMDM=(S1,…,S1/T),其中S_t是在擴散步驟t去噪的遮蔽token的索引集合。

而且不再處理整個序列,而只對子序列{zt?∣?∈C(zt)∪St}進行前向傳播——即,干凈的token和計劃去噪的token——

這在處理長序列時顯著降低了計算量。

這種方法支持在擴散過程中進行高效的KV緩存。

關鍵思想借用了已有的方法AO-ARM(見下文):遮蔽token可以按任何順序揭示。


論文鏈接:https://openreview.net/forum?id=sMyXP8Tanm

因此,在訓練過程中,新方法要采樣隨機順序σ~PL,并對每個σ,強制執行對遮蔽token的因果注意力。

具體來說,要求遮蔽token只能對干凈token和根據順序σ排列的先前遮蔽token進行注意力計算

Eso-LM(A)采用了這一策略,在采樣過程中顯著減少了計算量,同時保持了性能。

而Eso-LM(B)對干凈token強制施加類似的因果mask,進一步擴展了這一思想,從而實現了KV緩存。

盡管在困惑度上稍微差一些,Eso-LM(B)在采樣過程中提供了顯著的加速(最多65倍)。

順序階段

自回歸模型隨后從左到右填充遮蔽token,使用順序去噪計劃,其中要求每個單元素集合按其唯一元素升序排列。

不同于標準的自回歸解碼,每個x~?同時依賴其左側上下文(完全由干凈token構成)和右側干凈的token,從而實現更豐富的生成。

我們跳過對右側遮蔽token的評估,減少不必要的計算。

順序階段自然支持KV緩存。

我們將統一的去噪計劃表示為S=SMDM∪SAR,它將兩個采樣計劃連接起來以劃分集合[L]。

當α0=1時,所有token都由擴散生成,因此S=S_MDM,且S_AR=?;

當α0=0時,所有token都由順序方式生成,因此S=S_AR,且S_MDM=?。

完整采樣算法如下。


實際例子

在擴散階段,去噪Transformer接收zt~qt(?∣x),其中包含待去噪的掩碼token,以及目標序列x。

從排列分布PL中采樣一個隨機排列σ,并滿足一個自然約束:在排列σ中,zt中的干凈token必須排在掩碼token之前。

下圖展示了一個示例的注意力掩碼及其排序實現,其中x=(A,B,C,D,E,F),zt=(A,M,C,M,M,F),排列σ=(3,1,6,4,5,2)。


在順序階段,去噪Transformer接收z0⊕x∈V2L,其中z0~q0(?∣x)包含待去噪的掩碼token,并通過比較Transformer在z0上的輸出與目標序列x來計算損失。

在訓練過程中需要將z0與x進行拼接作為輸入,這是因為不像AR模型那樣在輸出端使用逐步移動(shift-by-one)。

從排列分布PL中采樣一個隨機排列σ,該排列滿足以下兩個約束:

(i)σ中z0的未掩碼token排在掩碼token前;

(ii)掩碼token在σ中保持其自然順序。

下方展示了一個示例的注意力掩碼及其排序實現,

其中x=(A,B,C,D,E,F),z0=(A,M,C,M,M,F),σ=(3,1,6,2,4,5)。


在順序生成過程中,模型需要從左到右地對由z0~pθMDM(?)生成的遮蔽token進行去噪。


圖2:擴散階段訓練中注意力偏置的比較。橙色代表0(有注意力),灰色代表?∞(無注意力)

干凈的原始序列為x=(A,B,C,D,E,F)。

經過隨機遮蔽后,得到zt=(A,M,C,M,M,F)。

圖中整數表示位置索引,其中遮蔽token的索引集為M(zt)={2,4,5},干凈token的索引集為C(zt)={1,3,6}。

隨機順序為σ=(3,1,6,4,5,2)~P6,其中干凈token出現在遮蔽token之前。

混合訓練

設x~qdata(x)為數據分布中的樣本,pθ是由參數θ定義的模型分布。

ESO-LM將模型分布pθ分解為兩部分:自回歸模型(Autoregressive Model, AR)
和掩碼擴散模型(Masked Diffusion Model, MDM)

具體生成過程為:首先,掩碼擴散模型生成一個部分掩碼的序列,然后自回歸模型以從左到右的方式完成剩余的解掩碼步驟,生成條件分布。

這一混合生成過程的邊緣似然表示為:


雖然上述求和難以直接計算,但可以通過引入后驗分布q(z0∣x)來對真實似然進行變分下界估計。

由于
建模的是掩碼序列,可以選擇一個簡單的掩碼分布q,具體定義如下:,即以概率1?α0獨立掩碼每個token,其中α0∈[0,1]。

由此推導得到變分下界:


在原文附錄中,研究者分析了KL項并給出負證據下界(NELBO):


α?=1時,后驗采樣z?=x,所有token均由MDM(掩碼擴散模型)生成,此時上式負證據下界中的AR損失為零,NELBO(負證據下界)退化為純MDM損失。

反之,當α?=0時,所有token均被掩碼,MDM損失消失,NELBO退化為純AR(自回歸)損失。

因此,ESO-LM通過超參數α?的調控,實現了自回歸(AR掩碼擴散(MDM)兩種生成范式的平滑插值。

這能夠在兩種風格之間流暢切換,實現以下方面的完美平衡:本通順度、生成質量和推理速度。


速度與質量的完美平衡

Eso-LM模型在兩個標準語言建?;鶞噬线M行了評估:十億詞數據集(LM1B)和OpenWebText(OWT)。

所有模型均采用提出的基于擴散Transformer的架構,并引入旋轉位置編碼。

實驗結果表明,在LM1B和OWT基準測試中,Eso-LM模型實現了擴散模型的最優困惑度表現,同時在掩碼擴散模型(MDM)與自回歸模型(AR)的困惑度區間實現了更精細的插值調控(見表1和表2)。

具體而言:

  1. 性能突破:在LM1B上,Eso-LM將擴散模型的困惑度記錄從18.7顯著降低至16.3,相對提升達13%;

  2. 動態調控:通過調節擴散步數(T=10至T=1000),模型可平滑過渡生成質量與速度,相鄰步長困惑度差異保持在0.8以內;

  3. 長程優勢:在OpenWebText(OWT)長文本評估中,1024上下文窗口下的困惑度從21.5優化至19.1,驗證了模型對長距離依賴的有效建模;

  4. 評估嚴謹:采用序列打包技術使LM1B評估更具挑戰性(基準困惑度提升2.1),但模型仍保持12-15%的相對性能優勢。


當生成長度為8192的序列,并使用最大數量的函數評估(NFEs=8192)時,Eso-LM模型的推理速度最多比MDLM快65倍,比BD3-LMs快3~4倍。

對在OWT數據集上訓練的模型,研究者使用生成困惑度(Generative Perplexity,Gen. PPL)來評估所生成樣本的質量。

Gen. PPL越低,表示生成質量越高。

為比較采樣效率,研究者還記錄了每種方法生成一個樣本(即batch size=1)所需的采樣時間中位數(單位為秒,基于5次試驗)。

Eso-LM模型在采樣速度–質量的帕累托前沿(Pareto frontier)上達到了新的SOTA(最先進水平),重新定義了生成模型的可能性:

  • 在高速采樣條件下實現與MDLM相當的困惑度

  • 在需要時,可達到與自回歸模型(AR)相同的困惑度水平;

  • 在采樣步驟較少時不會出現模式崩潰(mode collapse)——這是Block Diffusion 模型所無法做到的。


參考資料:

https://x.com/ssahoo_/status/1929765494460239933

https://x.com/PavloMolchanov/status/1929944952848691309

https://x.com/ssahoo_/status/1929945984588755180


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
父親臨終說出大陸有妻兒,女兒跨海尋找哥哥,看到哥哥后愣住了

父親臨終說出大陸有妻兒,女兒跨海尋找哥哥,看到哥哥后愣住了

秋風專欄
2025-06-11 16:13:50
放棄酒店轉做比特幣生意,這家公司身價暴漲400倍!

放棄酒店轉做比特幣生意,這家公司身價暴漲400倍!

環球旅訊
2025-06-14 16:22:37
巴里奧斯:如果我沒去中國踢球,我可能會一直留在多特蒙德

巴里奧斯:如果我沒去中國踢球,我可能會一直留在多特蒙德

懂球帝
2025-06-14 14:04:11
2025教師工資大變動!7月調整后這四類教師收入看漲

2025教師工資大變動!7月調整后這四類教師收入看漲

妮子說美食
2025-06-15 05:45:19
發現一個奇怪的現象:現在的農村,不炫耀彩禮收了幾十萬,不炫耀女兒嫁到大城市,就炫耀女兒嫁給了公務員

發現一個奇怪的現象:現在的農村,不炫耀彩禮收了幾十萬,不炫耀女兒嫁到大城市,就炫耀女兒嫁給了公務員

感覺會火
2025-06-14 12:10:44
國際原子能機構總干事:絕不能攻擊核設施

國際原子能機構總干事:絕不能攻擊核設施

極目新聞
2025-06-14 07:31:51
今晚!中國女籃再次出戰,CCTV5直播,李夢+李月汝休戰,韓旭領銜

今晚!中國女籃再次出戰,CCTV5直播,李夢+李月汝休戰,韓旭領銜

晚池
2025-06-15 02:45:48
隨著上海申花1:2不敵深圳新鵬城,3問主教練斯盧茨基?

隨著上海申花1:2不敵深圳新鵬城,3問主教練斯盧茨基?

田先生籃球
2025-06-14 22:49:35
這次,高調官宣新戀情的梁洛施,終究沒給涼薄的李澤楷留一絲體面

這次,高調官宣新戀情的梁洛施,終究沒給涼薄的李澤楷留一絲體面

山河月明史
2025-06-13 17:22:30
“賣房也得送我出國!”女孩放棄高考逼宮父母,網友:你適合送外賣

“賣房也得送我出國!”女孩放棄高考逼宮父母,網友:你適合送外賣

熙熙說教
2025-06-13 19:34:58
3-0,47歲李金羽神了:率隊狂攬29分,反超重慶銅梁龍升至第一

3-0,47歲李金羽神了:率隊狂攬29分,反超重慶銅梁龍升至第一

側身凌空斬
2025-06-14 20:57:14
有些地方的男女關系太混亂了

有些地方的男女關系太混亂了

寫真實故事的張三哥
2025-06-14 17:32:52
開售即“秒空”!華為Pura 80系列首銷火熱,有消費者冒雨搶購→

開售即“秒空”!華為Pura 80系列首銷火熱,有消費者冒雨搶購→

中國商報
2025-06-14 16:50:14
中國女籃首場熱身賽總結:3人不能用,2人需調整,3人能扛大旗

中國女籃首場熱身賽總結:3人不能用,2人需調整,3人能扛大旗

男足的小球童
2025-06-14 15:05:22
黑龍江省政府副秘書長許振宇已任省教育廳黨組書記

黑龍江省政府副秘書長許振宇已任省教育廳黨組書記

澎湃新聞
2025-06-15 09:54:27
機關事業單位人員下班后打牌打麻將,算違法違紀嗎?明確規定來了

機關事業單位人員下班后打牌打麻將,算違法違紀嗎?明確規定來了

錘不倒的拖油瓶
2025-04-03 06:21:26
啪啪打臉!鄭欽文1-2不敵美國悍將無緣決賽!球迷:像業余球員

啪啪打臉!鄭欽文1-2不敵美國悍將無緣決賽!球迷:像業余球員

搏擊江湖
2025-06-15 06:47:19
韓國要改國旗了?在要錢和要命之間,李在明選擇先苦一苦日本人

韓國要改國旗了?在要錢和要命之間,李在明選擇先苦一苦日本人

忠誠TALK
2025-06-13 23:08:39
“農夫三拳”再現工體!亞泰主帥蘇亞雷斯向國安球迷謝場

“農夫三拳”再現工體!亞泰主帥蘇亞雷斯向國安球迷謝場

直播吧
2025-06-15 09:11:10
員工被裁獲35萬補償,當晚清空工位,次日發現領導竟打來18個電話

員工被裁獲35萬補償,當晚清空工位,次日發現領導竟打來18個電話

二十一號故事鋪
2025-06-13 18:25:10
2025-06-15 10:35:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12877文章數 66068關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

印度空難幸存者:機身撞出巨大裂口 爬出去后發生爆炸

頭條要聞

印度空難幸存者:機身撞出巨大裂口 爬出去后發生爆炸

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

鳳凰傳奇曾毅塌房?網友:別連累玲花

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

家居
教育
本地
數碼
手機

家居要聞

森林幾何 極簡灰調原木風

教育要聞

高考陪考現象:爸媽沒到小姨到,楊雨婷捧向日葵花,還有家長哭了

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

數碼要聞

為什么iPad不直接運行macOS系統?蘋果高管這樣說

手機要聞

蘋果Liquid Glass UI影響文字可讀性并提高設計界面難度引發質疑

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧美大屁股xxxx高跟欧美黑人| 日韩综合亚洲色在线影院| 国产免费人成视频在线播放播| 亚洲国产制服丝袜无码av| 国产亚洲精品久久yy50| 亚洲女女女同性video| 2018高清国产一区二区三区| 精品无人区无码乱码大片国产| 国产亚洲精品欧洲在线观看| 日本一卡2卡3卡4卡5卡精品视频| 18无码粉嫩小泬无套在线观看| 国产色婷婷亚洲99精品小说| 国产欧美亚洲精品第1页青草| 亚洲熟妇av一区| 可以看三级的网站| 无码中文精品视视在线观看| 狠狠躁夜夜躁人人爽天天天天| 男人边吃奶边做好爽免费视频| 久久婷婷久久一区二区三区| 欧美极度丰满熟妇hd| 调教套上奶牛榨乳器喷奶水| 国内少妇偷人精品免费| 69国产成人综合久久精品| 日韩精品久久久久久免费| 亚洲国产99精品国自产拍| 玩弄人妻少妇500系列网址| 97视频在线精品国自产拍| 精品国产丝袜黑色高跟鞋| 国产无遮挡a片又黄又爽漫画| 怡红院精品久久久久久久高清| 中文字幕av中文字无码亚| 国产伦精品一区二区三区免.费| 欧洲熟妇色xxxx欧美老妇老头多毛| 在线播放国产一区二区三区| 不满足出轨的人妻中文字幕| 偷窥村妇洗澡毛毛多| 久久久噜噜噜久久中文字幕色伊伊| 亚洲老妇色熟女老太| 精品亚洲一区二区三区四区五区| 97se狠狠狠狠狼亚洲综合网| 色屁屁www影院免费观看入口|