大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

李飛飛研發嫁接模型架構編輯法,讓預訓練模型成為研究架構腳手架

0
分享至

近日,美國斯坦福大學教授李飛飛等人打造出一種名為“嫁接”(grafting)的新型架構編輯方法,它能在有限的算力條件之下重構預訓練擴散 Transformer。研究團隊表示這種嫁接法既簡單又輕便,采用 8 塊英偉達 H100 GPU 在 24 小時內即可完成單項實驗,同時僅使用不到 2% 的預訓練計算資源。


(來源:arXiv)

研究中,他們使用高效替代方案替換了自注意力機制和多層感知機,借此構建了混合模型,該混合模型的弗雷歇初始距離(FID,Frechet Inception Distance)值位于 2.38 - 2.64 之間,高于基線模型的 2.27。(注:FID 是一種用于評估生成圖像與真實圖像相似度的指標。)

PixArt-∑,是由華為諾亞方舟實驗室聯合香港大學團隊、大連理工大學團隊和香港科技大學團隊研發的文本到圖像的擴散 Transformer(DiT,Diffusion Transformer)模型。本次研究之中,基于 12k 的合成數據,李飛飛等人將嫁接法用于 PixArt-∑,在評估生成質量的 GenEval 評分下降不到 2% 的情況下,讓嫁接模型實現了 1.43 倍的內容生成加速,這表明嫁接法確實能被擴展至高分辨率的文本到圖像模型之中。

隨后,他們使用嫁接法陣針對 Meta 公司推出的擴散 Transformer 模型 DiT-XL/2 進行架構重構,將每對連續的 Transformer 塊轉換為并行結構,從而使模型深度減半。在 14 層的擴散 Transformer 模型中,被重構之后的模型實現了更好的生成質量,弗雷歇初始距離(FID)值為 2.77。這些結果證明了嫁接法在短上下文和長上下文設置以及架構重構中的實用性。

這也說明通過嫁接預訓練的擴散 Transformer,可以探索新的擴散模型設計。總的來說,嫁接法是一種能在低計算成本下探索擴散 Transformer 設計的輕量級方法。


圖 | 相關論文(來源:arXiv)



預訓練模型能否作為研究新架構的“腳手架”?

研究團隊表示,與數據、算法、計算資源和基準測試一樣,模型架構設計也在機器學習中起著核心作用。模型架構設計定義了一個可學習的函數,并涉及到一些關鍵設計決策,比如算子和配置的選擇等。

盡管如此,由于從頭開始訓練模型的成本過高,尤其是在基礎模型比較流行的當下,人們依然很難深入了解哪些架構有效、哪些架構無效。因此,研究新架構仍然是一個挑戰,特別是對于生成模型而言。

類比于“新軟件基于現有代碼開發”的理念,研究團隊提出這一設想:預訓練模型能否作為研究新架構的“腳手架”?

基于這一設想,他們通過探索預訓練模型的架構編輯方法,來探索新型網絡架構的設計。

研究中,他們專注于研究擴散 Transformer,這是一類廣泛用于圖像生成和視頻生成的生成式 Transformer。

預訓練模型通過實現一個計算圖來執行圖像生成或視頻生成等任務。因此,本次研究重點探究這一問題:如何在算力有限的條件之下,通過修改模型計算圖實現架構方案的可行性驗證?

此前,業內有人認為卷積設計可以取代擴散 Transformer 中的多頭注意力或多層感知機。實現這一想法的方法之一便是使用卷積算子替換多頭注意力或多層感知機算子,同時還能保持模型質量。

而這隨之會提出以下兩個問題:

  • 第一個是算子初始化問題:在將新算子集成到計算圖中之前,如何對其進行初始化?
  • 第二個是錯誤累積問題:當多個算子集成到計算圖中時,如何有效抑制誤差傳播?

為了解決這些問題,研究團隊提出了嫁接法,嫁接過程具體如下:

  • 第一個階段是激活蒸餾:通過回歸目標蒸餾原始算子的激活特征,將原算子功能遷移至新算子。
  • 第二個階段是輕量化微調:使用有限數據進行微調,減輕由于集成多個新算子所引起的錯誤傳播。


(來源:arXiv)

對于架構編輯來說,它涉及到算子添加、算子刪除和替換算子等多種策略。本次研究聚焦于算子替換這一核心策略:即將一個算子替換為另一個算子,而其他策略可被視為特殊的替換情況。

架構編輯的空間十分廣闊,這就會引發這樣一個現實問題:應該研究什么類型的替換?

為此,研究團隊建立了一個自嫁接基線,使用隨機初始化的權重替換現有算子。他們發現通過兩階段嫁接過程可以恢復接近基線的模型質量,借此驗證了嫁接法的有效性。

在此基礎之上,他們使用高效算子替代現有算子,以便在保持質量的同時減少模型的每秒浮點運算次數(FLOP,Floating Point Operations Per Second)。

與此同時,他們還使用了增加模型每秒浮點運算次數的替代方案,以便驗證更廣泛的架構設計的可能性。

為了系統性地研究這一點,他們構建了一個基于 DiT XL/2 模型的測試平臺。利用這個測試平臺,他們通過嫁接開發了一系列混合設計方案:比如將 Softmax 注意力替換為門控卷積、局部注意力和線性注意力,以及將多層感知機替換為可變擴展率和卷積變體。(注:Softmax 注意力是注意力機制中的核心計算方式之一,已被廣泛用于 Transformer 架構及其變體。)

同時,他們設計了一套架構編輯方案,以用于評估不同嫁接策略對于模型質量的影響。期間,他們聚焦于以下幾個核心設計維度:更換哪個算子?用什么替換算子?如何選擇要編輯的層?是完全替換還是部分替換?

替換多頭注意力和多層感知機算子的動機,源于研究團隊的以下實證證據和架構考量:對于多頭注意力,注意力局部性分析表明它更適合采用局部算子;對于多層感知機,研究團隊決定采用已有的架構思想。

在兩個頗有挑戰性的生成式建模場景中,他們驗證了嫁接法的效果。

在第一個場景中,即在類條件圖像生成任務中,嫁接法產生了具有良好質量的混合架構設計效果。對于多頭注意力即 Softmax 注意力,研究團隊探索了幾種替代方案:局部門控卷積、局部注意和線性注意力。對于多層感知機,替代方案包括具有可變擴展比的多層感知機和卷積變體。有趣的是,幾種交錯混合架構設計實現了 2.38-2.64 弗雷歇初始距離(FID),這表明嫁接法可以構建高質量的混合架構。


(來源:arXiv)

在第二個場景中,研究團隊通過架構嫁接技術,構建了面向高分辨率文生圖(T2I,text-to-image)任務的高效混合架構。他們在一個具有挑戰性的現實環境中驗證了嫁接法:即使用 PixArt-∑ 模型進行 2048×2048 分辨率的文本到圖像生成。這種實驗設置集中體現了三大核心挑戰:第一個挑戰是需要進行 16384 tokens 的長序列處理;第二個挑戰是需要進行多模態文本條件集成;第三個挑戰是訓練數據較為匱乏。期間,他們針對多頭注意力算子進行嫁接,之所以這樣做是因為它們占生成延遲的 62% 以上。通過使用數量為 12k 的合成數據,讓嫁接模型實現了 1.43 倍的加速,評估生成質量的 GenEval 評分下降不到 2%,這表明嫁接法可以擴展到高分辨率的文本到圖像模型之中。


(來源:arXiv)



將把嫁接法推至自回歸模型等其他模型家族

總的來說,嫁接技術展現出了廣闊的應用前景,包括將模型從低分辨率生成調整到高分辨率生成,將理解能力和生成能力從短視頻擴展到長視頻,或在圖像編輯等交互式應用中改善用戶體驗。在這些應用中,即使是 10% 的速度提升也很有益。

需要說明的是,本次研究之中 PixArt-Σ 模型的設置使用合成數據進行嫁接,這可能會將偽影和偏差傳播到嫁接后的模型之中。雖然本次研究側重于架構編輯,但是那些在嫁接下表現良好的架構,在從頭開始訓練時是否也能表現良好?這仍然是一個未知數。

另外,本次工作主要側重于預訓練擴散 Transformer 的架構編輯,特別是針對多頭注意力和多層感知機組件。針對其他架構組件比如歸一化層和激活函數,研究團隊將在后續進行研究。

在本次研究之中,所開展的實驗主要集中在擴散 Transformer 上,而將嫁接法推廣到其他模型家族比如自回歸模型,是他們未來的研究方向之一。此外,針對應變分自編碼器(VAEs,Variational Autoencoders)中的組件嫁接也有待在未來進行探索。

參考資料:

https://arxiv.org/pdf/2506.05340

排版:初嘉實

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
央視首次曝光!每臺4億美元重180噸,全世界最先進光刻機揭開面紗

央視首次曝光!每臺4億美元重180噸,全世界最先進光刻機揭開面紗

史紀文譚
2025-06-14 13:23:51
局勢突變!中國深夜發出警告,俄羅斯聲明立即結束會談!

局勢突變!中國深夜發出警告,俄羅斯聲明立即結束會談!

一個有靈魂的作者
2025-06-14 22:17:44
三航母時代即將到來!官方披露福建艦最新消息

三航母時代即將到來!官方披露福建艦最新消息

政知新媒體
2025-06-14 16:53:19
印度網民們怒了!負責墜機飛機維修的是國企,曾讓全女工程師團隊更換787發動機

印度網民們怒了!負責墜機飛機維修的是國企,曾讓全女工程師團隊更換787發動機

不掉線電波
2025-06-14 21:25:56
國家電力局長意外被捕!居然早成美國間諜,被捕時叫囂我是美國人,被判5年監禁后驅離出境

國家電力局長意外被捕!居然早成美國間諜,被捕時叫囂我是美國人,被判5年監禁后驅離出境

大白聊IT
2025-06-14 22:40:59
以色列攔不住伊朗導彈,點醒中國:300枚東風26,摧毀美西太基地

以色列攔不住伊朗導彈,點醒中國:300枚東風26,摧毀美西太基地

胖福的小木屋
2025-06-14 23:43:33
憑什么以色列可以這樣,而俄羅斯卻不行?

憑什么以色列可以這樣,而俄羅斯卻不行?

清濱酒客
2025-06-13 15:28:28
容祖兒與老板楊受成出席香港車展,祖兒黑臉不讓扶

容祖兒與老板楊受成出席香港車展,祖兒黑臉不讓扶

鄉野小珥
2025-06-13 10:29:29
南航“美女經理”:除了生理期就沒閑過,兩年半和上級開房410次

南航“美女經理”:除了生理期就沒閑過,兩年半和上級開房410次

就一點
2025-06-13 16:45:25
國內首針!47歲京東副總裁蔡磊與漸凍癥抗爭6年后,終于迎來希望

國內首針!47歲京東副總裁蔡磊與漸凍癥抗爭6年后,終于迎來希望

小嵩
2025-06-14 08:49:51
中國專列,以最快速度駛進伊朗,伊朗總統也以最快速度訪問中國!

中國專列,以最快速度駛進伊朗,伊朗總統也以最快速度訪問中國!

大道無形我有型
2025-06-14 11:32:10
好消息!鐵路部門規定!60歲以上乘坐火車高鐵,可以享受這些福利

好消息!鐵路部門規定!60歲以上乘坐火車高鐵,可以享受這些福利

詩詞中國
2025-06-14 14:06:56
鳳凰傳奇出事了,曾毅手表事件后又被爆出新料,青島演唱會要涼?

鳳凰傳奇出事了,曾毅手表事件后又被爆出新料,青島演唱會要涼?

陳博世財經
2025-06-14 14:28:17
資本力量太可怕!半個娛樂圈都在吹捧的labubu,被郭麒麟戳破真相

資本力量太可怕!半個娛樂圈都在吹捧的labubu,被郭麒麟戳破真相

姩姩有娛呀
2025-06-14 19:33:09
江蘇女子嫁非洲16年沒回家,母親退休后去看望,見到女婿后愣在原地

江蘇女子嫁非洲16年沒回家,母親退休后去看望,見到女婿后愣在原地

黃家湖的憂傷
2025-06-10 17:46:33
一查嚇一跳!湖南湘雅二醫院的院長竟然是八零后,40歲就上位了…

一查嚇一跳!湖南湘雅二醫院的院長竟然是八零后,40歲就上位了…

火山詩話
2025-06-14 06:17:52
國防大學的教授也是一個水貨

國防大學的教授也是一個水貨

回旋鏢
2025-06-14 15:59:57
羅帥宇冤不冤我說不準,但沒人會偷割你孩子的器官……

羅帥宇冤不冤我說不準,但沒人會偷割你孩子的器官……

基本常識
2025-06-14 22:42:03
小玥兒陪父母直播!汪小菲玩女兒玩具,笑到起飛!網友:融洽!

小玥兒陪父母直播!汪小菲玩女兒玩具,笑到起飛!網友:融洽!

大笑江湖史
2025-06-14 22:56:07
連續發射6波導彈,伊朗反擊極為強硬,靜觀是否會與對手死磕到底

連續發射6波導彈,伊朗反擊極為強硬,靜觀是否會與對手死磕到底

國平視野
2025-06-14 18:09:17
2025-06-15 04:12:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15294文章數 513781關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

健康
本地
數碼
公開課
軍事航空

呼吸科專家破解呼吸道九大謠言!

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

數碼要聞

黃仁勛親筆簽名版 RTX 5090 鍍金顯卡以 24200 美元達成慈善拍賣

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊媒:以色列國防部大樓被伊朗導彈擊中

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久精品农村毛片| 琪琪色原网站在线观看| 国产精品久久久久av福利动漫| 欧日韩无套内射变态| 国产精品日本亚洲欧美| 欧美一区二区三区红桃小说| 亚洲欧洲美色一区二区三区| 亚洲成在人线在线播放无码| 99热这里只有精品国产免费免费| av大片在线无码永久免费| 国产精品视频露脸| 国产主播一区二区三区在线观看| 一个人看的www免费视频中文| 久久亚洲精品无码播放| 999zyz玖玖资源站永久| 亚洲AV无码成人精品区国产| 亚洲精华国产精华液的福利| 欧美成人一区二区三区片免费| 久久综合九色综合97网| 香蕉免费一区二区三区| 无码三级中文字幕在线观看| 欧美老妇乱辈通奷| 中文字幕人妻丝袜美腿乱| 蜜芽国产尤物av尤物在线看| 50岁人妻丰满熟妇αv无码区| 精品综合久久久久久97| 偷看农村妇女牲交| 无码福利在线观看1000集| 成人一区二区免费视频| 老司机免费的精品视频| 国产10000部拍拍拍免费视频| 永久黄网站色视频免费看| 丰满熟女人妻中文字幕免费| 国产色视频一区二区三区| 国产专区一线二线三线码| 乌克兰少妇xxxx做受| 国产成人精品人人| 亚洲人成无码网www| 国产午夜精品久久久久免费视| 亚洲韩国精品无码一区二区三区| 精品麻豆剧传媒av国产|