大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

一句話生成任務專屬LoRA!Transformer作者創業公司顛覆LLM微調

0
分享至

鷺羽 發自 凹非寺
量子位 | 公眾號 QbitAI

告別繁瑣微調,一句話就能生成LoRA?!

由Transformer作者之一Llion Jones聯合創立的明星AI公司SakanaAI,近期推出Text-to-LoRA(T2L),徹底簡化了模型適配流程:



現在,微調大模型時動輒數周的數據集準備、反復調整超參數的復雜流程,可以省了。



使用T2L生成的LoRA在參數壓縮率上可達80%卻僅降1.2%準確率,零樣本場景下更以78.3%的平均準確率超越現有SOTA方法。

可以說,“一句話定制模型”的時代正在開啟,非技術用戶不再需要學習復雜的微調知識,直接用通俗易懂的自然語言就可以完成相應工作。



有網友甚至把它比喻為LLM的一個只有文字描述的私人教練,將會徹底改變游戲規則。



目前該論文已被ICML2025收錄。



詳細內容如下:

從文本到LoRA

LLM在執行特定任務前,都需要先進行適配的LoRA微調,為每個任務單獨訓練低秩矩陣,往往耗費大量計算資源和時間。

研究團隊從人類視覺系統中汲取靈感,即在有限的感官線索下可以實現環境快速適應,并由此構建了能夠動態調制大模型的超網絡架構Text-to-LoRA(T2L)



T2L包含3種架構變體,它們在輸出空間和參數規模上各有不同,具體為:

  • T2L-L:

為每個目標模塊(如注意力層、MLP 層)和網絡層生成完整的 LoRA 權重矩陣。

該架構的參數規模最大,但能靈活適配不同層的特性,適用于需要精細控制每層適配的場景。

  • T2L-M:

按模塊類型(而非具體層)共享輸出空間。對于同一類型的模塊,超網絡僅生成一組共享的LoRA矩陣,并應用于該類型下的所有層。

該架構通過參數共享減少了模型規模,同時保留了模塊類型級別的適配能力,在參數效率和性能之間取得平衡。

  • T2L-S:

為整個模型生成統一的LoRA適配器,不區分模塊類型和層索引。

該架構參數規模最小,適用于計算資源有限或任務需求較通用的場景,通過全局適配實現快速部署。



為了訓練T2L模型,可以采用兩種訓練模式,分別是基于LoRA的重建和跨多個任務的監督微調(SFT)

LoRA重建的核心思想是讓T2L從任務的文本描述中,生成與真實LoRA適配器效果相近的參數,從而最大限度地減少生成適配器和目標適配器之間的重建損失。

這種方法避免了傳統方法中對大量任務數據的依賴,轉而利用已有的LoRA適配器和文本描述構建監督信號,壓縮了現有的LoRAs,但難以進行零鏡頭泛化。

監督微調則是使用任務描述,在任務數據集上直接端到端訓練T2L。這改進了對未知任務的泛化,并能夠根據文本描述生成具有可引導行為的適配器。



針對T2L的適配器壓縮性能,團隊進行了實驗驗證。

通過設置9個不同的NLP任務,將一一對應的LoRA適配器參數壓縮為文本描述的嵌入向量,并通過3種T2L變體分別重建LoRA參數。

實驗發現,重建LoRA與原始LoRA相比,參數規模從15.8M下降為3.2M,壓縮率達80%,但在任務的平均準確率上僅下降了1.2%,證明了壓縮過程中的知識保留能力。

其中,T2L-L在壓縮后性能最接近原始LoRA,而T2L-S壓縮率最高。

T2L能夠實現高效的參數壓縮,可以極大地減少存儲需求,幫助LLM在資源受限環境中進行部署。



團隊還進一步驗證了T2L在零樣本場景下生成LoRA適配器的能力。

構建了12個全新的NLP任務并各自提供自然語言描述,使用T2L生成的對應LoRA適配器直接應用于基礎模型,測試其在標注數據集上的性能。

結果表明,T2L的平均準確率達到了78.3%,顯著高于多任務LoRA的65.1%,和目前最先進的零樣本LoRA路由方法Arrow Routing的72.4%。

其中T2L-L因為能夠為不同層定制參數,在復雜任務中表現最佳,而T2L-S在簡單任務上效率更高,參數規模僅為T2L-L的五分之一,但性能僅下降3.2%

源于超網絡對 “文本語義 - 參數空間” 映射的顯式學習,T2L實現了真正的文本驅動,無需任務數據即可通過自然語言描述生成有效LoRA,這為模型快速適應長尾任務提供了可能。

Transformer作者創業公司

背后的公司Sakana AI,由前谷歌研究人員Llion Jones于2023年7月共同創立。

Llion Jones是著名論文《Attention Is All You Need》的8位核心作者之一,論文中首次提出了Transformer架構,為現代LLM架構奠定了基石。



在谷歌工作期間,他還深度參與NLP、模型架構創新等眾多核心AI項目,例如Prot Trans、Tensor2Tensor等。

而創辦Sakana AI后,他也始終致力于探索超越和補充當前Transformer范式的新路徑,例如他們在去年底推出了用于Transformer的新型神經記憶系統NAMM,今年1月提出的Transformer2可以針對各種任務動態調整權重。



目前公司專注利用自然啟發的方法(如進化計算和集體智能)來開發基礎模型,例如在今年5月他們根據達爾文進化論提出了達爾文哥德爾機(DGM),可以讓AI通過讀取和修改自身代碼來提升編碼性能。



而本篇論文則由Rujikorn Charakorn、Edoardo Cetin、Yujin Tang、Robert T. Lange共同完成。



Rujikorn Charakorn曾在朱拉隆功大學就讀,目前在VISTEC研究所攻讀博士學位,主要研究方向是深度強化學習、多智能體學習和元學習。

Edoardo Cetin于2023年獲得倫敦國王學院的博士學位,目前是Sakana AI的研究科學家,此前還曾在推特的Cortex團隊、豐田和高盛實習。

而Yujin Tang則博士畢業于東京大學,曾在谷歌工作長達5年,后來于2024年加入Sakana AI。



Robert T. Lange是Sakana AI的研究科學家和創始成員之一,致力于用基礎模型來增強和自動化科學發現過程。

他還主導參與了首個獨立生成學術論文的“AI科學家”項目,還曾在社區引起廣泛熱議。

論文鏈接:https://arxiv.org/abs/2506.06105
代碼鏈接:https://github.com/SakanaAI/Text-to-Lora

參考鏈接:
[1]https://x.com/RobertTLange/status/1933074366603919638
[2]https://huggingface.co/SakanaAI/text-to-lora/tree/main
[3]https://x.com/tan51616/status/1932987022907670591
[4]https://x.com/SakanaAILabs/status/1932972420522230214

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
靈活就業人員突然發現,退休金已經變成了自己買不起的奢侈品!

靈活就業人員突然發現,退休金已經變成了自己買不起的奢侈品!

逍遙論經
2025-05-23 10:22:45
青島又一小島火了,25℃避暑+漁村生活,免費!

青島又一小島火了,25℃避暑+漁村生活,免費!

i書與房
2025-06-14 16:11:48
東北首富劉忠田:靠財色腐化中美高官,被捕時賬戶只剩一萬

東北首富劉忠田:靠財色腐化中美高官,被捕時賬戶只剩一萬

老黃有話
2024-01-18 08:00:03
美國聯賽水平高,薪水不菲也輕松!龔翔宇留洋鍛煉享受生活兩不誤

美國聯賽水平高,薪水不菲也輕松!龔翔宇留洋鍛煉享受生活兩不誤

金毛愛女排
2025-06-15 00:00:04
中超爭議15分鐘補時:91分鐘絕平被吹 102分鐘又絕平 主帥眼鏡掉了

中超爭議15分鐘補時:91分鐘絕平被吹 102分鐘又絕平 主帥眼鏡掉了

風過鄉
2025-06-14 18:12:37
中國股市:一份“不能買”的股票名單,獻給2億散戶的真誠忠告!

中國股市:一份“不能買”的股票名單,獻給2億散戶的真誠忠告!

一方聊市
2025-02-17 13:55:57
男子喝鄰居送的“白酒”后中毒身亡!瓶中竟是濃度88%甲醇,嫌疑人:從餐館拿的,以為是酒

男子喝鄰居送的“白酒”后中毒身亡!瓶中竟是濃度88%甲醇,嫌疑人:從餐館拿的,以為是酒

環球網資訊
2025-06-13 17:32:13
羅馬諾:哲凱賴什首選加盟阿森納,他一直是阿森納的備選

羅馬諾:哲凱賴什首選加盟阿森納,他一直是阿森納的備選

懂球帝
2025-06-15 02:40:01
關于日本,有網友講述了這樣一個故事

關于日本,有網友講述了這樣一個故事

清暉有墨
2025-06-14 09:47:41
一家七口套現巨額!逃離后曬出身后的美國國旗,留下股民買單

一家七口套現巨額!逃離后曬出身后的美國國旗,留下股民買單

井普椿的獨白
2025-05-21 16:07:48
真相來了,官方公布羅帥宇墜樓事件,自己跳樓,QQ已提前寫好遺言

真相來了,官方公布羅帥宇墜樓事件,自己跳樓,QQ已提前寫好遺言

振華觀史
2025-06-14 10:25:52
超越妹妹越來越開放,直接上黑絲,眼鏡一戴,妥妥的性感女教師

超越妹妹越來越開放,直接上黑絲,眼鏡一戴,妥妥的性感女教師

吃瓜黨二號頭目
2025-06-11 11:10:31
員工被裁獲35萬補償,當晚清空工位,次日發現領導竟打來18個電話

員工被裁獲35萬補償,當晚清空工位,次日發現領導竟打來18個電話

二十一號故事鋪
2025-06-13 18:25:10
中美談完后,賴清德想通了?邀藍白營會面,派人搶在馬英九前赴京

中美談完后,賴清德想通了?邀藍白營會面,派人搶在馬英九前赴京

掌青說歷史
2025-06-14 17:36:51
王光美和兒子劉源的合影,瞧娘倆親的,家里擺滿了各種書籍

王光美和兒子劉源的合影,瞧娘倆親的,家里擺滿了各種書籍

大江
2025-05-09 10:26:05
沈陽明天局地大雨!

沈陽明天局地大雨!

沈陽公交網小林
2025-06-14 16:47:38
搞不好成為第二個烏克蘭?美國防長放話:中國敢動手,美國就下場

搞不好成為第二個烏克蘭?美國防長放話:中國敢動手,美國就下場

林子說事
2025-06-14 16:22:58
她們一邊做飯一邊賣淫

她們一邊做飯一邊賣淫

法律讀品
2025-05-05 17:24:28
阿南德點明:2025年全球巨變前五個征兆,最后一個已悄然顯現

阿南德點明:2025年全球巨變前五個征兆,最后一個已悄然顯現

一根香煙的少女
2025-04-06 21:57:54
陸地臺風?北京這場雨為何這么久?何時雨能停?

陸地臺風?北京這場雨為何這么久?何時雨能停?

環京大事記
2025-06-14 21:40:29
2025-06-15 04:16:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10666文章數 176166關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

數碼
教育
藝術
手機
公開課

數碼要聞

黃仁勛親筆簽名版 RTX 5090 鍍金顯卡以 24200 美元達成慈善拍賣

教育要聞

江蘇最新消息:6月28日填報志愿!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

手機要聞

三星Galaxy Z Fold7渲染圖曝光:很輕薄、相機明顯凸起

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 草草浮力地址线路①屁屁影院| 四虎永久在线精品国产馆v视影院| 精品久久久久成人码免费动漫| 国产日韩另类综合11页| 久久精品国产精品亚洲| 大肉大捧一进一出好爽视频mba| 亚洲人成无码网站| 精品无人国产偷自产在线| 国内精品久久久久久不卡影院| 精品香蕉一区二区三区| 99久久久无码国产精品aaa| 亚洲熟妇av午夜无码不卡| 狼色精品人妻在线视频免费| 国产欧美久久久精品影院| 无码三级中文字幕在线观看| 日本japanese丰满多毛| 久久精品一区二区三区四区| 亚洲一区二区三区av在线观看| 国产精品未满十八禁止观看| 成人无码精品1区2区3区免费看| 男女性高爱潮免费观看| 亂倫近親相姦中文字幕| 亚洲中文字幕无码天然素人在线| 妺妺窝人体色www聚色窝| 久久婷婷五月综合色和| 欧美色欧美亚洲高清在线视频| 曰欧一片内射vα在线影院| 亚洲色欲色欲综合网站| 国产又黄又硬又湿又黄的| 亚洲爆乳aaa无码专区| 美女啪啪网站又黄又免费| 精品国产一区二区三区香蕉| 日韩人妻无码一区二区三区久久99| 国产精品午夜无码体验区| 亚洲va成无码人在线观看天堂| 亚洲色欲色欲www在线播放| 无码国产成人午夜视频在线播放| 色婷婷综合久久久久中文一区二区| 国产 亚洲 制服 无码 中文| 97人摸人人澡人人人超碰| 国内女人喷潮完整视频|