網易首頁 > 網易號 > 正文申請入駐

一句話生成任務專屬LoRA！Transformer作者創業公司顛覆LLM微調

2025-06-13 17:23:47　來源: 量子位

北京舉報

分享至

鷺羽發自凹非寺
量子位 | 公眾號 QbitAI

告別繁瑣微調，一句話就能生成LoRA？！

由Transformer作者之一Llion Jones聯合創立的明星AI公司SakanaAI，近期推出Text-to-LoRA（T2L），徹底簡化了模型適配流程：

現在，微調大模型時動輒數周的數據集準備、反復調整超參數的復雜流程，可以省了。

使用T2L生成的LoRA在參數壓縮率上可達80%卻僅降1.2%準確率，零樣本場景下更以78.3%的平均準確率超越現有SOTA方法。

可以說，“一句話定制模型”的時代正在開啟，非技術用戶不再需要學習復雜的微調知識，直接用通俗易懂的自然語言就可以完成相應工作。

有網友甚至把它比喻為LLM的一個只有文字描述的私人教練，將會徹底改變游戲規則。

目前該論文已被ICML2025收錄。

詳細內容如下：

從文本到LoRA

LLM在執行特定任務前，都需要先進行適配的LoRA微調，為每個任務單獨訓練低秩矩陣，往往耗費大量計算資源和時間。

研究團隊從人類視覺系統中汲取靈感，即在有限的感官線索下可以實現環境快速適應，并由此構建了能夠動態調制大模型的超網絡架構Text-to-LoRA（T2L）。

T2L包含3種架構變體，它們在輸出空間和參數規模上各有不同，具體為：

T2L-L：

為每個目標模塊（如注意力層、MLP 層）和網絡層生成完整的 LoRA 權重矩陣。

該架構的參數規模最大，但能靈活適配不同層的特性，適用于需要精細控制每層適配的場景。

T2L-M：

按模塊類型（而非具體層）共享輸出空間。對于同一類型的模塊，超網絡僅生成一組共享的LoRA矩陣，并應用于該類型下的所有層。

該架構通過參數共享減少了模型規模，同時保留了模塊類型級別的適配能力，在參數效率和性能之間取得平衡。

T2L-S：

為整個模型生成統一的LoRA適配器，不區分模塊類型和層索引。

該架構參數規模最小，適用于計算資源有限或任務需求較通用的場景，通過全局適配實現快速部署。

為了訓練T2L模型，可以采用兩種訓練模式，分別是基于LoRA的重建和跨多個任務的監督微調（SFT）。

LoRA重建的核心思想是讓T2L從任務的文本描述中，生成與真實LoRA適配器效果相近的參數，從而最大限度地減少生成適配器和目標適配器之間的重建損失。

這種方法避免了傳統方法中對大量任務數據的依賴，轉而利用已有的LoRA適配器和文本描述構建監督信號，壓縮了現有的LoRAs，但難以進行零鏡頭泛化。

而監督微調則是使用任務描述，在任務數據集上直接端到端訓練T2L。這改進了對未知任務的泛化，并能夠根據文本描述生成具有可引導行為的適配器。

針對T2L的適配器壓縮性能，團隊進行了實驗驗證。

通過設置9個不同的NLP任務，將一一對應的LoRA適配器參數壓縮為文本描述的嵌入向量，并通過3種T2L變體分別重建LoRA參數。

實驗發現，重建LoRA與原始LoRA相比，參數規模從15.8M下降為3.2M，壓縮率達80%，但在任務的平均準確率上僅下降了1.2%，證明了壓縮過程中的知識保留能力。

其中，T2L-L在壓縮后性能最接近原始LoRA，而T2L-S壓縮率最高。

T2L能夠實現高效的參數壓縮，可以極大地減少存儲需求，幫助LLM在資源受限環境中進行部署。

團隊還進一步驗證了T2L在零樣本場景下生成LoRA適配器的能力。

構建了12個全新的NLP任務并各自提供自然語言描述，使用T2L生成的對應LoRA適配器直接應用于基礎模型，測試其在標注數據集上的性能。

結果表明，T2L的平均準確率達到了78.3%，顯著高于多任務LoRA的65.1%，和目前最先進的零樣本LoRA路由方法Arrow Routing的72.4%。

其中T2L-L因為能夠為不同層定制參數，在復雜任務中表現最佳，而T2L-S在簡單任務上效率更高，參數規模僅為T2L-L的五分之一，但性能僅下降3.2%。

源于超網絡對 “文本語義 - 參數空間” 映射的顯式學習，T2L實現了真正的文本驅動，無需任務數據即可通過自然語言描述生成有效LoRA，這為模型快速適應長尾任務提供了可能。

Transformer作者創業公司

背后的公司Sakana AI，由前谷歌研究人員Llion Jones于2023年7月共同創立。

Llion Jones是著名論文《Attention Is All You Need》的8位核心作者之一，論文中首次提出了Transformer架構，為現代LLM架構奠定了基石。

在谷歌工作期間，他還深度參與NLP、模型架構創新等眾多核心AI項目，例如Prot Trans、Tensor2Tensor等。

而創辦Sakana AI后，他也始終致力于探索超越和補充當前Transformer范式的新路徑，例如他們在去年底推出了用于Transformer的新型神經記憶系統NAMM，今年1月提出的Transformer2可以針對各種任務動態調整權重。

目前公司專注利用自然啟發的方法（如進化計算和集體智能）來開發基礎模型，例如在今年5月他們根據達爾文進化論提出了達爾文哥德爾機（DGM），可以讓AI通過讀取和修改自身代碼來提升編碼性能。

而本篇論文則由Rujikorn Charakorn、Edoardo Cetin、Yujin Tang、Robert T. Lange共同完成。

Rujikorn Charakorn曾在朱拉隆功大學就讀，目前在VISTEC研究所攻讀博士學位，主要研究方向是深度強化學習、多智能體學習和元學習。

Edoardo Cetin于2023年獲得倫敦國王學院的博士學位，目前是Sakana AI的研究科學家，此前還曾在推特的Cortex團隊、豐田和高盛實習。

而Yujin Tang則博士畢業于東京大學，曾在谷歌工作長達5年，后來于2024年加入Sakana AI。

Robert T. Lange是Sakana AI的研究科學家和創始成員之一，致力于用基礎模型來增強和自動化科學發現過程。

他還主導參與了首個獨立生成學術論文的“AI科學家”項目，還曾在社區引起廣泛熱議。

論文鏈接：https://arxiv.org/abs/2506.06105
代碼鏈接：https://github.com/SakanaAI/Text-to-Lora

參考鏈接：
[1]https://x.com/RobertTLange/status/1933074366603919638
[2]https://huggingface.co/SakanaAI/text-to-lora/tree/main
[3]https://x.com/tan51616/status/1932987022907670591
[4]https://x.com/SakanaAILabs/status/1932972420522230214

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.