大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

最新發現!每參數3.6比特,語言模型最多能記住這么多

0
分享至



機器之心報道

編輯:+0、張倩

GPT 系列模型的記憶容量約為每個參數 3.6 比特。

語言模型到底能記住多少信息?Meta、DeepMind、康奈爾大學和英偉達的一項測量結果顯示:每個參數大約 3.6 比特。一旦達到這個極限,它們就會停止記憶并開始泛化。



長期以來,記憶與泛化之間的模糊性一直困擾著對模型能力和風險的評估,即區分其輸出究竟源于對訓練數據的「記憶」 (對其訓練數據分布的編碼程度) ,還是對潛在模式的「泛化」理解 (將理解擴展到未見過的新輸入)。 這種不確定性阻礙了在模型訓練、安全、可靠性和關鍵應用部署方面的針對性改進。

這就好比我們想知道一個學生考試得了高分,是因為他真的理解了知識點(泛化),能夠舉一反三,還是僅僅因為他把教科書上的例題和答案都背下來了(記憶)。

基于此,研究團隊提出了一種新方法,用于估計一個模型對某個數據點的「了解」程度,并利用該方法來衡量現代語言模型的容量。



  • 論文標題:How much do language models memorize?
  • 論文地址:https://arxiv.org/pdf/2505.24832

研究團隊從形式上將記憶分為兩個組成部分:

  • 非預期記憶—— 模型包含的關于特定數據集的信息;
  • 泛化—— 模型包含的關于真實數據生成過程的信息。

通過消除泛化部分,可以計算出給定模型的總記憶量,從而估計出模型容量:測量結果估計,GPT 系列模型的容量約為每個參數 3.6 比特

研究團隊在規模不斷增大的數據集上訓練語言模型,觀察到模型會持續記憶,直到其容量飽和,此時「頓悟」(grokking)現象開始出現,非預期記憶隨之減少,模型開始泛化。也就是說,在海量數據上訓練的語言模型根本不可能記住所有訓練數據,因為根本沒有足夠的容量。



研究團隊訓練了數百個參數量從 50 萬到 15 億不等的 Transformer 語言模型,并由此提出了一系列關于模型容量、數據規模與成員推斷之間關系的 scaling law。

研究團隊還借鑒了「信息論之父」 Claude Shannon 1953 的一項重要工作《The Lattice Theory of Information》的一些理論。該論文將他早期關于信息論中熵和信道容量的概念,與數學中的格理論聯系起來,為理解和處理復雜信息系統提供了新的視角。

這項研究激發了社區對蒸餾、量化、模型安全等方面的思考。









兩種「記憶」:非預期記憶和泛化

在論文中,作者希望找到一個方法來量化模型對特定數據點的記憶程度,并且這種記憶定義要滿足以下幾點:

  • 與泛化區分開;
  • 能夠針對具體的數據樣本;
  • 不依賴于具體的訓練算法;

統計學視角下的記憶定義

作者從信息論的角度出發,利用「互信息(Mutual Information)」來定義記憶。

在論文中,大寫字母(例如 X、Θ)用來指代隨機變量,小寫字母用來指代隨機變量的實例(例如 x ~ X 和 θ ~ Θ)。

信息論已經為隨機變量發展出了被廣泛理解的信息概念。對于隨機變量 X,通常使用 H (X),即 X 的熵,來定義 X 中存在的信息量。此外,對于兩個不同的隨機變量 X、Y,可以將 X | Y 定義為在固定 Y 后 X 中剩余的不確定性。定義了這個量之后,現在可以通過從總信息中減去剩余信息來測量 X 和 Y 之間的互信息:I (X, Y) = H (X) ? H (X | Y)。

現在假設有一個機器學習 pipeline。作者有一個關于底層模型的先驗 Θ,它捕獲了作者的數據集分布 X。作者有一個學習算法 L,它將來自 X 的樣本映射到訓練好的模型 。為了理解有多少關于 X 的信息存儲在 中,作者可以使用互信息的概念:



注意這捕獲了存儲在 中的關于 X 的所有信息。正如前面所討論的,記憶的概念需要同時考慮泛化。因此,當測量非預期記憶時,作者只對 X | Θ 中存在的信息感興趣,這是在固定 Θ 后 X 中剩余的不確定性。

因此,可以將非預期記憶化定義為:



然后泛化(或預期記憶)應該是:



現在作者已經定義預期和非預期記憶的概念,作者將注意力轉向實際測量它們。讓作者首先陳述一個能夠非預期記憶的命題:

命題 1(非預期記憶的 Super-additivity)。 假設 X = (X_1, . . . , X_n) 是 n 個獨立同分布樣本的數據集。作者有:



這個命題表明,為了測量數據集級別非預期記憶的下界,可以將每個樣本的記憶相加。另一方面,訓練模型本身的信息內容的熵作為非預期記憶的上界。這個命題的另一個含義是,非預期記憶應該隨數據集大小 scale,但不能超過模型的總容量。

用 Kolmogorov 復雜度測量非預期記憶



用似然度估計 Kolmogorov 復雜度

確定了 Kolmogorov 記憶概念后,現在描述如何在不同設置中估計 H^K。注意,Kolmogorov 復雜度的精確計算是已知不可計算的(其判定版本是不可判定的)。然而,仍然可以使用最佳可用壓縮方案來近似它。在論文中, 作者總結了如何近似定義中的每個項。

模型記憶容量

非預期記憶為作者提供了一種有原則的方法,用以衡量模型 θ 對某一數據點 x 所掌握的確切比特數。

如果將數據集中每個數據點的信息加起來,就可以衡量模型對整個數據集所掌握的總比特數。并且,在由于每個數據點完全獨立而無法進行泛化的情況下,可以通過對每個數據點的非預期記憶進行求和來估計給定模型 θ 的容量。

定義模型容量

作者首先對特定語言模型 θ 的這種記憶容量概念進行形式化。容量是指在 θ 的所有參數中可以存儲的記憶總量。





用合成序列測量模型容量



實驗

實驗結果

圖 2 展示了不同模型規模和數據量下的記憶情況。這樣,便可以將不同數據集規模 (x 軸) 下的非預期記憶量 (y 軸) 進行可視化,并按模型規模 (線條顏色) 分組。研究中觀察到,一旦模型達到其容量上限,便會出現一個明顯的平臺期。當數據集足夠大時,無論數據規模如何,模型的凈記憶量都會達到一個上限。對于容量充足的模型而言,小型數據集會被完全記憶。



文中將每個模型的容量,估計為在所有數據集規模上測得的最大非預期記憶比特數。隨后,在圖 6 中將這一容量與模型規模進行了比較。有趣的是,即便在當前這種小規模實驗中,也能觀察到所測容量(即在所有數據集上測得的最大記憶量)與模型參數數量之間,存在一種非常平滑的對應關系。圖 6 中呈現了這種關系:在當前的實驗設置下,文中所述模型每參數能穩定記憶 3.5 至 3.6 比特的信息。



這印證了先前研究的發現,即事實性信息的存儲量與模型容量成線性關系。文中的估計值略高于 Allen-Zhu & Li (2024) 的結果 —— 他們通過量化方法估計模型每參數約可存儲 2 比特信息。

由于模型是通過梯度下降進行學習的,因此并不能保證找到全局最優解;所以,作者所測量的始終是模型容量的一個下限。作者進一步仔細研究了訓練曲線,以分析一個包含 800 萬參數的語言模型的收斂情況。圖 6 展示了模型在訓練過程中的收斂動態。

可以看到,對于樣本量從 16,000 到 400 萬的各個數據集,其記憶的比特數均在 3.56×10^6 到 3.65×10^6 的范圍內。這表明測量結果在一個數量級內具有穩健性,并且作者認為,即使進行更多的訓練迭代,模型能記憶的信息量也不會有顯著增加。這一發現也印證了作者的假設:即模型的容量與參數數量大致成正比。

其中,兩個最大的數據集(樣本量分別為 400 萬和 800 萬),其收斂后的總記憶量分別為 2.95×10^6 和 1.98×10^6 比特。作者預計,若進行更多輪次的訓練,這些模型所記憶的數據總量將繼續向其容量上限增長。

精度如何影響容量?

一個很自然的問題是:對 α 的估計值,在多大程度上取決于語言模型訓練時所用的精度?

事實上,盡管多數軟件默認采用 32 位精度進行訓練,但近期研究已表明,即使將語言模型量化到每參數不足 2 比特的水平,它們仍能保留大部分原有功用。

鑒于所有其他實驗均在 bfloat16 精度下進行,作者特地在完整的 fp32 精度下重做了這些實驗,以分析其對容量的影響。

結果顯示,對于不同規模的模型,容量均略有提升,α 的平均值也從 3.51 比特 / 參數增加到了 3.83 比特 / 參數。

這一增幅遠不及參數 θ 比特數實際達到的兩倍增長,這表明,當精度從 bfloat16 提升至 float32 時,模型中增加的額外比特,大部分并未被用于原始數據的存儲。

更多信息請參見原文。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
專家預言:“伊朗半小時滅掉以色列”

專家預言:“伊朗半小時滅掉以色列”

難得君
2025-06-14 20:24:25
原來劉強東老婆現實中長這樣,身材有點干癟。

原來劉強東老婆現實中長這樣,身材有點干癟。

情感大頭說說
2025-06-14 03:14:08
湖北一縣政協主席任上被查!曾任紀委書記

湖北一縣政協主席任上被查!曾任紀委書記

瀟湘晨報
2025-06-15 09:52:10
今年11月起,中國公民持有效澳大利亞簽證可免簽入境新西蘭

今年11月起,中國公民持有效澳大利亞簽證可免簽入境新西蘭

界面新聞
2025-06-15 09:39:47
以色列國家安全總局局長巴爾宣布辭職

以色列國家安全總局局長巴爾宣布辭職

新京報
2025-06-15 07:30:02
啪啪打臉!買房圖便宜后悔了,深圳一樓盤業主掛“吵”字橫幅抗議

啪啪打臉!買房圖便宜后悔了,深圳一樓盤業主掛“吵”字橫幅抗議

火山詩話
2025-06-15 06:07:29
梅西的影響力?世俱杯首戰上座觀眾人數:60927人

梅西的影響力?世俱杯首戰上座觀眾人數:60927人

雷速體育
2025-06-15 10:03:27
國家級健身教練唐博濤去世,僅37歲,滿身肌肉很健碩,死因疑曝光

國家級健身教練唐博濤去世,僅37歲,滿身肌肉很健碩,死因疑曝光

180視角
2025-06-14 12:20:45
已確認!是知名演員朱一龍!

已確認!是知名演員朱一龍!

掌中邯鄲
2025-06-15 07:04:44
局勢突變!中國深夜發出警告,俄羅斯聲明立即結束會談!

局勢突變!中國深夜發出警告,俄羅斯聲明立即結束會談!

一個有靈魂的作者
2025-06-14 22:17:44
伊朗不再藏后手,2000枚導彈已搬上發射架?以色列領導層經不起炸

伊朗不再藏后手,2000枚導彈已搬上發射架?以色列領導層經不起炸

梁訊
2025-06-15 09:10:07
設計院被舉報使用盜版CAD,被一鍋端!

設計院被舉報使用盜版CAD,被一鍋端!

黯泉
2025-06-14 22:10:35
李連杰宣布跟41歲兒子父親節重聚,久別30年攬實眼濕濕

李連杰宣布跟41歲兒子父親節重聚,久別30年攬實眼濕濕

快樂的小青瓦
2025-06-14 15:03:39
上海專家發現:吃甜食的老人,健康指數是吃蔬菜的人的5倍不止?

上海專家發現:吃甜食的老人,健康指數是吃蔬菜的人的5倍不止?

華庭講美食
2025-06-14 13:52:03
印度曝光!中印在藏南交火,中國軍人一個動作感動14億國人

印度曝光!中印在藏南交火,中國軍人一個動作感動14億國人

Ck的蜜糖
2025-06-15 01:51:14
恥辱!香港運動員奪冠拒唱國歌,這樣的運動員不止一個

恥辱!香港運動員奪冠拒唱國歌,這樣的運動員不止一個

柳絮憶史
2025-06-14 07:10:03
18月齡幼童被飯店客人灌50毫升啤酒,面部浮腫、身體多處皮疹!律師回應

18月齡幼童被飯店客人灌50毫升啤酒,面部浮腫、身體多處皮疹!律師回應

極目新聞
2025-06-14 10:41:22
63歲吳鎮宇新造型絕了,沒有老人味還越來越年輕了,至少年輕30歲

63歲吳鎮宇新造型絕了,沒有老人味還越來越年輕了,至少年輕30歲

手工制作阿殲
2025-06-15 08:44:14
突發!蒼井空確認復出,你最希望看到她的什么?

突發!蒼井空確認復出,你最希望看到她的什么?

閑侃閑侃
2025-06-15 07:16:55
1-2!鄭欽文輸球內情曝光,賽后眼眶含淚,對手采訪說到了關鍵

1-2!鄭欽文輸球內情曝光,賽后眼眶含淚,對手采訪說到了關鍵

侃球熊弟
2025-06-15 00:02:53
2025-06-15 10:56:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10640文章數 142338關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

印度空難幸存者:機身撞出巨大裂口 爬出去后發生爆炸

頭條要聞

印度空難幸存者:機身撞出巨大裂口 爬出去后發生爆炸

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

鳳凰傳奇曾毅塌房?網友:別連累玲花

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

游戲
健康
親子
房產
公開課

《誅仙世界》首次回應銀價暴跌;騰訊網易紛紛做出違背祖訓的決定

呼吸科專家破解呼吸道九大謠言!

親子要聞

父親節快樂!海渡陽翔越來越棒啦,亞亞非常欣慰

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 四房播色综合久久婷婷| 色综合天天综合网国产成人网| 中文字幕人妻无码一夲道| 色综合色综合久久综合频道88| 窝窝午夜看片成人精品| 三级4级全黄60分钟| 久久久久国产综合av天堂| 人妻美妇疯狂迎合| 人人添人人妻人人爽夜欢视av| 国产精品久久久久电影院| 人妻精品人妻无码一区二区三区| 亚洲国产精品无码aaa片| 久久久久亚洲精品无码系列| 欧美怡红院免费全部视频| 人人妻人人做人人爽| 大香伊蕉在人线国产免费| 一本一道av无码中文字幕麻豆| 日韩av在线观看免费| 国产精品点击进入在线影院高清| 国产精品高清一区二区不卡片| 粗大的内捧猛烈进出| 国产精品兄妹在线观看麻豆| 处破痛哭a√18成年片免费| 成人婷婷网色偷偷亚洲男人的天堂| 无码喷潮a片无码高潮| 好吊色欧美一区二区三区视频| 亚洲大色堂人在线视频| 亚洲国产精品日本无码网站| 亚洲精品国产福利一区二区| 日韩精人妻无码一区二区三区| 天堂а√在线中文在线| 人妻少妇精品视中文字幕国语| 无码精品国产va在线观看| 精品少妇一区二区三区免费观| 男人的天堂中文字幕熟女人妻| 少妇高潮惨叫久久久久久电影| 美女内射毛片在线看3d| 麻豆国产97在线 | 中国| 米奇777四色精品人人爽| 国产成人情侣激情视频| 男男gv白嫩小受gv在线播放|