谷歌憑借Gemini 2.5 pro已經徹底翻身,經過這段時間各路大神的深度使用和評測,基本上已經鎖定大模型top1,除了優秀的寫作能力以外,編程能力更是打遍無敵手,最重要的Gemini一直以來基本是免費給所有人用,連API都免費
今天有幸看到了一份來自Google內部的技術分享,主講人是Vlad Feinberg,谷歌Gemini Flash Pretraining的負責人。這份PPT信息量爆炸,深入探討了Gemini預訓練背后的核心邏輯、挑戰以及未來方向,特別是如何在算力、數據、模型大小和推理成本之間找到那個微妙的平衡點。下面,我就帶大家深度解讀一下這份干貨,一探Gemini 背后的訓練故事
關于大模型的預訓,我們熟知的Scaling Laws(縮放定律)只是故事的一部分
ppt:
https://vladfeinberg.com/assets/2025-04-24-princeton-talk.pdf
一、告別“經驗主義”:從Kaplan到Chinchilla的認知革命
還記得大模型訓練的那個經典問題嗎?給你一筆固定的算力C(比如1000塊H100用30天),怎么訓練出最強的LLM?模型參數N該多大?訓練數據D該多少?
早期,大家主要參考Kaplan等人在2020年提出的Scaling Laws。他們的研究發現,模型性能與算力、參數量、數據量之間存在冪律關系,并且強烈建議優先擴大模型參數N。具體來說,算力提升10倍,參數N建議擴大5.37倍,而數據D只需擴大1.86倍。這直接點燃了軍備競賽,大家瘋狂堆參數
但是,Google DeepMind (GDM) 在2022年3月發布的Chinchilla(龍貓)論文,給這個“參數為王”的時代潑了一盆冷水
Chinchilla團隊指出,Kaplan的研究方法(基于單次訓練中的中間loss點來推斷)存在缺陷,忽略了學習率衰減等優化帶來的好處,只有最終的loss才最能反映模型真實水平
他們采用了更嚴謹的IsoFlops方法:
1. 固定總算力C
2. 訓練多個不同參數N的模型(對應不同的數據量D,因為C ≈ 6 * N * D)
3. 找到這個算力下,loss最低的那個模型N_opt(C)和D_opt(C)
4. 重復以上步驟,得到不同算力C下的最優(N, D)點
5. 擬合這些最優點的關系
Chinchilla的驚人發現是:模型參數N和數據量D應該以大致相同的速率(指數約為0.5)隨算力C增長! 這意味著,按照Kaplan定律訓練出來的很多大模型,其實是“訓練不足(Undertrained)”的!模型太大,數據相對太少,潛力沒發揮出來。更糟糕的是,這些“虛胖”的大模型,推理成本極高,部署和使用起來非常昂貴
二、推理成本,不能承受之重!
為什么Chinchilla強調的“訓練不足”和推理成本如此重要?因為大模型最終是要用的!
看看Google內部的應用場景:
1.高通量服務:像搜索AI Overviews、免費的Gemini App(聊天機器人)、企業級Vertex AI平臺、AI Studio API等,用戶量巨大
2.實時交互:Project Astra、Project Mariner這類需要即時響應的多模態應用。
這些場景,尤其是實時交互,對模型的推理延遲有著極其苛刻的要求
Vlad Feinberg現場做了一個簡單的“餐巾紙計算”(Napkin Math):假設一個需要實時交互的Web Agent,上下文128k,每次交互處理8k新token,生成128個token,要求延遲在1秒內,再去掉250毫秒的網絡和處理開銷... 用Llama3-70B這樣的模型在谷歌的v5e芯片上跑,光是處理8k新token(Prefill)就需要近6秒(單芯),即使動用4x4=16塊芯片并行,也才勉強壓到0.5秒左右。而生成階段(Decode)更是受到內存帶寬的嚴重制約,每生成一個token可能就需要好幾毫秒
結論:對于低延遲場景,70B參數的模型可能都太大了! 我們需要更小、更快的模型,也就是像Gemini Flash/Flash-lite這樣的“小鋼炮”
傳統的Scaling Law研究,往往只關注訓練loss,完全忽略了推理成本,這在實際應用中是行不通的
三、邁向新范式:推理感知(Inference-Aware)的Scaling Laws
既然推理成本如此重要,有沒有更科學的方法來指導預訓練呢?答案是肯定的。
Sardana等人在2024年提出了“推理感知”的Scaling Laws。核心思想是:不再僅僅最小化訓練loss,而是要優化“總成本”,這個總成本包括了訓練成本和生命周期內的總推理成本
其數學形式更復雜,需要考慮訓練和推理使用的硬件(MFU不同)、輸入/輸出token量(D_inp, D_out)等因素
但結論很明確:
考慮到推理成本后,最優的模型往往比Chinchilla定律建議的更小,但需要用更多的數據(或重復訓練更久)!
當然,這種新范式也面臨挑戰:
1.硬件非同質性:訓練和推理芯片不同,成本難統一衡量
2.推理量D_inf難以預測:模型變好會刺激更多使用(杰文斯悖論),市場會擴張
3.Scaling Law擬合本身不完美:尤其在數據量極大或極小的情況下,擬合誤差可能很大
為了解決擬合問題,Muennighoff等人(2023)提出了考慮數據約束的Scaling Law,引入了唯一數據量U和重復次數R的概念 L(N, U, R)。研究發現,重復數據的收益會快速下降。這意味著,在數據有限的情況下,更小的模型對數據重復利用更有效
那如果數據“無限”呢?Llama3訓練了15T token還在提升,似乎說明對于開源模型,只要算力允許,可以一直用所有數據訓練下去。但這是否是最優策略?用數據受限定律可以反推,如果用更少、更精的數據,達到同樣效果能節省多少算力?達到Llama3 8B模型的loss,可能只需原來72%的算力
四、新維度:蒸餾與其他
除了模型大小、數據量、推理成本,模型蒸餾(Distillation)也成為了一個重要的研究方向。Busbridge等人(2025)正在研究蒸餾的Scaling Laws,試圖量化教師模型和學生模型之間的成本與性能關系
如何用有限的算力訓練出“小而精”的學生模型?教師模型的能力上限、學生模型的“容量差距”、蒸餾過程中的技巧(如溫度控制)等,都是需要探索的問題。一個有趣的觀點是,蒸餾本質上是一種方差縮減,好的教師模型能提供更穩定的學習信號,減少學生模型學習的“噪聲”。
觀點總結
總結一下Vlad Feinberg分享的核心觀點:
Scaling研究兩大方向:
1. 提升曲線:在給定的模型大小下,做到更好的性能
2. 增加斜率:讓模型性能隨規模增長得更快
Gemini的策略:類似“Tick-Tock”,用Flash版本追趕上一代Pro版本的性能,不斷優化推理效率
推理效率是關鍵:壓縮技術(更好的蒸餾、量化、服務友好型模型設計)與Scaling研究同等重要
低成本研究機遇:
硬件感知Kernel優化:為特定硬件寫算子,比如下一代Flash Attention
量化新前沿:超越傳統的向量量化
FunSearch類方法:用LLM輔助搜索更好的模型結構或訓練策略
更魯棒的Scaling Laws:引入更多維度(如數據質量、重復度),使用更嚴謹的統計模型(如MLE vs. 最小二乘),甚至用主動學習來選擇最優的(N, D)實驗點
如果你對這個話題感興趣,可以去查閱PPT中提到的幾篇關鍵論文(Kaplan 2020, Chinchilla 2022, Sardana 2024, Muennighoff 2023, Busbridge 2025等
ppt地址再次奉上:
https://vladfeinberg.com/assets/2025-04-24-princeton-talk.pdf
免責聲明:本文基于公開可獲取的Google內部技術分享PPT進行解讀,旨在傳遞技術信息,不代表Google官方立場。所有解讀基于博主個人理解,如有偏差敬請指正
?星標AI寒武紀,好內容不錯過?
用你的贊和在看告訴我~
求贊
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.