網易首頁 > 網易號 > 正文申請入駐

谷歌大神首次揭秘Gemini預訓練秘密：52頁PPT干貨，推理成本成最重要因素

2025-04-28 15:01:16　來源: AI寒武紀

江蘇舉報

分享至

谷歌憑借Gemini 2.5 pro已經徹底翻身，經過這段時間各路大神的深度使用和評測，基本上已經鎖定大模型top1，除了優秀的寫作能力以外，編程能力更是打遍無敵手，最重要的Gemini一直以來基本是免費給所有人用，連API都免費

今天有幸看到了一份來自Google內部的技術分享，主講人是Vlad Feinberg，谷歌Gemini Flash Pretraining的負責人。這份PPT信息量爆炸，深入探討了Gemini預訓練背后的核心邏輯、挑戰以及未來方向，特別是如何在算力、數據、模型大小和推理成本之間找到那個微妙的平衡點。下面，我就帶大家深度解讀一下這份干貨，一探Gemini 背后的訓練故事

關于大模型的預訓，我們熟知的Scaling Laws（縮放定律）只是故事的一部分

ppt：

https://vladfeinberg.com/assets/2025-04-24-princeton-talk.pdf

一、告別“經驗主義”：從Kaplan到Chinchilla的認知革命

還記得大模型訓練的那個經典問題嗎？給你一筆固定的算力C（比如1000塊H100用30天），怎么訓練出最強的LLM？模型參數N該多大？訓練數據D該多少？

早期，大家主要參考Kaplan等人在2020年提出的Scaling Laws。他們的研究發現，模型性能與算力、參數量、數據量之間存在冪律關系，并且強烈建議優先擴大模型參數N。具體來說，算力提升10倍，參數N建議擴大5.37倍，而數據D只需擴大1.86倍。這直接點燃了軍備競賽，大家瘋狂堆參數

但是，Google DeepMind (GDM) 在2022年3月發布的Chinchilla（龍貓）論文，給這個“參數為王”的時代潑了一盆冷水

Chinchilla團隊指出，Kaplan的研究方法（基于單次訓練中的中間loss點來推斷）存在缺陷，忽略了學習率衰減等優化帶來的好處，只有最終的loss才最能反映模型真實水平

他們采用了更嚴謹的IsoFlops方法：

1. 固定總算力C
2. 訓練多個不同參數N的模型（對應不同的數據量D，因為C ≈ 6 * N * D）
3. 找到這個算力下，loss最低的那個模型N_opt(C)和D_opt(C)
4. 重復以上步驟，得到不同算力C下的最優(N, D)點
5. 擬合這些最優點的關系

Chinchilla的驚人發現是：模型參數N和數據量D應該以大致相同的速率（指數約為0.5）隨算力C增長！這意味著，按照Kaplan定律訓練出來的很多大模型，其實是“訓練不足（Undertrained）”的！模型太大，數據相對太少，潛力沒發揮出來。更糟糕的是，這些“虛胖”的大模型，推理成本極高，部署和使用起來非常昂貴

二、推理成本，不能承受之重！

為什么Chinchilla強調的“訓練不足”和推理成本如此重要？因為大模型最終是要用的！

看看Google內部的應用場景：

1.高通量服務：像搜索AI Overviews、免費的Gemini App（聊天機器人）、企業級Vertex AI平臺、AI Studio API等，用戶量巨大
2.實時交互：Project Astra、Project Mariner這類需要即時響應的多模態應用。

這些場景，尤其是實時交互，對模型的推理延遲有著極其苛刻的要求

Vlad Feinberg現場做了一個簡單的“餐巾紙計算”（Napkin Math）：假設一個需要實時交互的Web Agent，上下文128k，每次交互處理8k新token，生成128個token，要求延遲在1秒內，再去掉250毫秒的網絡和處理開銷... 用Llama3-70B這樣的模型在谷歌的v5e芯片上跑，光是處理8k新token（Prefill）就需要近6秒（單芯），即使動用4x4=16塊芯片并行，也才勉強壓到0.5秒左右。而生成階段（Decode）更是受到內存帶寬的嚴重制約，每生成一個token可能就需要好幾毫秒

結論：對于低延遲場景，70B參數的模型可能都太大了！我們需要更小、更快的模型，也就是像Gemini Flash/Flash-lite這樣的“小鋼炮”

傳統的Scaling Law研究，往往只關注訓練loss，完全忽略了推理成本，這在實際應用中是行不通的

三、邁向新范式：推理感知（Inference-Aware）的Scaling Laws

既然推理成本如此重要，有沒有更科學的方法來指導預訓練呢？答案是肯定的。

Sardana等人在2024年提出了“推理感知”的Scaling Laws。核心思想是：不再僅僅最小化訓練loss，而是要優化“總成本”，這個總成本包括了訓練成本和生命周期內的總推理成本

其數學形式更復雜，需要考慮訓練和推理使用的硬件（MFU不同）、輸入/輸出token量（D_inp, D_out）等因素

但結論很明確：

考慮到推理成本后，最優的模型往往比Chinchilla定律建議的更小，但需要用更多的數據（或重復訓練更久）！

當然，這種新范式也面臨挑戰：

1.硬件非同質性：訓練和推理芯片不同，成本難統一衡量
2.推理量D_inf難以預測：模型變好會刺激更多使用（杰文斯悖論），市場會擴張
3.Scaling Law擬合本身不完美：尤其在數據量極大或極小的情況下，擬合誤差可能很大

為了解決擬合問題，Muennighoff等人（2023）提出了考慮數據約束的Scaling Law，引入了唯一數據量U和重復次數R的概念 L(N, U, R)。研究發現，重復數據的收益會快速下降。這意味著，在數據有限的情況下，更小的模型對數據重復利用更有效

那如果數據“無限”呢？Llama3訓練了15T token還在提升，似乎說明對于開源模型，只要算力允許，可以一直用所有數據訓練下去。但這是否是最優策略？用數據受限定律可以反推，如果用更少、更精的數據，達到同樣效果能節省多少算力？達到Llama3 8B模型的loss，可能只需原來72%的算力

四、新維度：蒸餾與其他

除了模型大小、數據量、推理成本，模型蒸餾（Distillation）也成為了一個重要的研究方向。Busbridge等人（2025)正在研究蒸餾的Scaling Laws，試圖量化教師模型和學生模型之間的成本與性能關系

如何用有限的算力訓練出“小而精”的學生模型？教師模型的能力上限、學生模型的“容量差距”、蒸餾過程中的技巧（如溫度控制）等，都是需要探索的問題。一個有趣的觀點是，蒸餾本質上是一種方差縮減，好的教師模型能提供更穩定的學習信號，減少學生模型學習的“噪聲”。

觀點總結

總結一下Vlad Feinberg分享的核心觀點：

Scaling研究兩大方向：

1. 提升曲線：在給定的模型大小下，做到更好的性能
2. 增加斜率：讓模型性能隨規模增長得更快

Gemini的策略：類似“Tick-Tock”，用Flash版本追趕上一代Pro版本的性能，不斷優化推理效率

推理效率是關鍵：壓縮技術（更好的蒸餾、量化、服務友好型模型設計）與Scaling研究同等重要

低成本研究機遇：

硬件感知Kernel優化：為特定硬件寫算子，比如下一代Flash Attention

量化新前沿：超越傳統的向量量化

FunSearch類方法：用LLM輔助搜索更好的模型結構或訓練策略

更魯棒的Scaling Laws：引入更多維度（如數據質量、重復度），使用更嚴謹的統計模型（如MLE vs. 最小二乘），甚至用主動學習來選擇最優的(N, D)實驗點

如果你對這個話題感興趣，可以去查閱PPT中提到的幾篇關鍵論文（Kaplan 2020, Chinchilla 2022, Sardana 2024, Muennighoff 2023, Busbridge 2025等

ppt地址再次奉上：

https://vladfeinberg.com/assets/2025-04-24-princeton-talk.pdf

免責聲明：本文基于公開可獲取的Google內部技術分享PPT進行解讀，旨在傳遞技術信息，不代表Google官方立場。所有解讀基于博主個人理解，如有偏差敬請指正

?星標AI寒武紀，好內容不錯過?

用你的贊和在看告訴我～

求贊

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.