大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

谷歌大神首次揭秘Gemini預訓練秘密:52頁PPT干貨,推理成本成最重要因素

0
分享至


谷歌憑借Gemini 2.5 pro已經徹底翻身,經過這段時間各路大神的深度使用和評測,基本上已經鎖定大模型top1,除了優秀的寫作能力以外,編程能力更是打遍無敵手,最重要的Gemini一直以來基本是免費給所有人用,連API都免費

今天有幸看到了一份來自Google內部的技術分享,主講人是Vlad Feinberg,谷歌Gemini Flash Pretraining的負責人。這份PPT信息量爆炸,深入探討了Gemini預訓練背后的核心邏輯、挑戰以及未來方向,特別是如何在算力、數據、模型大小和推理成本之間找到那個微妙的平衡點。下面,我就帶大家深度解讀一下這份干貨,一探Gemini 背后的訓練故事

關于大模型的預訓,我們熟知的Scaling Laws(縮放定律)只是故事的一部分

ppt:

https://vladfeinberg.com/assets/2025-04-24-princeton-talk.pdf


一、告別“經驗主義”:從Kaplan到Chinchilla的認知革命

還記得大模型訓練的那個經典問題嗎?給你一筆固定的算力C(比如1000塊H100用30天),怎么訓練出最強的LLM?模型參數N該多大?訓練數據D該多少?

早期,大家主要參考Kaplan等人在2020年提出的Scaling Laws。他們的研究發現,模型性能與算力、參數量、數據量之間存在冪律關系,并且強烈建議優先擴大模型參數N。具體來說,算力提升10倍,參數N建議擴大5.37倍,而數據D只需擴大1.86倍。這直接點燃了軍備競賽,大家瘋狂堆參數


但是,Google DeepMind (GDM) 在2022年3月發布的Chinchilla(龍貓)論文,給這個“參數為王”的時代潑了一盆冷水

Chinchilla團隊指出,Kaplan的研究方法(基于單次訓練中的中間loss點來推斷)存在缺陷,忽略了學習率衰減等優化帶來的好處,只有最終的loss才最能反映模型真實水平

他們采用了更嚴謹的IsoFlops方法

  1. 1. 固定總算力C

  2. 2. 訓練多個不同參數N的模型(對應不同的數據量D,因為C ≈ 6 * N * D)

  3. 3. 找到這個算力下,loss最低的那個模型N_opt(C)和D_opt(C)

  4. 4. 重復以上步驟,得到不同算力C下的最優(N, D)點

  5. 5. 擬合這些最優點的關系


Chinchilla的驚人發現是:模型參數N和數據量D應該以大致相同的速率(指數約為0.5)隨算力C增長! 這意味著,按照Kaplan定律訓練出來的很多大模型,其實是“訓練不足(Undertrained)”的!模型太大,數據相對太少,潛力沒發揮出來。更糟糕的是,這些“虛胖”的大模型,推理成本極高,部署和使用起來非常昂貴


二、推理成本,不能承受之重!

為什么Chinchilla強調的“訓練不足”和推理成本如此重要?因為大模型最終是要用的!

看看Google內部的應用場景:

  1. 1.高通量服務:像搜索AI Overviews、免費的Gemini App(聊天機器人)、企業級Vertex AI平臺、AI Studio API等,用戶量巨大

  2. 2.實時交互:Project Astra、Project Mariner這類需要即時響應的多模態應用。

這些場景,尤其是實時交互,對模型的推理延遲有著極其苛刻的要求

Vlad Feinberg現場做了一個簡單的“餐巾紙計算”(Napkin Math):假設一個需要實時交互的Web Agent,上下文128k,每次交互處理8k新token,生成128個token,要求延遲在1秒內,再去掉250毫秒的網絡和處理開銷... 用Llama3-70B這樣的模型在谷歌的v5e芯片上跑,光是處理8k新token(Prefill)就需要近6秒(單芯),即使動用4x4=16塊芯片并行,也才勉強壓到0.5秒左右。而生成階段(Decode)更是受到內存帶寬的嚴重制約,每生成一個token可能就需要好幾毫秒

結論:對于低延遲場景,70B參數的模型可能都太大了! 我們需要更小、更快的模型,也就是像Gemini Flash/Flash-lite這樣的“小鋼炮”


傳統的Scaling Law研究,往往只關注訓練loss,完全忽略了推理成本,這在實際應用中是行不通的

三、邁向新范式:推理感知(Inference-Aware)的Scaling Laws

既然推理成本如此重要,有沒有更科學的方法來指導預訓練呢?答案是肯定的。

Sardana等人在2024年提出了“推理感知”的Scaling Laws。核心思想是:不再僅僅最小化訓練loss,而是要優化“總成本”,這個總成本包括了訓練成本和生命周期內的總推理成本

其數學形式更復雜,需要考慮訓練和推理使用的硬件(MFU不同)、輸入/輸出token量(D_inp, D_out)等因素


結論很明確:

考慮到推理成本后,最優的模型往往比Chinchilla定律建議的更小,但需要用更多的數據(或重復訓練更久)!


當然,這種新范式也面臨挑戰:

  1. 1.硬件非同質性:訓練和推理芯片不同,成本難統一衡量

  2. 2.推理量D_inf難以預測:模型變好會刺激更多使用(杰文斯悖論),市場會擴張

  3. 3.Scaling Law擬合本身不完美:尤其在數據量極大或極小的情況下,擬合誤差可能很大

為了解決擬合問題,Muennighoff等人(2023)提出了考慮數據約束的Scaling Law,引入了唯一數據量U和重復次數R的概念 L(N, U, R)。研究發現,重復數據的收益會快速下降。這意味著,在數據有限的情況下,更小的模型對數據重復利用更有效


那如果數據“無限”呢?Llama3訓練了15T token還在提升,似乎說明對于開源模型,只要算力允許,可以一直用所有數據訓練下去。但這是否是最優策略?用數據受限定律可以反推,如果用更少、更精的數據,達到同樣效果能節省多少算力?達到Llama3 8B模型的loss,可能只需原來72%的算力

四、新維度:蒸餾與其他

除了模型大小、數據量、推理成本,模型蒸餾(Distillation)也成為了一個重要的研究方向。Busbridge等人(2025)正在研究蒸餾的Scaling Laws,試圖量化教師模型和學生模型之間的成本與性能關系

如何用有限的算力訓練出“小而精”的學生模型?教師模型的能力上限、學生模型的“容量差距”、蒸餾過程中的技巧(如溫度控制)等,都是需要探索的問題。一個有趣的觀點是,蒸餾本質上是一種方差縮減,好的教師模型能提供更穩定的學習信號,減少學生模型學習的“噪聲”。

觀點總結

總結一下Vlad Feinberg分享的核心觀點:

Scaling研究兩大方向

  1. 1. 提升曲線:在給定的模型大小下,做到更好的性能

  2. 2. 增加斜率:讓模型性能隨規模增長得更快

Gemini的策略:類似“Tick-Tock”,用Flash版本追趕上一代Pro版本的性能,不斷優化推理效率

推理效率是關鍵:壓縮技術(更好的蒸餾、量化、服務友好型模型設計)與Scaling研究同等重要

低成本研究機遇

硬件感知Kernel優化:為特定硬件寫算子,比如下一代Flash Attention

量化新前沿:超越傳統的向量量化

FunSearch類方法:用LLM輔助搜索更好的模型結構或訓練策略

更魯棒的Scaling Laws:引入更多維度(如數據質量、重復度),使用更嚴謹的統計模型(如MLE vs. 最小二乘),甚至用主動學習來選擇最優的(N, D)實驗點


如果你對這個話題感興趣,可以去查閱PPT中提到的幾篇關鍵論文(Kaplan 2020, Chinchilla 2022, Sardana 2024, Muennighoff 2023, Busbridge 2025等

ppt地址再次奉上:

https://vladfeinberg.com/assets/2025-04-24-princeton-talk.pdf

免責聲明:本文基于公開可獲取的Google內部技術分享PPT進行解讀,旨在傳遞技術信息,不代表Google官方立場。所有解讀基于博主個人理解,如有偏差敬請指正

?星標AI寒武紀,好內容不錯過?

用你的在看告訴我~

求贊

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
瘋狂一夜!3年3900萬簽約達成,杜蘭特下家2選1,FMVP榜更新

瘋狂一夜!3年3900萬簽約達成,杜蘭特下家2選1,FMVP榜更新

體壇小李
2025-06-15 08:14:43
羅帥宇的通報來了,真相終于大白

羅帥宇的通報來了,真相終于大白

大張的自留地
2025-06-14 08:39:21
局勢突變!中國深夜發出警告,俄羅斯聲明立即結束會談!

局勢突變!中國深夜發出警告,俄羅斯聲明立即結束會談!

一個有靈魂的作者
2025-06-14 22:17:44
以色列空襲也門胡塞武裝領導人住所

以色列空襲也門胡塞武裝領導人住所

新華社
2025-06-15 07:34:15
反轉!湖州被抗癌女孩救活的那家面包店,全是自編自導,馬上關店

反轉!湖州被抗癌女孩救活的那家面包店,全是自編自導,馬上關店

小人物看盡人間百態
2025-06-14 16:31:58
啪啪打臉!買房圖便宜后悔了,深圳一樓盤業主掛“吵”字橫幅抗議

啪啪打臉!買房圖便宜后悔了,深圳一樓盤業主掛“吵”字橫幅抗議

火山詩話
2025-06-15 06:07:29
一套虧650萬!廣州天河駿景花園從7.4萬到現在4萬,炒房客懵了

一套虧650萬!廣州天河駿景花園從7.4萬到現在4萬,炒房客懵了

小人物看盡人間百態
2025-06-15 06:10:06
茅臺經銷商慌了!有評論分析,飛天若到1900元,多數經銷商要賠錢

茅臺經銷商慌了!有評論分析,飛天若到1900元,多數經銷商要賠錢

火山詩話
2025-06-14 17:28:45
7國加入戰場,伊朗要被群毆?局勢變成5對2,中方不再靜觀其變

7國加入戰場,伊朗要被群毆?局勢變成5對2,中方不再靜觀其變

阿傖說事
2025-06-14 23:10:38
國防科大馬駿教授,違背了常識和理性,一派胡言惹眾怒

國防科大馬駿教授,違背了常識和理性,一派胡言惹眾怒

平老師666
2025-06-14 22:45:40
伊朗領導人正在集體逃離伊朗-三架客機于凌晨緊急升空飛俄等地

伊朗領導人正在集體逃離伊朗-三架客機于凌晨緊急升空飛俄等地

桂系007
2025-06-14 22:02:39
蘇超最新積分榜公布

蘇超最新積分榜公布

現代快報
2025-06-14 21:17:08
國內頂尖洞穴潛水員在廣西洞潛時去世,好友:你的生命絢麗多姿,充滿了堅韌和激情

國內頂尖洞穴潛水員在廣西洞潛時去世,好友:你的生命絢麗多姿,充滿了堅韌和激情

極目新聞
2025-06-14 21:59:44
羅帥宇墜亡案迎來新進展:家屬發聲,衛健委、公安介入!

羅帥宇墜亡案迎來新進展:家屬發聲,衛健委、公安介入!

深析古今
2025-06-13 22:33:28
容祖兒與老板楊受成出席香港車展,祖兒黑臉不讓扶

容祖兒與老板楊受成出席香港車展,祖兒黑臉不讓扶

鄉野小珥
2025-06-13 10:29:29
氣候物理學者、北大副教授聞新宇突發心臟病逝世,年僅45歲

氣候物理學者、北大副教授聞新宇突發心臟病逝世,年僅45歲

澎湃新聞
2025-06-15 08:12:27
11國棄權,中方反對票失效,以方侵犯伊朗主權,更可怕的還在后面

11國棄權,中方反對票失效,以方侵犯伊朗主權,更可怕的還在后面

吳欣純Deborah
2025-06-14 16:59:12
設計院被舉報使用盜版CAD,被一鍋端!

設計院被舉報使用盜版CAD,被一鍋端!

黯泉
2025-06-14 22:10:35
重慶巴南警方通報:男子鳴笛引發路人不滿,強行駕車駛離致人受傷,造成1人死亡4人受傷

重慶巴南警方通報:男子鳴笛引發路人不滿,強行駕車駛離致人受傷,造成1人死亡4人受傷

環球網資訊
2025-06-15 07:13:47
伊朗媒體稱伊又擊落一架以色列F-35戰機!以防長警告伊朗:如果繼續襲擊,德黑蘭將化為火海

伊朗媒體稱伊又擊落一架以色列F-35戰機!以防長警告伊朗:如果繼續襲擊,德黑蘭將化為火海

每日經濟新聞
2025-06-15 00:21:17
2025-06-15 08:28:49
AI寒武紀 incentive-icons
AI寒武紀
專注于人工智能,科技領域
717文章數 313關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

伊朗數小時內或再襲擊 以色列進入"前所未有緊急狀態"

頭條要聞

伊朗數小時內或再襲擊 以色列進入"前所未有緊急狀態"

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

數碼
本地
教育
時尚
公開課

數碼要聞

達爾優高校電競賽成都站12進4晉級賽即將燃起!

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

教育要聞

分數之外,孝道滿分:一場高考后的溫情禮贊

中年女人少穿黑色和灰色,年輕色穿出減齡效果,看起來嫩十歲

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精品无人区一区二区三区在线| 久久久亚洲欧洲日产无码av| 久久女人天堂精品av影院麻| 天堂av国产夫妇精品自在线| av天堂精品久久久久2| 另类亚洲综合区图片区小说| 中文无码vr最新无码av专区| 欧美丰满老熟妇aaaa片| 国产三级做爰在线播放| 国产亚洲精品久久久久久青梅| 免费人成在线视频无码软件| 无遮挡高潮国产免费观看| 无码人妻视频一区二区三区| 精品少妇人妻av久久久| 强迫大乳人妻中文字幕| 成人午夜福利视频镇东影视| 国产最大成人亚洲精品| yw尤物av无码国产在线观看| 亚洲性无码av中文字幕| 十八禁网站在线观看| 欧美人与物ⅴideos另类| 老司机午夜精品99久久免费| 亚洲精品无码久久| 狼人无码精华av午夜精品| 国产精品成人免费999| 超碰cao已满18进入离开官网| 亚洲中文久久精品无码浏不卡| 亚洲人成色77777在线观看大战p| 与子敌伦刺激对白播放的优点| 97精品超碰一区二区三区| 99精品欧美一区二区三区| 欧洲女人牲交性开放视频| 午夜免费视频| 国产-第1页-浮力影院| 亚洲呦女专区| 亚洲一区日韩高清中文字幕亚洲| 热久久视久久精品2019| 久久国内精品自在自线| 欧美 亚洲 另类 综合网| 国产在线精品一区在线观看| www国产精品内射老熟女|