網易首頁 > 網易號 > 正文申請入駐

炸裂！Meta深夜推出Llama 4系列：單卡H100能跑，千萬上下文，還有2萬億“巨獸”

2025-04-06 05:59:43　來源: AI寒武紀

江蘇舉報

分享至

　　小扎終于想起發布 Llama 4 了，本來早就應該發布的的節奏全被DeepSeek R1打亂了，哈哈！

　　Meta 剛剛放出了 Llama 4 系列的首批模型，按照官推的說法這次發布是對 Llama 系列的一次徹底重新設計

　　先劃重點：

　　核心變化：Llama 4 全系采用混合專家（MoE）架構，并且是原生多模態訓練，不再是 Llama 3 那樣的純文本模型了。這次發布了Llama 4 Scout和Llama 4 Maverick，同時還有最強大的Llama 4 Behemoth預覽

　　下面給大家第一時間做個梳理，

　　Llama 4 Scout：

　　定位：性能最強的小尺寸模型

　　參數：17B 激活參數，16 個專家，總參數量 109B

　　亮點：速度極快，原生支持多模態，擁有業界領先的 1000 萬+ Token 多模態上下文窗口（相當于處理 20 多個小時的視頻！），并且能在單張 H100 GPU 上運行（Int4 量化后）

　　Llama 4 Maverick：

　　定位：同級別中最佳的多模態模型

　　性能：在多個主流基準測試中擊敗了 GPT-4o 和 Gemini 2.0 Flash，推理和編碼能力與新發布的 DeepSeek v3 相當，但激活參數量不到后者一半

　　參數：17B 激活參數，128 個專家，總參數量 400B，上下文窗口 100 萬+

　　性價比：提供了同類最佳的性能成本比。其實驗性聊天版本在 LMArena 上 ELO 評分達到 1417，排名第二

　　部署：可以在單個主機上運行

　　Llama 4 Behemoth (預覽，訓練中)：

　　定位：Meta 迄今最強模型，全球頂級 LLM 之一

　　性能：在多個 STEM 基準上優于 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro

　　參數：288B 激活參數，16 個專家，總參數量高達2萬億（2T）

　　訓練細節：使用 FP8 精度，在32000 塊 GPU上訓練了30 萬億多模態 Token

　　角色：作為 Maverick 模型進行代碼蒸餾時的教師模型

　　技術亮點解讀

　　原生多模態：所有模型都采用早期融合（early fusion）策略，將文本、圖像、視頻 Token 無縫整合到統一的模型骨干中

　　訓練流程優化：采用了輕量級 SFT → 在線 RL → 輕量級 DPO 的后訓練流程。開發者強調，過度使用 SFT/DPO 會過度約束模型，限制在線 RL 階段的探索能力，所以要保持“輕量”

　　超長上下文的秘密 (10M+)：實現這一突破的關鍵是iRoPE 架構（"i" 代表 interleaved layers, infinite）

　　核心思想：通過追求無限上下文的目標來指導架構設計，特別是利用長度外推能力——在短序列上訓練，泛化到極長序列。最大訓練長度是 256K

　　具體做法：

　　? 本地注意力層（Local Attention）使用 RoPE 處理短上下文（如 8K），可并行化

　　? 全局注意力層（Global Attention）才負責處理長上下文（>8K），且不使用位置編碼（NoPE 思想），這有助于提升外推能力

　　? 為了解決上下文變長時注意力權重趨于平坦、影響推理的問題，在推理時對全局層應用溫度縮放，增強長距離推理，同時保持短上下文性能。公式大致為：xq *= 1 + log(floor(i / α) + 1) * β（i 是位置索引）

　　大佬評價：

　　一個遺憾 (前kaggle總裁，fast AI 創始人Jeremy Howard)：雖然感謝開源，但 Jeremy Howard 也表達了失望。Llama 4 Scout 和 Maverick 都是大型 MoE 模型，即使量化后也無法在消費級 GPU 上運行，這對開源社區的可及性來說是個不小的損失

　　Jim Fan（英偉達高級研究經理）：

　　部署便利性優先：Jim Fan 認為，對于開源模型，特別是 MoE 架構，易于部署正變得比單純追求模型尺寸更重要。Meta 強調 Llama 4 Scout 能在單張 H100 上運行，這與 Llama-3 401B（雖然強大但采用率較低）形成對比，說明 MoE 是一個更符合當前開源策略的方向

　　智能調參 MetaP：MetaP這個用于智能調整訓練超參數的新技術。雖然細節不多，但他猜測這可能類似于 Meta 開源的Ax 框架中的貝葉斯優化，能在有限的試驗預算內進行自適應實驗（如 A/B 測試）

　　后訓練策略：重 RL 輕 SFT/DPO： Llama 4 的后訓練策略是降低 SFT/DPO 的權重，提升在線 RL 的權重。原因是過多的 SFT/DPO 會過度約束模型，限制其在 RL 階段的探索能力

　　自我批判式數據篩選：一個有趣的技術點是，訓練過程中模型較早的檢查點（checkpoint）可以作為“批評家”來評估后續模型，幫助過濾掉過于簡單的訓練樣本/提示，讓模型在不斷篩選和學習中變得更強

　　Behemoth 的訓練細節與數據挑戰： Llama 4 Behemoth 的龐大規模（FP8 精度、32K GPU、30T tokens 訓練）。由于模型能力太強，普通的 SFT 數據對它來說太“簡單”了，因此需要裁剪掉高達 95% 的 SFT 數據，而小模型只需要裁剪約 50%

　　實現千萬級上下文窗口的技術手段看起來“相當簡單”：

　　1.去除部分位置編碼：在某些注意力層（特別是全局層）不使用位置編碼，借鑒了NoPE (No Positional Embedding)論文的思想

　　2.調整 Softmax 注意力：根據上下文的長度來調整 Softmax 注意力計算

　　這次Llama 4的推理模型還不見蹤影，這多少有點說不過去，大家覺得呢？畢竟Meta也是妥妥的大廠啊！不過Meta 表示這只是開始，后續還有更多模型，團隊正在全力開發中，特別提到了Llama 4 Reasoning模型

　　另外相比于DeepSeek的MIT開源方式，Llama 4 的新許可證有幾個限制：

　　- 每月活躍用戶超過 7 億的公司必須向 Meta 申請特殊許可，Meta 可自行決定授予或拒絕該許可。

　　- 必須在網站、界面、文檔等處突出顯示“使用 Llama 構建”。

　　- 使用 Llama Materials 創建的任何 AI 模型的名稱開頭都必須包含“Llama”

　　- 必須在任何分發的“通知”文本文件中包含具體的歸屬通知 - 使用必須遵守 Meta 單獨的可接受使用政策（參考 http://llama.com/llama4/use-policy...） - 僅出于符合品牌要求的有限許可使用“Llama”名稱

　　參考：

　　https://ai.meta.com/blog/llama-4-multimodal-intelligence/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.