大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

炸裂!Meta深夜推出Llama 4系列 :單卡H100能跑,千萬上下文,還有2萬億“巨獸”

0
分享至

  

  小扎終于想起發布 Llama 4 了,本來早就應該發布的的節奏全被DeepSeek R1打亂了,哈哈!

  

  Meta 剛剛放出了 Llama 4 系列的首批模型,按照官推的說法這次發布是對 Llama 系列的一次徹底重新設計

  先劃重點:

  核心變化:Llama 4 全系采用混合專家(MoE)架構,并且是原生多模態訓練,不再是 Llama 3 那樣的純文本模型了。這次發布了Llama 4 ScoutLlama 4 Maverick,同時還有最強大的Llama 4 Behemoth預覽

  

  下面給大家第一時間做個梳理,

  Llama 4 Scout:

  定位:性能最強的小尺寸模型

  參數:17B 激活參數,16 個專家,總參數量 109B

  亮點:速度極快,原生支持多模態,擁有業界領先的 1000 萬+ Token 多模態上下文窗口(相當于處理 20 多個小時的視頻!),并且能在單張 H100 GPU 上運行(Int4 量化后)

  Llama 4 Maverick:

  定位:同級別中最佳的多模態模型

  性能:在多個主流基準測試中擊敗了 GPT-4o 和 Gemini 2.0 Flash,推理和編碼能力與新發布的 DeepSeek v3 相當,但激活參數量不到后者一半

  參數:17B 激活參數,128 個專家,總參數量 400B,上下文窗口 100 萬+

  性價比:提供了同類最佳的性能成本比。其實驗性聊天版本在 LMArena 上 ELO 評分達到 1417,排名第二

  部署:可以在單個主機上運行

  Llama 4 Behemoth (預覽,訓練中):

  定位:Meta 迄今最強模型,全球頂級 LLM 之一

  性能:在多個 STEM 基準上優于 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro

  參數:288B 激活參數,16 個專家,總參數量高達2萬億 (2T

  訓練細節:使用 FP8 精度,在32000 塊 GPU上訓練了30 萬億多模態 Token

  角色:作為 Maverick 模型進行代碼蒸餾時的教師模型

  

  

  

  技術亮點解讀

  原生多模態:所有模型都采用早期融合(early fusion)策略,將文本、圖像、視頻 Token 無縫整合到統一的模型骨干中

  訓練流程優化:采用了 輕量級 SFT → 在線 RL → 輕量級 DPO 的后訓練流程。開發者強調,過度使用 SFT/DPO 會過度約束模型,限制在線 RL 階段的探索能力,所以要保持“輕量”

  超長上下文的秘密 (10M+):實現這一突破的關鍵是iRoPE 架構("i" 代表 interleaved layers, infinite)

  核心思想:通過追求無限上下文的目標來指導架構設計,特別是利用長度外推能力——在短序列上訓練,泛化到極長序列。最大訓練長度是 256K

  具體做法

  ? 本地注意力層(Local Attention)使用 RoPE 處理短上下文(如 8K),可并行化

  ? 全局注意力層(Global Attention)才負責處理長上下文(>8K),且不使用位置編碼(NoPE 思想),這有助于提升外推能力

  ? 為了解決上下文變長時注意力權重趨于平坦、影響推理的問題,在推理時對全局層應用溫度縮放,增強長距離推理,同時保持短上下文性能。公式大致為:xq *= 1 + log(floor(i / α) + 1) * β(i 是位置索引)

  大佬評價:

  一個遺憾 (前kaggle總裁,fast AI 創始人Jeremy Howard):雖然感謝開源,但 Jeremy Howard 也表達了失望。Llama 4 Scout 和 Maverick 都是大型 MoE 模型,即使量化后也無法在消費級 GPU 上運行,這對開源社區的可及性來說是個不小的損失

  

  Jim Fan(英偉達高級研究經理)

  

  部署便利性優先:Jim Fan 認為,對于開源模型,特別是 MoE 架構,易于部署正變得比單純追求模型尺寸更重要。Meta 強調 Llama 4 Scout 能在單張 H100 上運行,這與 Llama-3 401B(雖然強大但采用率較低)形成對比,說明 MoE 是一個更符合當前開源策略的方向

  智能調參 MetaP:MetaP這個用于智能調整訓練超參數的新技術。雖然細節不多,但他猜測這可能類似于 Meta 開源的Ax 框架中的貝葉斯優化,能在有限的試驗預算內進行自適應實驗(如 A/B 測試)

  后訓練策略:重 RL 輕 SFT/DPO: Llama 4 的后訓練策略是降低 SFT/DPO 的權重,提升在線 RL 的權重。原因是過多的 SFT/DPO 會過度約束模型,限制其在 RL 階段的探索能力

  自我批判式數據篩選:一個有趣的技術點是,訓練過程中模型較早的檢查點(checkpoint)可以作為“批評家”來評估后續模型,幫助過濾掉過于簡單的訓練樣本/提示,讓模型在不斷篩選和學習中變得更強

  Behemoth 的訓練細節與數據挑戰: Llama 4 Behemoth 的龐大規模(FP8 精度、32K GPU、30T tokens 訓練)。由于模型能力太強,普通的 SFT 數據對它來說太“簡單”了,因此需要裁剪掉高達 95% 的 SFT 數據,而小模型只需要裁剪約 50%

  實現千萬級上下文窗口的技術手段看起來“相當簡單”:

  1.去除部分位置編碼:在某些注意力層(特別是全局層)不使用位置編碼,借鑒了NoPE (No Positional Embedding)論文的思想

  2.調整 Softmax 注意力:根據上下文的長度來調整 Softmax 注意力計算

  這次Llama 4的推理模型還不見蹤影,這多少有點說不過去,大家覺得呢?畢竟Meta也是妥妥的大廠啊!不過Meta 表示這只是開始,后續還有更多模型,團隊正在全力開發中,特別提到了Llama 4 Reasoning模型

  另外相比于DeepSeekMIT開源方式,Llama 4 的新許可證有幾個限制:

  - 每月活躍用戶超過 7 億的公司必須向 Meta 申請特殊許可,Meta 可自行決定授予或拒絕該許可。

  - 必須在網站、界面、文檔等處突出顯示“使用 Llama 構建”。

  - 使用 Llama Materials 創建的任何 AI 模型的名稱開頭都必須包含“Llama”

  - 必須在任何分發的“通知”文本文件中包含具體的歸屬通知 - 使用必須遵守 Meta 單獨的可接受使用政策(參考 http://llama.com/llama4/use-policy...) - 僅出于符合品牌要求的有限許可使用“Llama”名稱

  參考:

  https://ai.meta.com/blog/llama-4-multimodal-intelligence/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
河南禁酒令大反轉!本以為是“硬核新規”,官方回應,網友:理解

河南禁酒令大反轉!本以為是“硬核新規”,官方回應,網友:理解

溫讀史
2025-06-14 09:56:47
上海專家發現:吃甜食的老人,健康指數是吃蔬菜的人的5倍不止?

上海專家發現:吃甜食的老人,健康指數是吃蔬菜的人的5倍不止?

華庭講美食
2025-06-14 13:52:03
袁立小號發文緬懷羅帥宇,連發兩條動態,看新聞難過到吃不下飯

袁立小號發文緬懷羅帥宇,連發兩條動態,看新聞難過到吃不下飯

趣文說娛
2025-06-14 11:13:03
局勢突變!中國深夜發出警告,俄羅斯聲明立即結束會談!

局勢突變!中國深夜發出警告,俄羅斯聲明立即結束會談!

一個有靈魂的作者
2025-06-14 22:17:44
國防大學的教授也是一個水貨

國防大學的教授也是一個水貨

回旋鏢
2025-06-14 15:59:57
跌太猛了!浙江余杭這個小區從214萬暴跌到80萬,跌幅超過60%…

跌太猛了!浙江余杭這個小區從214萬暴跌到80萬,跌幅超過60%…

火山詩話
2025-06-14 14:30:42
好消息:中國防空導彈再次擊落戰機!壞消息:被擊落的是中國戰機

好消息:中國防空導彈再次擊落戰機!壞消息:被擊落的是中國戰機

荷蘭豆愛健康
2025-06-12 18:47:39
伊朗不打倒神棍政權,國家將永無希望

伊朗不打倒神棍政權,國家將永無希望

廖保平
2025-06-14 09:19:25
南航“美女經理”:除了生理期就沒閑過,兩年半和上級開房410次

南航“美女經理”:除了生理期就沒閑過,兩年半和上級開房410次

就一點
2025-06-13 16:45:25
哈梅內伊聲明:要徹底摧毀以色列政權!伊朗向以方向發射約150枚導彈!伊軍稱擊落以戰機并逮捕飛行員

哈梅內伊聲明:要徹底摧毀以色列政權!伊朗向以方向發射約150枚導彈!伊軍稱擊落以戰機并逮捕飛行員

每日經濟新聞
2025-06-14 06:41:13
LABUBU真成“頂流”了!韓國線下店有人為它通宵排隊,有人為它吵架動手,為您揭秘其火爆原因

LABUBU真成“頂流”了!韓國線下店有人為它通宵排隊,有人為它吵架動手,為您揭秘其火爆原因

三湘都市報
2025-06-14 18:04:05
恥辱!香港運動員奪冠拒唱國歌,這樣的運動員不止一個

恥辱!香港運動員奪冠拒唱國歌,這樣的運動員不止一個

柳絮憶史
2025-06-14 07:10:03
聊聊步行者 VS 雷霆 G4

聊聊步行者 VS 雷霆 G4

靜易墨
2025-06-14 21:17:05
伊朗:打擊美軍基地 下一輪對以襲擊導彈數是20倍

伊朗:打擊美軍基地 下一輪對以襲擊導彈數是20倍

看看新聞Knews
2025-06-14 20:25:47
蘇超最新積分榜公布

蘇超最新積分榜公布

現代快報
2025-06-14 21:17:08
鳳凰傳奇曾毅回應手表爭議,堪稱災難性公關,被吐槽不如道歉……

鳳凰傳奇曾毅回應手表爭議,堪稱災難性公關,被吐槽不如道歉……

妮妮玩不夠
2025-06-14 07:47:04
中紀委怒批公務員也是人!正常生活不應問責處!

中紀委怒批公務員也是人!正常生活不應問責處!

霹靂炮
2025-06-13 23:49:27
羅帥宇的通報來了,真相終于大白

羅帥宇的通報來了,真相終于大白

大張的自留地
2025-06-14 08:39:21
慘不忍睹!女籃三人10中1,籃板也不會搶,球迷:趕快淘汰他仨

慘不忍睹!女籃三人10中1,籃板也不會搶,球迷:趕快淘汰他仨

南海浪花
2025-06-14 11:30:33
1-2!鄭欽文輸球內情曝光,賽后眼眶含淚,對手采訪說到了關鍵

1-2!鄭欽文輸球內情曝光,賽后眼眶含淚,對手采訪說到了關鍵

侃球熊弟
2025-06-15 00:02:53
2025-06-15 04:19:00
AI寒武紀 incentive-icons
AI寒武紀
專注于人工智能,科技領域
715文章數 313關注度
往期回顧 全部

數碼要聞

消息稱 AMD 將推出 R7 9700F 無核顯處理器,目標價位 250 美元

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經要聞

樓市權威發聲

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

游戲
旅游
本地
公開課
軍事航空

死掉的“賽博初戀”,有誰能夠打贏復活賽?

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊媒:以色列國防部大樓被伊朗導彈擊中

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产亚洲精品yxsp| 蜜芽久久人人超碰爱香蕉| 小sao货水好多真紧h视频| 中文字幕一二三区波多野结衣| 久久受www免费人成| 免费a级毛片在线播放| 97精品超碰一区二区三区| 亚洲国产婷婷综合在线精品| 日日碰狠狠添天天爽五月婷| 亚洲成av人片一区二区小说| 久久午夜福利无码1000合集| 精品欧洲av无码一区二区14| 亚洲 另类 小说 国产精品无码| 男女性爽大片视频| 亚洲欧美黑人深喉猛交群| 亚洲熟妇av一区二区三区漫画| 久久精品无码一区二区软件| 亚洲高清毛片一区二区| 摸进她的内裤里疯狂揉她动图视频| 午夜理论片yy6080私人影院| 亚洲成a∧人片在线播放调教| 欧美最猛黑A片黑人猛交蜜桃视频| 精品久久久99大香线蕉| 影音先锋在线资源无码| 一二三四在线视频社区3| 美丽人妻被按摩中出中文字幕| 少妇仑乱a毛片无码| 亚洲日韩爆乳中文字幕欧美| 国产特级毛片aaaaaa毛片| 国产成年无码久久久免费| 真人做人试看60分钟免费| 亚洲成av人片在线播放无码| 国产乱子伦无码精品小说| 8天堂资源在线| 2020久久超碰国产精品最新| 国产大片内射1区2区| 国产成人亚洲精品无码电影| 国产成人无码一二三区视频| 无遮挡十八禁污污网站在线观看| 欧美性生交xxxxx久久久| 国产一精品一av一免费|