網易首頁 > 網易號 > 正文申請入駐

LLM省錢大測評！48塊GH200，首個百億級參數量實證

2025-05-29 12:49:15　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST 好困

【新智元導讀】EfficientLLM項目聚焦LLM效率，提出三軸分類法和六大指標，實驗包攬全架構、多模態、微調技術，可為研究人員提供效率與性能平衡的參考。

近年來，大型語言模型（LLM）如GPT系列取得了革命性進展，在自然語言處理、內容創作、多語言翻譯乃至科學研究等眾多領域展現出驚人能力。

然而，模型參數量（如DeepseekR1的671B參數）和上下文窗口的急劇膨脹，帶來了巨大的計算力（GPT-3訓練約需3640Petaflop/s-days）、能源消耗和資金投入（GPT-3訓練成本估計超460萬美元）。

高昂的成本已成為制約LLM進一步發展和廣泛應用的關鍵瓶頸。

EfficientLLM項目應「效率測評」需求而生，也是首個針對LLM效率技術進行端到端、百億級參數規模的系統性實證研究。

項目詳情：https://dlyuangod.github.io/EfficientLLM/

模型庫：https://huggingface.co/Tyrannosaurus/EfficientLLM

研究人員在配備了48塊GH200和8塊H200 GPU的生產級集群上執行效率測評，確保了對真實世界中LLM性能與能耗權衡的精確測量。

EfficientLLM的核心目標是為學術界和工業界的研發人員提供一個清晰、數據驅動的導航圖，幫助研究人員在下一代基礎模型的「效率-性能」復雜地貌中找到最佳路徑。

EfficientLLM的三維評測框架與核心指標

研究人員創新性地提出了一個統一的三軸分類法來系統評估LLM效率，覆蓋模型生命周期的關鍵階段：

架構預訓練(Architecture Pretraining)

此部分專注于為模型設計者和研究者在構建新型LLM架構時，提供關于計算資源和能源成本預算的精確分析，并深入評估了多種高效注意力機制變體（如多查詢注意力MQA、分組查詢注意力GQA、多頭潛在注意力MLA、原生稀疏注意力NSA）以及稀疏混合專家模型（MoE）的效率表現。

微調(Fine-tuning)

針對需要將預訓練基礎模型適配到特定下游任務或專業領域的實踐者，研究人員提供了參數高效微調（PEFT）方法的效率基準。評估涵蓋了LoRA、RSLORA、DoRA等主流PEFT技術。

位寬量化(Bit-width Quantization)

面向模型部署工程師，研究人員評估了如何通過模型壓縮技術（特別是無需重訓即可直接部署的訓練后量化方法，如int4和float16）有效降低服務成本和推理延遲。

評估指標

為全面刻畫效率，EfficientLLM還引入了六個相互正交的細粒度評估指標：

1. 平均內存利用率(Average-Memory-Utilization,AMU)

2. 峰值計算利用率(Peak-Compute-Utilization,PCU)

3. 平均延遲(Average-Latency,AL)

4. 平均吞吐量(Average-Throughput,AT)

5. 平均能耗(Average-Energy-Consumption,AEC)

6. 模型壓縮率(Model-Compression-Rate,MCR)這些指標共同捕捉了硬件飽和度、延遲與吞吐量的平衡，以及碳排放成本等關鍵因素。

基準測試涵蓋了超過100個「模型-技術」組合，納入從0.5B到72B參數規模的多種LLM。

EfficientLLM的三大核心洞見

效率優化是「沒有免費午餐」的量化權衡(Efficiency Involves Quantifiable Trade-offs)

百余項實驗清晰地表明，不存在一種能在所有維度上都達到最優的通用效率技術。

每一種被評估的方法，在提升至少一個效率指標的同時，幾乎總會在其他某個或某些指標上有所妥協。

以稀疏混合專家模型(MoE)為例，能有效降低推理時的FLOPs（浮點運算次數）并提升下游任務的準確率，但其代價是峰值顯存需求增加約40%（因為需要存儲所有專家網絡的參數）。

int4量化技術則展現了另一面：可以將模型的內存占用和能耗降低高達3.9倍，模型壓縮率表現優異，但根據實測數據，通常伴隨著約3-5%的任務平均得分下降。

最優效率策略高度依賴于具體任務和模型規模(Optima are Task- and Scale-Dependent)

效率的「最優解」并非一成不變，而是高度依賴于應用場景、模型規模和硬件環境。

高效注意力機制：在架構預訓練階段，對于內存資源極度受限的設備（如端側推理），MQA(多查詢注意力)因其共享鍵值頭設計，展現出最佳的內存占用和延遲特性。

而當追求極致的語言生成質量時（以困惑度PPL為衡量標準），MLA(多頭潛在注意力)則表現更優。若目標是最低能耗部署，NSA(原生稀疏注意力)則是首選。

PEFT方法的規模效應：在微調階段，對于1B到3B參數規模的較小模型，LoRA及其變體(如DoRA，統稱LoRA-plus）在特定的內存約束下能達到最低的性能損失（即最佳的任務表現）。

然而，當模型規模擴展到14B參數以上時，RSLORA在效率上反超LoRA，展現出更低的延遲和功耗。

對于超大規模模型的微調，參數凍結（僅更新部分層或組件）策略雖然可能犧牲少量任務精度，但能提供最佳的端到端微調延遲。

量化精度選擇：在推理階段，測試（涵蓋Llama-3,DeepSeek,Qwen等1.5B至34B模型）表明，int4訓練后量化能顯著提升資源效率。

內存占用減少接近理論上的4倍，吞吐量（每秒處理詞元數）在內存受限條件下可提升三倍，而平均任務性能得分僅有小幅下降（例如DeepSeek-R1-Distill-Qwen-14B的平均分從bf16的0.4719降至int4的0.4361）。

在16位浮點格式中，bfloat16在Hopper架構GPU(GH200/H200)上，相較于float16，始終在平均延遲和能耗方面表現更優，這得益于現代NVIDIA GPU對bfloat16運算的原生硬件加速。

LLM效率技術可廣泛遷移至跨模態模型(Broad ApplicabilityAcrossModalities)

研究人員將EfficientLLM的評估框架成功擴展到了大型視覺模型(LVMs)和視覺語言模型(VLMs)，如Stable Diffusion3.5、Wan2.1和Qwen2.5-VL等。

實驗結果令人鼓舞：在LLM上得到驗證的效率技術，如MQA/GQA等高效注意力機制，能夠有效地遷移并改進LVM的生成質量（以FID分數為衡量標準）；PEFT方法同樣在LVM和VLM上取得了良好的性能-效率權衡，表明針對LLM的效率優化研究成果具有更廣泛的適用性。

開放共享，賦能未來

研究人員即將開源完整的評估流程代碼以及排行榜，在為全球的學術研究者和企業工程師在探索下一代基礎模型的效率與性能平衡時，提供一個堅實的、可復現的、值得信賴的「指南針」。

研究成果可以為從業者提供基于嚴謹實證數據的可操作建議，幫助研究人員在具體的任務需求和資源限制下，做出更明智、更高效的模型和技術選型決策，而不是僅僅依賴理論推演或有限的經驗。

LLM的效率優化是一個持續演進的系統工程，EfficientLLM的探索也僅是其中的一部分，諸如訓練基礎設施優化、基于強化學習的訓練后對齊、測試時擴展策略等重要議題，開發團隊計劃在未來進行深入研究。

參考資料：

https://dlyuangod.github.io/EfficientLLM/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

科學家提出動力學擴展定律，支持更長的文本生成

DeepTech深科技 2025-06-14 19:20:34
10 跟貼 10
謝賽寧蘇昊CVPR25獲獎！華人博士王建元一作拿下最佳論文

量子位 2025-06-14 17:22:24
7 跟貼 7

神奇的閑魚，閑魚省錢神券

婉兒視頻 2025-06-13 09:46:35
8 跟貼 8

壓嘴上面剪一刀，放在家里用途太厲害了，省錢又實用，鄰居紛紛學

文文生活知識 2025-06-11 09:03:00
0 跟貼 0
褲子太長，教你保留原邊改褲角，簡單實用又省錢，新手一看就會！

多彩手工屋 2025-06-14 15:24:03
0 跟貼 0

中國大陸首次公布東風5參數，沒那么簡單！中美導彈迭代速度對比

黎建南臺灣 2025-06-14 07:00:00
1 跟貼 1

“他們月入10000新幣，但在新加坡感覺還是窮！” 16個省錢方法必看

新加坡椰子 2025-06-14 15:05:55
1 跟貼 1
從日花700到195元：退休夫妻的床車自駕省錢之道

精彩背后的故事 2025-06-14 06:11:21
3 跟貼 3

衣服領子又小又緊穿著不舒服，學我這樣改一下，省錢實用

吥叨叨 2025-06-13 12:35:03
18 跟貼 18
把省錢就是賺錢做到了極致

長歌追劇 2025-06-14 08:14:12
1 跟貼 1
醫生眼中真正的省錢變美，讓你不花一分冤枉錢！

中國品牌 2025-06-11 11:58:03
0 跟貼 0
這大哥太會省錢了

濤濤影視記 2025-06-13 18:15:20
1 跟貼 1
5個省錢的降糖小妙招，學到就是賺到

薛醫生課堂 2025-06-15 07:17:48
0 跟貼 0
孩子爸爸的省錢腦回路：不是圍欄買不起，而是礦泉水更有性價比

幽默小喇叭 2025-06-13 15:40:02
1 跟貼 1
帶家人去重慶4天3晚最佳攻略：省錢路線+景點+人均預算全解析

竹舞林雅瓓 2025-06-14 12:57:53
0 跟貼 0
三維地圖講解——詳細解讀隋煬帝修建洛陽城，及隋唐大運河貫通

地圖里的歷史 2025-06-13 14:59:01
0 跟貼 0
200多萬的房子裝樓梯，丈夫為了省錢，卻得到了這結果

瘋狂幽默俱樂部 2025-06-14 17:08:07
1 跟貼 1
山西6天5晚人均1500+｜省錢秘籍！本地導游推薦，不踩雷深度游

旅游愛分享 2025-06-14 14:54:27
0 跟貼 0
8日新疆游怎么玩方便、省錢，這篇新疆省錢攻略一定要看!

蛋仔旅行記 2025-06-14 10:43:19
0 跟貼 0
見過省錢的沒見過這么省的，他能把硬幣捂出包漿來

濤濤愛看好劇 2025-06-14 14:53:52
0 跟貼 0
三維地圖講解——武則天的預言伏筆，及唐太宗的帝陵傳奇

地圖里的歷史 2025-06-12 17:26:52
0 跟貼 0
18月齡幼童被飯店客人灌50毫升啤酒送醫律師解讀

極目新聞 2025-06-14 10:41:22
11295 跟貼 11295
一千美軍進駐臺灣？中國亮出洲際導彈參數，18萬噸航母編隊就位

環球說地理 2025-06-13 11:26:45
0 跟貼 0
宣講團歸來，莫迪設宴，印媒：印度是唯一掌握中國武器參數的國家

汪巗的創業之路 2025-06-14 09:57:57
0 跟貼 0
三維地圖講解—李世民出兵洛陽及王世充洛水談判

地圖里的歷史 2025-06-14 11:32:00
0 跟貼 0
三維地圖模擬：印度航空客機墜毀航班的飛行軌跡

機長起飛 2025-06-12 22:00:30
5 跟貼 5
國外的游樂場里，把人鑲嵌在三維針雕里

隔壁有老外 2025-06-11 19:30:16
17 跟貼 17
谷歌視頻模型Veo3正在顛覆好萊塢：星球大戰風暴兵系列之訓練新兵

鏈聞科技 2025-06-13 11:14:00
3 跟貼 3
模型飛機試飛，鏡頭一轉發現事不簡單，美女膽子太大了

說說搞笑說 2025-06-14 17:45:19
3 跟貼 3
應對烏龜咬住不放的策略

看你像個寶 2025-06-14 12:07:17
1 跟貼 1
美軍在舉行閱兵彩排步兵方陣三個人走出三個節奏

征垣之路 2025-06-15 00:32:32
2673 跟貼 2673
日本效仿中國談判策略，以退為進贏得美國貿易讓步

奧利奧變薄了的 2025-06-15 06:03:09
0 跟貼 0
AI智能體上線，營銷人下線？ | AI無悖論

虎嗅APP 2025-06-15 01:00:27
0 跟貼 0
輕松一刻：駕校剛畢業，大家多關照

輕松一刻 2025-06-14 15:14:04
248 跟貼 248
羅帥宇冤不冤我說不準，但沒人會偷割你孩子的器官

基本常識 2025-06-14 22:42:03
1242 跟貼 1242
勇士隊策略轉變：專注年輕力量與國際球員潛力挖掘

徐癘解說 2025-06-13 20:57:08
1 跟貼 1
村民用滿是釘子的木板護住澆水管子小車停板前不敢走

凌晨看看 2025-06-14 14:29:46
2448 跟貼 2448
再次跟中天說抱歉！“館長”：對中天有一分愧疚，我一直在彌補

海峽導報社 2025-06-14 21:35:02
42 跟貼 42
丟人啊！百度流量只占10%！馬上要被Google反超了

機械狗 2025-06-14 10:30:30
2395 跟貼 2395
小伙心臟不舒服，上出租后打了三通電話！表現“超強自救意識”

揚子晚報 2025-06-14 14:00:56
656 跟貼 656

新智元

AI產業主平臺領航智能+時代

12877文章數 66068關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

本地

健康

公開課

軍事航空

家居要聞

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
指紋識別有可能認錯人嗎？
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

LLM省錢大測評！48塊GH200，首個百億級參數量實證

華為Pura80系列首銷：不再嚴重缺貨

印度空難幸存者：機身撞出巨大裂口 爬出去后發生爆炸

印度空難幸存者：機身撞出巨大裂口 爬出去后發生爆炸

約戰天王山，步行者G4輸在了哪？

鳳凰傳奇曾毅塌房？網友：別連累玲花

以伊沖突持續升級，對全球市場影響多大

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

森林幾何 極簡灰調原木風

最近的打工人，都在熬夜看這劇逐幀學習職場小技巧

呼吸科專家破解呼吸道九大謠言！

伊媒：以色列國防部大樓被伊朗導彈擊中

印度空難幸存者：機身撞出巨大裂口爬出去后發生爆炸

印度空難幸存者：機身撞出巨大裂口爬出去后發生爆炸

森林幾何極簡灰調原木風