大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

微軟再放LLM量化大招!原生4bit量化,成本暴減,性能幾乎0損失

0
分享至


新智元報道

編輯:KingHZ

【新智元導讀】原生1bit大模型BitNet b1.58 2B4T再升級!微軟公布BitNet v2,性能幾乎0損失,而占用內(nèi)存和計算成本顯著降低。

還沒過幾天,原班人馬帶著第二代BitNet v2來了!

這次性能幾乎0損失,但占用內(nèi)存和計算成本顯著降低!


論文鏈接:https://arxiv.org/abs/2504.18415

先前的開創(chuàng)性研究,如BitNet b1.58,已經(jīng)證明:

即使將權(quán)重量化到1.58位,也能在極大降低推理成本(延遲、內(nèi)存占用、吞吐量、能耗)的同時,保持與全精度模型相當?shù)男阅堋?/strong>

然而,激活值異常點讓1比特大語言模型部署變得復雜。

BitNet v2框架,首次實現(xiàn)對1比特LLMs的原生4比特激活值量化。

針對注意力機制和前饋網(wǎng)絡(luò)中激活值的異常分布問題,在激活值量化前,H-BitLinear模塊施加在線Hadamard變換(Hadamard transformation)。


圖1上半部分:BitNet v2整體架構(gòu)以及H-BitLinear模塊的概覽

這種變換能將尖銳的激活值分布轉(zhuǎn)化為更接近高斯形態(tài)的平滑分布,從而適配低比特表示。

原生4比特計算

得益于下一代GPU(如GB200)等硬件的進步,深度學習領(lǐng)域正迅速采用量化和低比特推理技術(shù)。

新硬件原生支持4比特計算,為大規(guī)模模型帶來顯著的效率提升。


計算機中32、16、8比特浮點數(shù)不同的表示方法

然而,盡管BitNet b1.58將權(quán)重量化為1.58比特,緩解了內(nèi)存帶寬瓶頸,但它的激活值仍保持8比特精度。

模型無法充分利用新硬件的4比特計算能力。

實現(xiàn)更低比特寬度的激活值對于最大化硬件利用率至關(guān)重要,尤其是在批處理推理場景中,高效的內(nèi)核設(shè)計尤為重要。

關(guān)鍵問題在于LLM內(nèi)部激活值的不均勻分布。

雖然注意力機制和前饋網(wǎng)絡(luò)(FFN)層的輸入通常呈現(xiàn)類高斯分布,適合量化,但中間狀態(tài)(最終投影前的輸出)往往包含顯著的離群值,阻礙了激進的低比特量化。


圖1下半部分:注意力層中輸出投影Wo和前饋網(wǎng)絡(luò)中下投影Wdown的激活分布情況

對輸入采用4比特量化和對中間狀態(tài)使用8比特稀疏化,可以解決這一問題。

盡管性能損失較小,但稀疏化并不適合批處理推理場景的最大吞吐量需求,因為硬件更傾向于密集計算以提升效率。

為彌合這一差距并充分發(fā)揮1.58比特LLM在4比特計算中的潛力,研究團隊提出了BitNet v2框架,實現(xiàn)了模型全流程的原生4比特激活值,框架核心創(chuàng)新是H-BitLinear。

BitNet v2:原生4位激活

BitNet v2模型基于類似LLaMA的組件構(gòu)建,包括RMS歸一化SwishGLU激活函數(shù),并完全移除了偏置項(bias)


BitNet v2的整體架構(gòu)

與先前的BitNet相比,BitNet v2在注意力模塊的輸出投影Wo和前饋網(wǎng)絡(luò)(FFN)的下投影Wdown中,引入了H-BitLinear模塊,以專門處理中間狀態(tài)中出現(xiàn)的異常通道(outlier channels)。

BitNet v2的訓練流程分為兩階段:

首先,從零開始使用1.58位權(quán)重和8位激活(INT8)進行預訓練;

隨后,在保持權(quán)重量化不變的基礎(chǔ)上,將所有線性層(除輸入/輸出embedding外)進一步微調(diào)為4位激活(INT4)。

H-BitLinear模塊

BitNet v2采用逐張量平均絕對值量化(per-tensor absmean)策略對權(quán)重進行三值量化(也就是{-1, 0, 1}):


關(guān)于低比特激活的問題,已有研究指出:

  • 注意力層和前饋網(wǎng)絡(luò)中前置線性變換的輸入激活,通常呈現(xiàn)高斯分布,較適合量化;

  • 注意力輸出(Wo)和FFN下投影(Wdown)的中間狀態(tài)激活,則往往包含大量離群通道(outlier channels),且大部分值集中于0附近,嚴重影響低位量化精度。

H-BitLinear可以取代注意力機制輸出投影和FFN下投影的標準線性層。

H-BitLinear在激活量化前應(yīng)用在線哈達瑪變換),把中間狀態(tài)中尖銳、易產(chǎn)生離群值的分布重塑為更易處理的類高斯分布,顯著減少1.58比特模型中離群值的影響。

Hadamard變換定義如下:


其中的矩陣乘法采用快速Hadamard變換算法(Fast Hadamard Transform,F(xiàn)HT),其計算復雜度為O(nlogn)。

Hadamard矩陣是一類特殊的正交矩陣。

它的特點是每個元素只能是+1或-1,并且每行(或每列)之間的內(nèi)積為0,表示彼此正交

阿達馬矩陣的命名來自于法國數(shù)學家Jacques Solomon Hadamard。


法國數(shù)學家:Jacques Solomon Hadamard

如圖2和圖3所示,引入Hadamard變換后,中間狀態(tài)的分布更加接近高斯形態(tài)。

這顯著減少了離群值數(shù)量,使其更適合進行4位激活量化(INT4)


圖2:在使用8位激活時,BitNet b1.58與BitNet v2的激活分布對比。


圖3:采用8比特激活值時,BitNet b1.58與BitNet v2在前饋網(wǎng)絡(luò)Wdown層和注意力機制Wo層的激活值分布對比。

對于8位激活(INT8)和4位激活(INT4)量化策略,分別采用下列策略:


綜上,H-BitLinear層的整體矩陣運算可表示為

其中,LN(?)表示層歸一化(LayerNorm)。

研究團隊從頭開始使用8比特激活值訓練BitNet v2,與BitNet b1.58相比性能損失微乎其微。

隨后,通過少量數(shù)據(jù)高效微調(diào),模型即可適配原生4比特激活值。

實驗結(jié)果

實驗表明,4比特BitNet v2變體在性能上與BitNet a4.8相當,但在批處理推理場景中提供更高的計算效率。

此外,與后訓練量化方法SpinQuant和QuaRot,則幾乎全面領(lǐng)先。

比BitNet b1.58更快

BitNet V2與BitNet b1.58比,性能幾乎0損失。

BitNet v2及其基線模型的詳細實驗結(jié)果,如表1所示。

在注意力機制和前饋網(wǎng)絡(luò)(FFN)層的量化前引入哈達瑪變換后,模型的困惑度(perplexity)下降極小。

對于8比特激活值,BitNet v2相較于BitNet b1.58表現(xiàn)出更高的性能,在1.3B、3B和7B模型規(guī)模上,終端任務(wù)的平均準確率分別提升了0.16%、0.49%和0.61%。

此外,BitNet v2支持所有線性層的原生4比特激活值,從而顯著提升了批處理推理的效率。

在使用INT4(4比特整數(shù))激活值時,BitNet v2的困惑度與BitNet a4.8相當,同時在3B和7B模型的下游任務(wù)中展現(xiàn)出更優(yōu)的性能。


表1:BitNet v2、BitNet a4.8與BitNet b1.58在終端任務(wù)上的困惑度及性能表現(xiàn)

表2和表3分別總結(jié)了BitNet v2(8比特激活,a8)和BitNet v2(4比特激活,a4)在低比特注意力機制下的詳細結(jié)果。

研究人員對QKV狀態(tài)采用了RoPE(旋轉(zhuǎn)位置編碼)后的量化方法。

QKV頭通過absmax函數(shù)直接量化為無符號整數(shù),無需任何校準數(shù)據(jù)集。

如表2和表3所示,采用3比特KV緩存的BitNet v2在3B和7B模型上的準確率與使用全精度KV緩存的模型相當。


表2:BitNet v2在終端任務(wù)上的零樣本準確率,其中激活使用8位,而QKV狀態(tài)的位寬則有所不同。


表3:BitNet v2在終端任務(wù)上的零樣本準確率,其中激活使用4位,而QKV狀態(tài)的位寬則有所不同。

與其他后訓練量化方法的對比

BitNet v2 (a4)與主流的后訓練量化基線方法進行了對比,包括SpinQuantQuaRot,在1.3B參數(shù)規(guī)模的模型上進行了評測。

QuaRot通過引入隨機Hadamard變換以緩解特征離群問題,SpinQuant則使用了可學習的旋轉(zhuǎn)矩陣(rotary matrix)

隨后,這兩種方法分別采用GPTQabsmax策略,將權(quán)重和激活量化到4位。

由于BitNet b1.58沿用訓練時使用的absmean函數(shù)進行權(quán)重量化,而非使用GPTQ。

在各項指標上,BitNet v2穩(wěn)拿第一,具體結(jié)果見表4。


表4:BitNet v2、QuaRot和SpinQuant在各項下游任務(wù)上的困惑度(Perplexity)與零樣本準確率(Zero-shot Accuracy)對比

另外,在Hadamard變換對不同模型尺寸(1.3B和3B)影響的實驗(見表5)中,研究者發(fā)現(xiàn):

沒有旋轉(zhuǎn)處理(No rotation)時,模型直接發(fā)散,無法正常訓練

引入Hadamard旋轉(zhuǎn)(無論是權(quán)重+激活,還是僅激活),都能顯著穩(wěn)定低位訓練,并提高最終準確率


表5:不同規(guī)模下H-BitLinear的Hadamard變換的消融研究。

模型訓練、消融實驗等其他內(nèi)容和細節(jié),請參閱原文。

參考資料:

https://arxiv.org/abs/2504.18415


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
HarmonyOS 6.0 突襲曝光,華為這是要全面起飛呀!

HarmonyOS 6.0 突襲曝光,華為這是要全面起飛呀!

明美無限
2025-06-14 18:02:41
18月大嬰兒被灌50毫升啤酒!涉事者:想逗逗孩子,以為是啤酒應(yīng)該沒問題

18月大嬰兒被灌50毫升啤酒!涉事者:想逗逗孩子,以為是啤酒應(yīng)該沒問題

瀟湘晨報
2025-06-14 21:37:10
趁著特朗普在華盛頓閱兵慶祝生日,美國50個州統(tǒng)一發(fā)起反川行動

趁著特朗普在華盛頓閱兵慶祝生日,美國50個州統(tǒng)一發(fā)起反川行動

大道無形我有型
2025-06-15 12:34:40
7月起,我國將明令禁止收取這5種物業(yè)費,業(yè)主們還需早知道!

7月起,我國將明令禁止收取這5種物業(yè)費,業(yè)主們還需早知道!

詩詞中國
2025-06-14 14:09:57
著名作家甘偉家中非正常死亡,僅59歲:事發(fā)全過程披露,同學發(fā)聲

著名作家甘偉家中非正常死亡,僅59歲:事發(fā)全過程披露,同學發(fā)聲

博士觀察
2025-06-14 18:14:34
男大學生嫖娼時間太長,女子報警,律師:第21分鐘起算強奸

男大學生嫖娼時間太長,女子報警,律師:第21分鐘起算強奸

霹靂炮
2025-06-11 22:59:04
新一代機皇!新機官宣:7月份,即將發(fā)布!

新一代機皇!新機官宣:7月份,即將發(fā)布!

Q科技基地
2025-06-15 13:17:24
整治違規(guī)吃喝,警惕“層層加碼”

整治違規(guī)吃喝,警惕“層層加碼”

小虎新車推薦員
2025-06-15 13:15:55
威少帶妻子度假,甜蜜合影很幸福,拒絕346萬合同,試水自由市場

威少帶妻子度假,甜蜜合影很幸福,拒絕346萬合同,試水自由市場

大西體育
2025-06-14 15:17:33
美媒爆料:以色列過去48小時內(nèi)要求美國加入針對伊朗的軍事行動,但美國尚未考慮這一選項

美媒爆料:以色列過去48小時內(nèi)要求美國加入針對伊朗的軍事行動,但美國尚未考慮這一選項

環(huán)球網(wǎng)資訊
2025-06-15 09:09:47
伊朗高爆彈頭重創(chuàng)以色列,破壞力驚人!傷亡人數(shù)持續(xù)上升!

伊朗高爆彈頭重創(chuàng)以色列,破壞力驚人!傷亡人數(shù)持續(xù)上升!

國際情爆猿
2025-06-15 09:47:46
馬筱梅被總裁摟腰,汪小菲無動于衷,網(wǎng)友說如果是大S沒人敢這樣

馬筱梅被總裁摟腰,汪小菲無動于衷,網(wǎng)友說如果是大S沒人敢這樣

大笑江湖史
2025-06-14 15:56:51
三石弟弟和富婆姐騎行約會

三石弟弟和富婆姐騎行約會

八卦瘋叔
2025-06-14 11:04:44
已停售!內(nèi)地頂流奶茶入港翻車了?細菌超標70%,網(wǎng)友:屎尿水

已停售!內(nèi)地頂流奶茶入港翻車了?細菌超標70%,網(wǎng)友:屎尿水

趣文說娛
2025-06-13 14:13:20
英冠謝周三老板要求主教練立即停止休假回來工作,否則要罰款

英冠謝周三老板要求主教練立即停止休假回來工作,否則要罰款

懂球帝
2025-06-15 11:28:30
全球首次,Transformer「混血」速度狂飆65倍!英偉達已下注

全球首次,Transformer「混血」速度狂飆65倍!英偉達已下注

新智元
2025-06-14 13:25:54
51歲周迅:“丁克”半輩子,低調(diào)現(xiàn)身腫瘤醫(yī)院,今人體畫價值千萬

51歲周迅:“丁克”半輩子,低調(diào)現(xiàn)身腫瘤醫(yī)院,今人體畫價值千萬

泠泠說史
2025-06-05 16:33:56
換鞋風波引發(fā)觀眾不滿,鄭欽文直言吃驚,拉杜卡努采訪暗諷其不堪

換鞋風波引發(fā)觀眾不滿,鄭欽文直言吃驚,拉杜卡努采訪暗諷其不堪

網(wǎng)球之家
2025-06-14 23:50:32
朱自清長子因何在33時歲被判處死刑并立即執(zhí)行?

朱自清長子因何在33時歲被判處死刑并立即執(zhí)行?

深度報
2025-06-13 23:50:28
6月14日俄烏最新:俄羅斯又丟掉了一大籌碼

6月14日俄烏最新:俄羅斯又丟掉了一大籌碼

西樓飲月
2025-06-14 21:05:03
2025-06-15 15:00:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
12880文章數(shù) 66068關(guān)注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

以色列空襲胡塞武裝高層秘密會議 現(xiàn)場大約有10具尸體

頭條要聞

以色列空襲胡塞武裝高層秘密會議 現(xiàn)場大約有10具尸體

體育要聞

裁判可以噴,但也從步行者自身找找問題?

娛樂要聞

鳳凰傳奇曾毅塌房?網(wǎng)友:別連累玲花

財經(jīng)要聞

以伊沖突持續(xù)升級,對全球市場影響多大

汽車要聞

長城為了拿環(huán)塔冠軍有多拼?魏建軍在下一盤大棋!

態(tài)度原創(chuàng)

時尚
本地
親子
旅游
軍事航空

裙子里別穿“安全褲”了!今夏流行這樣穿!

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

親子要聞

我的爸呀,節(jié)日快樂!還得是我爸

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

軍事要聞

伊朗最高領(lǐng)袖高級顧問沙姆哈尼 因傷勢過重離世

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 国产尤物在线视精品在亚洲| 亚洲日韩精品无码专区网址| 国产又色又爽无遮挡免费软件| 欧美在线精彩视频免费播放| 伊人久久综合狼伊人久久| 在线观看国产精品乱码app| 伊人久久大香线蕉综合av| 无码国产精品一区二区av| h肉动漫无码无修6080动漫网| 国产人妻无码一区二区三区18| 日本电影一区二区三区| 久久无码高潮喷水| 特大巨黑吊av在线播放| 东京热无码一区二区三区分类视频| 免费无码又爽又刺激高潮虎虎视频| 5d肉蒲团之性战奶水| 三上悠亚精品一区二区久久| 色久悠悠婷婷综合在线亚洲| 国产亚洲精aa在线观看see| 性色av一区二区三区人妻| 亚洲国产成人字幕久久| 久久精品亚洲成在人线av麻豆| 成人国内精品久久久久一区| 亚洲国产日韩成人a在线欧美| 少妇愉情理伦片丰满丰满| 一本一道vs无码中文字幕| 精品无码国产污污污免费网站| 大肉大捧一进一出好爽| 国产精品麻豆va在线播放| 欧美自拍嘿咻内射在线观看| 人妻去按摩店被黑人按中出| 香蕉久久人人爽人人爽人人片av| 九色porny丨自拍视频| 成年轻人电影www无码| 国产初高中生真实在线视频| 国产精品卡一卡二卡三| 丰满爆乳在线播放| 欧美人与牲动交xxxx| 国产亚洲人成无码网在线观看| 国产男女免费完整视频| 亚洲一本到无码av中文字幕|