機(jī)器之心報(bào)道
機(jī)器之心編輯部
不用換模型、不用堆參數(shù),靠 SUGAR 模型性能大增!
在深度學(xué)習(xí)領(lǐng)域中,對激活函數(shù)的探討已成為一個(gè)獨(dú)立的研究方向。例如 GELU、SELU 和 SiLU 等函數(shù)憑借其平滑梯度與卓越的收斂特性,已成為熱門選擇。
盡管這一趨勢盛行,經(jīng)典 ReLU 函數(shù)仍因其簡潔性、固有稀疏性及其他優(yōu)勢拓?fù)涮匦远鴱V受青睞。
然而 ReLU 單元易陷入所謂的「死亡 ReLU 問題」, 一旦某個(gè)神經(jīng)元在訓(xùn)練中輸出恒為 0,其梯度也為 0,無法再恢復(fù)。 這一現(xiàn)象最終制約了其整體效能,也是 ReLU 網(wǎng)絡(luò)的重大缺陷。
正是死亡 ReLU 問題催生了大量改進(jìn)的線性單元函數(shù),包括但不限于:LeakyReLU、PReLU、GELU、SELU、SiLU/Swish 以及 ELU。這些函數(shù)通過為負(fù)預(yù)激活值引入非零激活,提供了不同的權(quán)衡。
本文,來自德國呂貝克大學(xué)等機(jī)構(gòu)的研究者引入了一種新穎的方法:SUGAR(Surrogate Gradient for ReLU),在不犧牲 ReLU 優(yōu)勢的情況下解決了 ReLU 的局限性。即前向傳播仍使用標(biāo)準(zhǔn) ReLU(保持其稀疏性和簡單性),反向傳播時(shí)替換 ReLU 的導(dǎo)數(shù)為一個(gè)非零、連續(xù)的替代梯度函數(shù)(surrogate gradient)。
這樣可以讓 ReLU 在保持原始前向行為的同時(shí),避免梯度為零的問題,從而復(fù)活死神經(jīng)元。
基于此,本文還設(shè)計(jì)了兩種新型替代梯度函數(shù):B-SiLU(Bounded SiLU)、 NeLU(Negative slope Linear Unit),可以無縫集成到各種模型中。
本研究的進(jìn)一步貢獻(xiàn)如下:
- 本文對 VGG-16 和 ResNet-18 進(jìn)行了全面的實(shí)驗(yàn),表明 SUGAR 顯著增強(qiáng)了這兩種架構(gòu)的泛化能力。
- 本文在Swin Transformer和 Conv2NeXt 等現(xiàn)代架構(gòu)上對 SUGAR 進(jìn)行了評估,展示了其適應(yīng)性和有效性。
- 對 VGG-16 層激活的深入分析表明,當(dāng)應(yīng)用 SUGAR 時(shí),激活分布發(fā)生了明顯的變化,為其在緩解消亡 ReLU 問題中的作用提供了直觀證據(jù),同時(shí)促進(jìn)了更稀疏的表示。
SUGAR 方法易于實(shí)現(xiàn),并在前向傳播中始終采用 ReLU 激活函數(shù)。與所提出的 B-SiLU 替代函數(shù)結(jié)合使用時(shí),VGG-16 在 CIFAR-10 和 CIFAR-100 數(shù)據(jù)集上的測試準(zhǔn)確率分別提升了 10 個(gè)百分點(diǎn)和 16 個(gè)百分點(diǎn),而 ResNet-18 與未使用 SUGAR 的最佳模型相比,分別提升了 9 個(gè)百分點(diǎn)和 7 個(gè)百分點(diǎn)。
- 論文標(biāo)題: The Resurrection of the ReLU
- 論文鏈接:https://arxiv.org/pdf/2505.22074
SUGAR 介紹
本文提出的方法將 FGI ( Forward gradient injection )應(yīng)用于具有平滑替代函數(shù)的 ReLU 網(wǎng)絡(luò)中。在 SUGAR 框架下, FGI 可以表示為:
該公式實(shí)現(xiàn)了梯度注入,并確保即使對于負(fù)激活也能進(jìn)行梯度傳播。具體來說,利用 [34] 中的乘法技巧,替代梯度函數(shù)的直接注入如下:
替代函數(shù)的選擇具有靈活性,可兼容當(dāng)前最先進(jìn)的各類激活函數(shù),例如 ELU、GELU、SiLU、SELU 以及 Leaky ReLU(見圖 8)。
關(guān)鍵區(qū)別在于,與 ReLU 不同,這些候選替代函數(shù)均具有一個(gè)共同特征:對負(fù)輸入(x < 0)能產(chǎn)生非零梯度。雖然這些函數(shù)為負(fù)激活提供了梯度流通路徑,但前向傳播及后續(xù)損失計(jì)算仍嚴(yán)格依賴 x > 0 時(shí)的激活輸出。
在初步研究中,本文意識(shí)到需要調(diào)整當(dāng)前的激活函數(shù)以適應(yīng) SUGAR 的特定用途。因此,接下來本文提出了兩個(gè)與這些設(shè)置良好匹配的新替代函數(shù)。
B-SiLU:引入了一種名為 B-SiLU(Bounded Sigmoid Linear Unit) 的新型激活函數(shù),它結(jié)合了自門控特性和可調(diào)下限參數(shù)。從數(shù)學(xué)上講,該函數(shù)可以表示為:
B-SiLU 激活函數(shù)的導(dǎo)數(shù)為:
圖 8 中可視化了 B-SiLU 及其導(dǎo)數(shù)。
NeLU:本文進(jìn)一步引入了 NeLU(Negative slope Linear Unit),作為 ReLU 的平滑導(dǎo)數(shù)替代品。
最終的梯度如圖 1 所示。
實(shí)驗(yàn)
總體而言,與 ReLU 基線相比,SUGAR 結(jié)合 ELU、SELU 以及特別是 B-SiLU 獲得了最大的提升,而 LeakyReLU 和 NeLU 則始終表現(xiàn)不佳(見圖 2)。在 CIFAR-10 數(shù)據(jù)集上使用 ResNet-18 作為骨干網(wǎng)絡(luò)時(shí),B-SiLU 的性能從 76.76% 提升到 86.42%,得益于 SUGAR。VGG-16 也表現(xiàn)出類似的效果:B-SiLU 將測試精度提高了近 10 個(gè)百分點(diǎn)(從 78.50% 提升到 88.35%)。
在 CIFAR-100 數(shù)據(jù)集上,SUGAR 結(jié)合 B-SiLU 的優(yōu)勢更加明顯:ResNet-18 的準(zhǔn)確率從 48.99% 躍升至 56.51%,VGG-16 的準(zhǔn)確率從 48.73% 提升至 64.47%(見圖 3)。同樣,Leaky ReLU 和 NeLU 僅顯示出微小的甚至是負(fù)的提升(例如 ResNet-18 上的 43.67% → 43.41%)。
總的來說,B-SiLU 在不同架構(gòu)和數(shù)據(jù)集上均優(yōu)于其他替代激活函數(shù),ELU 和 SELU 能夠提供可靠的改進(jìn),而在這種設(shè)置下,SUGAR 從 Leaky ReLU 和 NeLU 中并未獲得有意義的益處。
當(dāng)應(yīng)用于 Conv2NeXt 時(shí),如表 1 所示,SUGAR 在前向和反向傳播過程中均始終優(yōu)于使用 GELU 的基礎(chǔ)模型。
了解更多內(nèi)容,請參考原論文。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.