k8凯发人生赢家一触即发,K8凯发国际旗舰厅,K8凯发官网奶茶官网

k8凯发人生赢家一触即发,K8凯发国际旗舰厅,K8凯发官网奶茶官网

  • K8凯发国际旗舰厅
  • 经典ReLU回归!重大缺陷「死亡ReLU问题」已被解决

    发布时间2025-06-07 01:10:41 来源:小编 阅读次数:

      

    经典ReLU回归!重大缺陷「死亡ReLU问题」已被解决

      在深度学习领域中,对激活函数的探讨已成为一个独立的研究方向。例如 GELU、SELU 和 SiLU 等函数凭借其平滑梯度与卓越的收敛特性,已成为热门选择★◆■★。

      SUGAR 方法易于实现,并在前向传播中始终采用 ReLU 激活函数。与所提出的 B-SiLU 替代函数结合使用时■★★★■,VGG-16 在 CIFAR-10 和 CIFAR-100 数据集上的测试准确率分别提升了 10 个百分点和 16 个百分点,而 ResNet-18 与未使用 SUGAR 的最佳模型相比,分别提升了 9 个百分点和 7 个百分点。

      尽管这一趋势盛行★■★◆,经典 ReLU 函数仍因其简洁性、固有稀疏性及其他优势拓扑特性而广受青睐★■◆◆■。

      正是死亡 ReLU 问题催生了大量改进的线性单元函数,包括但不限于:LeakyReLU■★◆■◆、PReLU、GELU、SELU、SiLU/Swish 以及 ELU。这些函数通过为负预激活值引入非零激活,提供了不同的权衡。

      总的来说★◆■★◆◆,B-SiLU 在不同架构和数据集上均优于其他替代激活函数◆◆◆,ELU 和 SELU 能够提供可靠的改进,而在这种设置下,SUGAR 从 Leaky ReLU 和 NeLU 中并未获得有意义的益处★◆★。

      关键区别在于,与 ReLU 不同,这些候选替代函数均具有一个共同特征:对负输入(x0 时的激活输出。

      本文,来自德国吕贝克大学等机构的研究者引入了一种新颖的方法:SUGAR(Surrogate Gradient for ReLU),在不牺牲 ReLU 优势的情况下解决了 ReLU 的局限性。即前向传播仍使用标准 ReLU(保持其稀疏性和简单性),反向传播时替换 ReLU 的导数为一个非零◆★◆◆◆■、连续的替代梯度函数(surrogate gradient)。

      这样可以让 ReLU 在保持原始前向行为的同时,避免梯度为零的问题◆■,从而复活死神经元。

      当应用于 Conv2NeXt 时,如表 1 所示,SUGAR 在前向和反向传播过程中均始终优于使用 GELU 的基础模型■◆■■。

      该公式实现了梯度注入■★★◆◆,并确保即使对于负激活也能进行梯度传播。具体来说,利用 [34] 中的乘法技巧,替代梯度函数的直接注入如下:

      B-SiLU:引入了一种名为 B-SiLU(Bounded Sigmoid Linear Unit) 的新型激活函数,它结合了自门控特性和可调下限参数★■◆。从数学上讲■★■■★,该函数可以表示为:

      然而 ReLU 单元易陷入所谓的「死亡 ReLU 问题」, 一旦某个神经元在训练中输出恒为 0,其梯度也为 0,无法再恢复★◆。 这一现象最终制约了其整体效能,也是 ReLU 网络的重大缺陷。

      替代函数的选择具有灵活性,可兼容当前最先进的各类激活函数■★■,例如 ELU、GELU、SiLU、SELU 以及 Leaky ReLU(见图 8)◆◆■■■。

      本文对 VGG-16 和 ResNet-18 进行了全面的实验◆★★★★■,表明 SUGAR 显著增强了这两种架构的泛化能力。本文在Swin Transformer和 Conv2NeXt 等现代架构上对 SUGAR 进行了评估,展示了其适应性和有效性◆◆◆■。对 VGG-16 层激活的深入分析表明,当应用 SUGAR 时,激活分布发生了明显的变化★★★◆◆■,为其在缓解消亡 ReLU 问题中的作用提供了直观证据,同时促进了更稀疏的表示◆■。

      在初步研究中,本文意识到需要调整当前的激活函数以适应 SUGAR 的特定用途◆■■■◆★。因此★★★■■◆,接下来本文提出了两个与这些设置良好匹配的新替代函数。