PyTorch 深度学习笔记（十一）：Transformer 模型中 GELU 激活函数的场景适配

GELU（Gaussian Error Linear Unit）通过结合输入值的概率分布（高斯分布）与线性变换实现非线性激活。其中 $\Phi(x)$ 是标准正态分布的累积分布函数。

灭霸打不过钢铁侠

299人浏览 · 2025-10-24 20:55:44

灭霸打不过钢铁侠 · 2025-10-24 20:55:44 发布

GELU 激活函数的核心原理

GELU（Gaussian Error Linear Unit）通过结合输入值的概率分布（高斯分布）与线性变换实现非线性激活。其数学表达式为：
$$
\text{GELU}(x) = x \cdot \Phi(x)
$$
其中 $\Phi(x)$ 是标准正态分布的累积分布函数。实际计算中常使用近似公式：
$$
\text{GELU}(x) \approx 0.5x \left(1 + \tanh\left[\sqrt{2/\pi}(x + 0.044715x^3)\right]\right)
$$

Transformer 中 GELU 的优势

平滑梯度特性：相比 ReLU，GELU 在负值区域保留微小梯度，缓解梯度消失问题，适合深层网络如 Transformer。
概率解释性：通过门控机制动态调整激活强度，与自注意力机制的概率分布特性更契合。
实验表现：在 BERT、GPT 等模型中验证了其优于 ReLU 和 ELU 的效果。

PyTorch 实现方法

import torch
import torch.nn as nn

# 直接调用内置函数
gelu = nn.GELU()

# 自定义实现（近似公式）
def gelu_custom(x):
    return 0.5 * x * (1 + torch.tanh(torch.sqrt(torch.tensor(2 / torch.pi)) * (x + 0.044715 * torch.pow(x, 3))))