从LayerNorm到RMSNorm：深度学习归一化技术的进化！qwen2.5的技术。

是一种用于深度学习的，是LayerNorm（层归一化）的一种改进。它通过计算输入数据的，避免了传统归一化方法中均值和方差的计算。

秋天是倒放的春天963

1464人浏览 · 2025-03-13 09:44:57

秋天是倒放的春天963 · 2025-03-13 09:44:57 发布

RMSNorm（Root Mean Square Normalization，均方根归一化）

是一种用于深度学习的归一化技术，是LayerNorm（层归一化）的一种改进。它通过计算输入数据的均方根（Root Mean Square, RMS）来进行归一化，避免了传统归一化方法中均值和方差的计算

1.LayerNorm（层归一化）

LayerNorm（层归一化）是一种用于深度学习的归一化技术，主要用于稳定训练过程、加速收敛，并提高模型的泛化能力。它与BatchNorm（批量归一化）类似，但归一化的范围不同：LayerNorm 是在单个样本的特征维度上进行归一化，而BatchNorm 是在小批量数据的样本维度上进行归一化。

1.1LayerNorm 的计算公式

假设输入是一个张量 $X$ ，形状为 $(N, D)$ ，其中 $N$ 是样本数量， $D$ 是特征维度。对于每个样本 $x_i$ ，LayerNorm 的计算步骤如下：

计算均值：
$\mu_i = \frac{1}{D} \sum_{j=1}^{D} x_{ij}$
其中， $μi\mu_i$ 是样本 $i$ 的均值。
计算方差：
$\sigma_i^2 = \frac{1}{D} \sum_{j=1}^{D} (x_{ij} - \mu_i)^2$
其中， $σi2\sigma_i^2$ 是样本 $i$ 的方差。
归一化：
$x^ij=xij−μiσi2+ϵ \hat{x}_{ij} = \frac{x_{ij} - \mu_i}{\sqrt{\sigma_i^2 + \epsilon}}$
其中， $ϵ\epsilon$ 是一个小的常数（如 $10^{-5}$ 或 $10^{-6}$ ），用于防止除零操作。
缩放和偏移：
$yij=γjx^ij+βj y_{ij} = \gamma_j \hat{x}_{ij} + \beta_j$
其中， $γ\gamma$ 和 $β\beta$ 是可学习的参数，分别用于缩放（scale）和偏移（shift），它们的形状与特征维度 $D$ 相同。

1.2LayerNorm 的特点

独立于批量大小：LayerNorm 不依赖于批量大小，因此在小批量训练或单样本训练时仍然有效。
适用于 RNN 和 Transformer：LayerNorm 特别适合处理序列数据（如 RNN、LSTM）和 Transformer 架构，因为它可以在特征维度上进行归一化。
减少内部协变量偏移：通过归一化输入数据，LayerNorm 可以减少训练过程中的内部协变量偏移，从而加速收敛。
提高模型性能：在许多任务中，LayerNorm 能够提高模型的泛化能力和稳定性。

LayerNorm 的应用场景

LayerNorm 广泛应用于自然语言处理（NLP）和计算机视觉（CV）任务，尤其是在以下架构中：

Transformer 架构：LayerNorm 是 Transformer 的标准组件，用于稳定训练过程。
RNN 和 LSTM：LayerNorm 可以缓解 RNN 中的梯度消失问题。
深度神经网络：LayerNorm 可以替代或与 BatchNorm 结合使用，以提高模型性能。

LayerNorm 与 BatchNorm 的对比

特性	BatchNorm	LayerNorm
归一化范围	小批量数据的样本维度	单个样本的特征维度
依赖批量大小	是	否
适用场景	CNN、大规模训练	RNN、Transformer、小批量训练
计算复杂度	较低（批量维度）	较高（特征维度）
训练稳定性	对批量大小敏感	独立于批量大小

总结来说，LayerNorm 是一种强大的归一化技术，特别适用于处理序列数据和 Transformer 架构。它通过在特征维度上进行归一化，能够有效减少内部协变量偏移，提高模型的稳定性和性能。

RMSNorm（Root Mean Square Normalization，均方根归一化）是一种用于深度学习的归一化技术，是LayerNorm（层归一化）的一种改进。它通过计算输入数据的均方根（Root Mean Square, RMS）来进行归一化，避免了传统归一化方法中均值和方差的计算。

2.RMSNorm（均方根归一化）

2.1RMSNorm 的计算公式

RMSNorm 的计算公式如下：
$RMSNorm(x)=γ⊙xRMS(x)\text{RMSNorm}(x) = \gamma \odot \frac{x}{\text{RMS}(x)}$
其中：
$RMS(x)=1d∑xi∈xxi2+ϵ\text{RMS}(x) = \sqrt{\frac{1}{d} \sum_{x_i \in x} x_i^2 + \epsilon}$

$γ\gamma$ 是可学习的缩放参数。
$ϵ\epsilon$ 是一个很小的值，用于防止除零操作。

RMSNorm 的特点

计算效率高：RMSNorm 不需要计算均值，仅需计算均方根，因此计算复杂度更低。
数值稳定性好：由于不进行均值对齐操作，RMSNorm 在某些情况下表现出更好的数值稳定性。
适用于低精度计算：RMSNorm 在低精度计算（如 FP16、BF16）中表现优异，适合大规模语言模型。

RMSNorm 与 LayerNorm 的对比

特性	LayerNorm	RMSNorm
是否计算均值	是	否
是否计算方差	是	是（仅计算平方均值）
计算复杂度	较高	较低
应用场景	NLP、Transformer	大规模语言模型、低精度计算