1. 两者是什么?

首先,我们回顾一下Transformer Block(无论是Encoder还是Decoder层)的基本结构:它包含一个注意力(Attention)子层和一个前馈网络(FFN)子层。每个子层都伴随着一个残差连接(Residual Connection)。区别就在于层归一化(LayerNorm, LN)的位置。

  • Post-LN (原始Transformer结构)

    • 结构: x -> Sublayer(x) -> x + Sublayer(x) -> LayerNorm -> output

    • 解释: 输入 x 先通过子层(如多头注意力),然后与原始的 x 进行残差连接,最后再进行层归一化。这是论文《Attention Is All You Need》中提出的原始设计。

  • Pre-LN (现在更主流的结构)

    • 结构: x -> LayerNorm -> Sublayer(LayerNorm(x)) -> x + Sublayer(LayerNorm(x)) -> output

    • 解释: 输入 x 首先经过层归一化,然后将归一化后的结果送入子层,最后再进行残差连接。

<br>

2. 各有什么优劣?

特性 Post-LN (后置归一化) Pre-LN (前置归一化)
训练稳定性 较差 非常好
梯度问题 梯度可能会爆炸或消失。由于残差连接的输出直接累加到主干路径上,随着层数加深,输出的量级会不断累积,导致梯度在反向传播时变得非常大或非常小。 梯度被很好地控制。因为每个子层的输入都先经过了归一化,其输出的量级会比较稳定,反向传播时梯度更加平滑。
Warm-up依赖 强依赖。通常需要一个较长的学习率预热(Warm-up)阶段来稳定初始训练过程,否则模型很容易不收敛。 不强依赖。即使没有或只有很短的Warm-up,模型也能稳定训练。这使得训练过程更加简单和鲁棒。
收敛速度 在Warm-up结束后,如果训练稳定,收敛速度可能更快 训练过程非常平稳,但有时收敛速度可能略慢于稳定状态下的Post-LN。
模型性能 如果能够成功训练并精调超参,其最终性能(尤其是在较浅层模型上)可能略微更好,但这需要大量的调参技巧。 性能通常非常有竞争力,且结果的方差更小(更容易复现)。在深度模型(如超过12层)上,Pre-LN的优势变得非常明显,因为它能支持更深的网络结构。
对学习率的敏感度 非常敏感 不太敏感,可以使用更大的学习率进行训练。

总结一下优劣势:

  • Post-LN的优势

    • 如果调参得当,可能达到稍高的性能上限。

    • 残差连接路径上没有归一化操作,信息传递更“纯粹”。

  • Post-LN的劣势

    • 训练不稳定,尤其是模型很深时。

    • 对学习率和Warm-up策略高度敏感,调参困难。

  • Pre-LN的优势

    • 训练极其稳定,是其最大的优点,能够有效避免梯度爆炸/消失。

    • 降低了对Warm-up的依赖,简化了训练流程。

    • 允许构建更深、更大的模型。

    • 更容易复现结果。

  • Pre-LN的劣势

    • 在某些情况下,最终性能可能略低于精心调校的Post-LN模型(尽管差距通常很小)。

    • 归一化操作在残差连接的主干路径上,可能会对信息的无损传递造成一些影响。

3. 现在的主流大模型一般用哪种呢?

答案是:绝大多数主流大语言模型都采用 Pre-LN(前置归一化)

  • GPT系列: 从GPT-2开始,到GPT-3以及后续的InstructGPT、ChatGPT,都采用了Pre-LN的架构。 这是因为Pre-LN带来的训练稳定性对于训练动辄上千亿参数的超大规模模型至关重要。使用Post-LN来训练这种规模的模型,风险极高,很容易因为梯度问题导致数百万美元的训练任务失败。

  • Llama系列: Meta AI 开源的Llama、Llama 2、Llama 3模型家族,同样采用了Pre-LN架构。 他们在论文中也明确提到了使用Pre-LN来提升训练的稳定性。

  • 其他主流模型: 包括Google的PaLM、T5(T5使用的是一种简化的Pre-LN变体),以及开源社区的众多模型(如Falcon, Mistral等),都普遍选择了Pre-LN或其变种。

为什么Pre-LN成为主流?
对于大语言模型而言,训练的稳定性和可预测性是压倒一切的首要任务。一次失败的训练运行成本是巨大的。Pre-LN提供的稳定性保证,使得研究人员和工程师可以更有信心地扩展模型深度和宽度,而不必花费过多精力在防止训练崩溃的“黑魔法”调参上。

当面试官问到这个问题时,你可以这样回答:

“这是一个关于Transformer实现细节非常好的问题。Pre-Norm和Post-Norm指的是层归一化(LayerNorm)在Transformer Block中的不同位置。

  • Post-Norm 是原始《Attention Is All You Need》论文中提出的结构,它将LayerNorm放在残差连接之后。它的优点是如果能成功训练,性能可能非常强。但它的致命缺点是训练不稳定,尤其是在模型层数很深的时候,梯度容易爆炸或消失,因此它强依赖学习率的Warm-up来度过不稳定的训练初期。

  • Pre-Norm 则是将LayerNorm放在残差连接之前,也就是先对输入进行归一化,再送入注意力或前馈网络。它最大的优点就是极大地提升了训练的稳定性。因为每一层的输入都被归一化了,梯度传播会更平滑,不容易出现问题,也降低了对Warm-up的依赖。

至于现在主流大模型的选择,毫无疑问是Pre-Norm

GPT系列、Llama系列等几乎所有现代的大语言模型都采用了Pre-Norm的架构。 根本原因在于,对于训练一个拥有数千亿参数、成本极高的模型来说,稳定性和可复现性是第一位的。Pre-Norm提供的稳定性让研究者可以放心地构建更深、更强大的模型,而不用过度担心训练过程会突然崩溃。虽然Post-Norm在理论上可能存在微弱的性能优势,但在大规模实践中,Pre-Norm的可靠性优势是压倒性的。”

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐