Norm 的两种结构, Pre-Norm vs Post-Norm

1 Pre-Norm 与 Post-Norm 结构

所有现代的大语言模型（LMs）都采用 Pre-Norm 结构

alt text

左图为 Post-Norm 结构，即 LayerNorm 放在残差连接（addition）之后

也就是说，每个子层（Self-Attention 或 FFN）计算完，再执行 LayerNorm。

这种结构最早由 Vaswani et al., 2017《Attention is All You Need》 提出。

右图为 Pre-Norm 结构，即 先归一化，再执行子层计算，最后加残差。这是后来为了解决深层网络训练时的 梯度消失 / 爆炸问题 而改进的版本

“Pre-LayerNorm（预归一化）” 是 Transformer 结构在深层化和大规模化过程中的关键改进。早期研究者在 2019–2020 年左右提出这一结构，最初的动机是简化训练过程、提升稳定性

Removing warmup

最初提出 Pre-LayerNorm 的直接优势在于：

可以在训练初期使用较高的学习率，而不需要学习率 warmup 阶段

在标准 Post-Norm Transformer（LayerNorm 在残差之后）中：

而采用 Pre-Norm 后：

对于任意子层函数 $F(x)$， Post-Norm 与 Pre-Norm 的计算方式分别为：

\[\text{Post-Norm: } y = \text{LayerNorm}(x + F(x))\] \[\text{Pre-Norm: } y = x + F(\text{LayerNorm}(x))\]

Pre-Norm 在前向传播时就对输入做归一化使得每个层的梯度在反向传播时保持数值尺度稳定

Stability and larger LRs for large networks

随着模型规模不断增大（如 GPT-3、PaLM、LLaMA 等），Pre-Norm 的真正价值被重新认识

时期	主要理由	效果
最初（2020 前后）	可以移除或缩短 warmup 阶段	提升初期训练稳定性
现在（2023+）	提高深层网络梯度稳定性，允许更大学习率	大模型训练稳定、高效