Pre-Norm(前置归一化)和 Post-Norm(后置归一化)是 Transformer 架构中 Layer Normalization (LN) 放置位置的两种不同策略。 虽然只是位置上的微小变动,但它们对模型的训练稳定性、收敛速度以及最终性能有着显著的影响。 以下是详细的对比分析: --- 1. 结构位置的区别 假设 $x$ 是输入,$F(x)$ 是子层(如 Self-Attention 或 Feed Forward Network),LayerNorm 为归一化操作。 Post-Norm (原始 Transformer / BERT): 顺序:先做子层计算,再残差连接,最后做归一化。 公式:$x{t+1} = \text{LayerNorm}(xt + F(xt))$ 特点:归一化在残差连接之后。 Pre-Norm (GPT-2 / GPT-3 / LLaMA): 顺序:先做归一化,再做子层计算,最后残差连接。 公式:$x{t+1} = xt + F(\text{LayerNorm}(xt))$ 特点:归一化在残差连接之内(子层之前),主干通路(Identity Pat...