在现代大语言模型(如 LLaMA、Mistral、Gemma 等)中,RMSNorm(Root Mean Square Normalization,均方根归一化) 已经基本上取代了传统的 LayerNorm(层归一化)。 这两者的核心区别在于:RMSNorm 是 LayerNorm 的一种“简化加速版”。它去除了 LayerNorm 中的均值计算(Mean-centering),从而在保持模型表现几乎不变的前提下,显著提升了计算效率。 以下是它们之间详细的对比和原理解析: 1. 数学公式上的区别 传统的 LayerNorm LayerNorm 需要同时计算输入向量 $x$ 的均值(Mean)和方差(Variance),并将输入进行平移和缩放。 公式如下: 1. 计算均值: $\mu = \frac{1}{d} \sum{i=1}^{d} xi$ 2. 计算方差: $\sigma^2 = \frac{1}{d} \sum{i=1}^{d} (xi - \mu)^2$ 3. 归一化并仿射变换: $y = \frac{x - \mu}{\sqrt{\sigma^2 + \epsilon...