现代大语言模型（如LLaMA）中常使用的 RMSNorm 和传统的 LayerNorm 有什么区别？

Question

Accepted Answer

在现代大语言模型（如 LLaMA、Mistral、Gemma 等）中，RMSNorm（Root Mean Square Normalization，均方根归一化） 已经基本上取代了传统的 LayerNorm（层归一化）。 这两者的核心区别在于：RMSNorm 是 LayerNorm 的一种“简化加速版”。它去除了 LayerNorm 中的均值计算（Mean-centering），从而在保持模型表现几乎不变的前提下，显著提升了计算效率。 以下是它们之间详细的对比和原理解析： 1. 数学公式上的区别 传统的 LayerNorm LayerNorm 需要同时计算输入向量 $x$ 的均值（Mean）和方差（Variance），并将输入进行平移和缩放。 公式如下： 1. 计算均值： $\mu = \frac{1}{d} \sum{i=1}^{d} xi$ 2. 计算方差： $\sigma^2 = \frac{1}{d} \sum{i=1}^{d} (xi - \mu)^2$ 3. 归一化并仿射变换： $y = \frac{x - \mu}{\sqrt{\sigma^2 + \epsilon...