训练 Transformer 模型时,最常用且被视为行业标准的优化器是 AdamW(Adam with decoupled Weight Decay)。 虽然最初的 Transformer 论文(Attention Is All You Need)使用的是标准的 Adam 优化器,但在后来的实践和研究中,AdamW 几乎已经完全取代了 Adam。 以下是关于 Transformer 优化器的详细解析: 1. 为什么是 AdamW 而不是标准的 Adam? 标准 Adam 的问题: 在标准的 Adam 优化器中,L2 正则化(权重衰减)是与梯度更新耦合在一起的。由于 Adam 会对梯度进行自适应缩放,这导致权重衰减的效果被削弱,使得模型容易过拟合。 AdamW 的改进: AdamW 将权重衰减(Weight Decay)从梯度更新步骤中解耦出来,直接应用于权重本身。由于 Transformer 模型参数量巨大,极易过拟合,正确的权重衰减对模型的泛化能力至关重要。因此,AdamW 在训练 BERT、GPT 系列、LLaMA 等模型时成为了标配。 2. Transformer 训练的“...