训练Transformer时常使用的优化器是什么？

Question

Accepted Answer

训练 Transformer 模型时，最常用且被视为行业标准的优化器是 AdamW（Adam with decoupled Weight Decay）。 虽然最初的 Transformer 论文（Attention Is All You Need）使用的是标准的 Adam 优化器，但在后来的实践和研究中，AdamW 几乎已经完全取代了 Adam。 以下是关于 Transformer 优化器的详细解析： 1. 为什么是 AdamW 而不是标准的 Adam？ 标准 Adam 的问题： 在标准的 Adam 优化器中，L2 正则化（权重衰减）是与梯度更新耦合在一起的。由于 Adam 会对梯度进行自适应缩放，这导致权重衰减的效果被削弱，使得模型容易过拟合。 AdamW 的改进： AdamW 将权重衰减（Weight Decay）从梯度更新步骤中解耦出来，直接应用于权重本身。由于 Transformer 模型参数量巨大，极易过拟合，正确的权重衰减对模型的泛化能力至关重要。因此，AdamW 在训练 BERT、GPT 系列、LLaMA 等模型时成为了标配。 2. Transformer 训练的“...