Transformer Decoder(解码器)在训练(Training)和推理(Inference/Generation)阶段的工作模式有着本质的区别。 最核心的差异可以用一句话概括:训练阶段是“并行”的且使用了“教师强制(Teacher Forcing)”,而推理阶段是“串行(自回归)”的。 以下是两个阶段具体工作模式的详细对比: 一、 训练阶段 (Training Phase) 在训练时,我们拥有完整的标准答案(Ground Truth),这使得 Decoder 可以进行高效的并行计算。 1. 输入方式与教师强制 (Teacher Forcing): Decoder 的输入是完整的标准目标序列(Target Sequence),但会整体向右平移一位(Shifted Right),并在最前面加上起始符 。 Teacher Forcing: 无论模型在前一个时间步预测出了什么错字,在预测下一个字时,输入的依然是标准的正确答案。这防止了早期预测错误带来的雪崩效应(误差累积),使模型能更快收敛。 2. 并行计算 (Parallel Computation): 因为已经知道了所有的目...