混合精度训练（Mixed Precision Training）中FP16 和 BF16 的区别是什么？

知识点图片

在混合精度训练（Mixed Precision Training）中，FP16 (Half Precision) 和 BF16 (Brain Floating Point) 是两种最常用的低精度浮点数格式。

它们的核心区别在于比特位的分配方式，这直接导致了它们在数值范围（Range）、精度（Precision）以及训练稳定性上的显著差异。

以下是详细的对比解析：

这两种格式都使用 16 个比特（bits）来表示一个数字，但内部结构不同。作为参考，标准的 FP32 (单精度) 是：1位符号 + 8位指数 + 23位尾数。

格式	总位数	符号位 (Sign)	指数位 (Exponent)	尾数位 (Mantissa/Fraction)
FP32	32	1	8	23
FP16	16	1	5	10
BF16	16	1	8	7

FP16：指数位只有 5 位，能表示的最大数值约为 $65,504$ $65, 504$ 。
- 问题：在深度学习训练中，梯度或激活值很容易超过这个范围（上溢 Overflow）或者变得极小（下溢 Underflow）。
BF16：指数位有 8 位，与 FP32 一样，能表示的最大数值约为 $3.4 \times 10^{38}$ $3.4 \times 1 0^{38}$ 。
- 优势：极难发生上溢或下溢，数值范围非常宽广。

这是 BF16 越来越受欢迎的主要原因：

FP16：由于范围窄，容易发生梯度下溢（变成0）。因此，必须使用 Loss Scaling（损失缩放） 技术，将 Loss 放大以保住梯度，更新权重后再缩小回去。这增加了训练的复杂性。
BF16：由于范围宽，通常不需要 Loss Scaling。它可以像 FP32 一样直接“即插即用”，大大简化了混合精度训练的流程，且训练过程更稳定（不容易出现 NaN）。

FP16：支持范围最广。NVIDIA 的 Volta (V100)、Turing (T4)、Ampere (A100) 以及更新的显卡都支持。
BF16：主要是针对较新的硬件。
- Google TPU：原生支持（BF16 就是 Google Brain 发明的）。
- NVIDIA GPU：需要 Ampere 架构 (A100, 3090) 或更新的 Hopper (H100, 4090) 才支持。V100 和 T4 不支持 BF16 加速。

如果你有 A100/H100/TPU 等新硬件：首选 BF16。它更稳定，不需要折腾 Loss Scaler，是大语言模型（LLM）训练的标准配置。
如果你使用 V100/2080Ti/T4 等旧硬件：你只能使用 FP16。虽然需要处理 Loss Scaling，但它依然能提供比 FP32 快得多的速度。
在推理（Inference）阶段：FP16 有时比 BF16 更受欢迎，因为推理通常不需要反向传播（不需要处理梯度下溢），而 FP16 较高的精度有助于保持模型输出的质量。

播面