梯度爆炸/消失在大规模训练中会引发哪些系统级问题？

Question

Accepted Answer

在大规模分布式训练（如LLM训练，涉及成百上千张GPU）中，梯度爆炸（Gradient Explosion）和梯度消失（Gradient Vanishing）不仅仅是算法层面的收敛问题，它们会引发一系列严重的系统级（System-level）挑战。 这些问题会直接冲击基础设施的稳定性、通信效率、存储I/O以及整体的算力利用率（Goodput）。以下是详细的系统级问题分析： 1. 分布式通信中的“毒性扩散” (Global Contamination via AllReduce) 这是大规模训练中最致命的系统问题。 现象：在数据并行（DDP/FSDP）模式下，如果某一张GPU（Rank N）上出现了梯度爆炸（导致 NaN 或 Inf），在进行梯度同步（ 或 ）时，这个 NaN 会与所有其他 GPU 的正常梯度相加。 系统后果： 全集群瞬间瘫痪：根据 IEEE 754 标准，。因此，一次通信操作后，整个集群所有 GPU 的模型权重瞬间全部变成 NaN。 难以定位故障源：在成千上万个进程中，很难通过简单的日志快速定位是哪一张卡、哪一批数据首先触发了 NaN，增加了 Debug 的系统复...