在大规模分布式训练(如LLM训练,涉及成百上千张GPU)中,梯度爆炸(Gradient Explosion)和梯度消失(Gradient Vanishing)不仅仅是算法层面的收敛问题,它们会引发一系列严重的系统级(System-level)挑战。 这些问题会直接冲击基础设施的稳定性、通信效率、存储I/O以及整体的算力利用率(Goodput)。以下是详细的系统级问题分析: 1. 分布式通信中的“毒性扩散” (Global Contamination via AllReduce) 这是大规模训练中最致命的系统问题。 现象:在数据并行(DDP/FSDP)模式下,如果某一张GPU(Rank N)上出现了梯度爆炸(导致 NaN 或 Inf),在进行梯度同步( 或 )时,这个 NaN 会与所有其他 GPU 的正常梯度相加。 系统后果: 全集群瞬间瘫痪:根据 IEEE 754 标准,。因此,一次通信操作后,整个集群所有 GPU 的模型权重瞬间全部变成 NaN。 难以定位故障源:在成千上万个进程中,很难通过简单的日志快速定位是哪一张卡、哪一批数据首先触发了 NaN,增加了 Debug 的系统复...