在分布式训练 Mixture of Experts (MoE) 模型时,最核心的通信瓶颈主要源于 专家并行(Expert Parallelism) 策略下的数据路由过程。 简单来说,MoE 的通信瓶颈可以归纳为:All-to-All 通信原语的高延迟与带宽占用,以及由负载不均衡导致的通信与计算等待。 以下是详细的深度解析: 1. 核心瓶颈:All-to-All 通信 (Dispatch & Combine) 在标准的 Transformer 中,数据通常只需在层与层之间流动(模型并行)或仅在反向传播时同步梯度(数据并行)。但在 MoE 中,引入了动态路由机制: 机制: 输入的 Token 被 Router(门控网络)分配给不同的 Expert。在专家并行模式下,不同的 Expert 驻留在不同的 GPU/TPU 上。 过程: 1. Dispatch(分发): GPU A 上的 Token 可能被分配给 GPU B 上的 Expert。这意味着 GPU A 必须将该 Token 的激活值(Activations)发送给 GPU B。当所有 GPU 都要互相发送数据时,这就是一个 A...