MoE (Mixture of Experts) Transformer 如何在不显著增加推理计算量的前提下扩大模型参数量？

Question

Accepted Answer

MoE (Mixture of Experts，混合专家) Transformer 能够在不显著增加推理计算量（FLOPs）的前提下大幅扩大模型参数量，其核心秘诀在于稀疏激活（Sparse Activation）机制。 简单来说：模型虽然极其庞大，但对于输入的每一个词（Token），系统只会“唤醒”并使用模型中极小的一部分参数来处理它。 以下是其具体的工作原理和实现机制： 1. 稠密模型（Dense）的痛点 在传统的标准 Transformer（如 GPT-3, LLaMA-2）中，每一层包含注意力机制（Attention）和前馈神经网络（FFN）。对于每一个输入的 Token，它必须经过网络中的每一个参数进行矩阵乘法。 计算量与参数量强绑定：你想把模型的知识容量翻倍（参数量乘2），推理时的计算量和延迟也会直接翻倍。 2. MoE 的核心改造：拆分与路由 MoE 架构通常保持 Attention 层不变（所有人共享），而将计算量最大的 FFN 层替换为 MoE 层。MoE 层包含两个核心组件： 专家网络（Experts）：将原本一个巨大的 FFN，拆分成 $N$ 个较小的、结构相...