MoE (Mixture of Experts,混合专家) Transformer 能够在不显著增加推理计算量(FLOPs)的前提下大幅扩大模型参数量,其核心秘诀在于稀疏激活(Sparse Activation)机制。 简单来说:模型虽然极其庞大,但对于输入的每一个词(Token),系统只会“唤醒”并使用模型中极小的一部分参数来处理它。 以下是其具体的工作原理和实现机制: 1. 稠密模型(Dense)的痛点 在传统的标准 Transformer(如 GPT-3, LLaMA-2)中,每一层包含注意力机制(Attention)和前馈神经网络(FFN)。对于每一个输入的 Token,它必须经过网络中的每一个参数进行矩阵乘法。 计算量与参数量强绑定:你想把模型的知识容量翻倍(参数量乘2),推理时的计算量和延迟也会直接翻倍。 2. MoE 的核心改造:拆分与路由 MoE 架构通常保持 Attention 层不变(所有人共享),而将计算量最大的 FFN 层替换为 MoE 层。MoE 层包含两个核心组件: 专家网络(Experts):将原本一个巨大的 FFN,拆分成 $N$ 个较小的、结构相...