估算 Decoder-only 模型(如 GPT 系列、LLaMA、Qwen 等)的参数量和显存占用是深度学习工程中的基本功。显存占用主要分为 推理(Inference) 和 训练(Training) 两个场景,两者的计算逻辑完全不同。 以下是详细的估算指南: --- 一、 符号定义 在开始之前,我们需要定义几个核心超参数: $L$ (Layers): 模型层数 (Number of layers) $h$ (Hidden size): 隐藏层维度 (Hidden dimension) $V$ (Vocab size): 词表大小 (Vocabulary size) $s$ (Sequence length): 序列长度/上下文长度 $B$ (Batch size): 批次大小 $A$ (Attention heads): 注意力头数 --- 二、 参数量估算 (Parameter Count) 对于标准的 Transformer Decoder 架构,参数主要集中在两个部分:Attention 层 和 FFN (Feed-Forward Network) 层。 1. 估算公式 ...