Transformer模型在处理超长文本（Long Context）时存在什么瓶颈？

Question

Accepted Answer

Transformer模型在处理超长文本（Long Context）时，面临着从底层算法、硬件资源到模型认知能力的多个维度的瓶颈。主要可以归结为以下五个核心痛点： 1. 呈二次方增长的计算与显存复杂度（最核心的算法瓶颈） 标准Transformer的核心是全局自注意力机制（Self-Attention）。 时间复杂度 $O(N^2 \cdot d)$：模型需要计算序列中每个Token与其他所有Token的相关性。当序列长度 $N$ 增加时，计算量呈平方级爆炸式增长。例如，10万长度的文本，其注意力计算量是1万长度的100倍。 空间复杂度 $O(N^2 \cdot h)$：在训练阶段，需要存储庞大的注意力矩阵（Attention Matrix）用于反向传播计算梯度。如果文本过长，显存（VRAM）会迅速耗尽，导致OOM（Out of Memory）。 2. 推理阶段的 KV Cache 危机（访存与显存瓶颈） 在自回归生成（即模型逐字输出）阶段，为了避免重复计算历史上下文，系统会把之前所有Token的 Key (K) 和 Value (V) 向量缓存下来，这被称为 KV Cache。...