上下文压缩(Context Compression),有时也被具体指代为选择性上下文(Selective Context),是一种旨在减少输入给大语言模型(LLM)的提示词(Prompt)长度,同时尽可能保留关键信息的技术。 其核心目标是解决 LLM 的上下文窗口限制(Token Limit)、推理成本(Cost)以及延迟(Latency)问题。 简单来说,它的工作原理基于一个核心假设:并非输入文本中的每一个字(Token)对于模型理解上下文都是同等重要的。 以下是其详细的工作原理和主流方法: --- 1. 核心原理:信息熵与自信息(Self-Information) 这是“选择性上下文(Selective Context)”这一具体技术路线最核心的理论基础。 基本概念: 在信息论中,如果一段内容很容易被预测(即它是显而易见的),那么它包含的信息量就很少;反之,如果一段内容很意外(难以预测),它包含的信息量就很大。 度量标准: 使用困惑度(Perplexity, PPL)或自信息(Self-Information)来衡量。 工作流程: 1. 使用小模型打分: 使用一个较小的语言模...