在调用大语言模型(LLM)API时,精准计算 Token 数量并设计健壮的截断策略是保证系统稳定性、控制成本和避免 (超出上下文窗口)错误的核心能力。 以下是完整的解决方案,分为精准计算 Token 和 超限兜底截断策略 两部分。 --- 第一部分:如何在发送请求前精准计算 Token 数量? Token 的计算并不是简单的字符数或单词数统计,不同的模型使用了不同的分词器(Tokenizer)。 1. 精准计算(以 OpenAI / GPT 系列为例) 对于 OpenAI 模型,最精准的方式是使用官方提供的 库。注意:不能仅仅计算文本的 Token,必须加上对话格式(ChatML)带来的额外开销。 2. 其他模型的计算方式 开源模型 (Llama, Qwen, ChatGLM 等): 使用 HuggingFace 的 库加载对应的 。 Anthropic (Claude): 使用官方的 SDK(如 TypeScript 的 )进行离线计算。 3. 粗略估算法(前端或轻量级场景) 如果不方便引入分词器库,可以使用经验公式进行估算(建议计算结果乘以 作为安全冗余): 纯英文:1 To...