在多轮循环(例如多轮对话、Agent执行任务的循环)中监控并汇总 Token 消耗,核心思路是:在循环外部定义一个全局状态(变量或对象),在每次循环内部解析大模型 API 返回的 信息,并将其累加到全局状态中。 具体实现方式取决于你使用的技术栈。以下提供三种最常见的场景和代码示例:纯代码(以 OpenAI 为例)、LangChain 以及 LangGraph。 --- 方法一:纯 Python 原生调用(以 OpenAI SDK 为例) 这是最基础也最直观的方法。大模型的 API 响应体中通常都会带有一个 字段。 --- 方法二:使用 LangChain (通过 Callbacks) 在 LangChain 中,API 的返回结果被封装了,直接获取 token 有时不方便。官方推荐使用回调机制 (Callbacks),特别是 。 注:如果你将 放在 循环的外面,它会自动帮你把整个循环所有的调用都累加在一起,无需手动写加法。 --- 方法三:使用 LangGraph (完美契合“全局状态”概念) 在开发复杂的 Agent 时(如 LangGraph),系统本身就是由图(Graph)...