降低 AI Agent(智能体)的 Token 成本是目前大模型应用落地中最关键的优化环节之一。Agent 通常需要多次循环调用 LLM、携带大量上下文(Memory)以及处理复杂的工具定义,因此消耗远高于普通对话。 以下是从模型选择、Prompt 优化、架构设计、缓存机制等多个维度总结的降低成本策略: --- 1. 模型策略:混合调度 (Model Routing) 这是最直接且效果最显著的方法。不要让昂贵的模型(如 GPT-4o, Claude 3.5 Sonnet)做所有事情。 大小模型分工: 大脑(Controller): 使用强模型(GPT-4o)进行任务规划、复杂推理和工具选择。 手脚(Worker): 使用小模型(GPT-4o-mini, Claude 3 Haiku, Llama 3-8B)执行具体的、简单的子任务(如文本摘要、格式转换、简单分类)。 模型路由(Router): 在 Agent 入口处增加一个极其轻量的分类器(甚至可以是基于规则或极小模型),判断用户意图。如果是简单闲聊,直接分发给廉价模型。 2. 上下文与 Prompt 优化 (Context O...