在 RAG(检索增强生成)系统中,用户的 Query 往往是非结构化的、口语化的,甚至是非常简短或充满指代词(如“它”、“那个”)的。这种 Query 与知识库中高质量、详细的文档之间存在巨大的语义鸿沟(Semantic Gap),直接检索往往效果很差。 解决这一问题通常需要引入 Query Understanding (QU) 模块,主要通过以下几个维度的策略来优化: --- 1. 基于 LLM 的 Query 改写(Query Rewriting) 这是目前最主流且有效的方法。利用 LLM 强大的语义理解能力,将原始的“烂”Query 转化为适合检索的“好”Query。 指代消解(Coreference Resolution): 场景: 用户在多轮对话中说“它多少钱?”。 方法: 将当前 Query 结合历史对话上下文(Chat History)输入 LLM,要求 LLM 生成一个独立的问题(Standalone Question)。 示例: History: "iPhone 15 Pro Max 有哪些颜色?" -> "有钛金属原色。" User: "它多少钱?" Rewr...