什么是“父子索引”（Parent-Child Indexing）或“小块检索大块生成”（Small-to-Big Retrieval）策略？

Question

Accepted Answer

“父子索引”（Parent-Child Indexing） 和 “小块检索大块生成”（Small-to-Big Retrieval） 指的是同一种在 RAG（检索增强生成）应用中用于优化效果的高级策略。 简单来说，这种策略的核心思想是：用“小切片”去匹配用户的搜索，但把包含该切片的“大切片”喂给大模型。 这种策略旨在解决传统 RAG 中的一个核心矛盾：检索精度与上下文完整性之间的权衡。 以下是详细的解释： --- 1. 核心痛点：为什么要用这个策略？ 在构建 RAG 系统时，我们需要把长文档切分成块（Chunks）。这里存在一个两难的选择： 如果切片很小（Small Chunks）： 优点： 检索非常精准。因为文本短，语义集中，向量（Embedding）能很好地代表这段话的含义，容易匹配到用户的具体问题。 缺点： 缺乏上下文。如果直接把这短短的一句话喂给 LLM（大模型），模型可能因为缺乏前因后果而无法回答问题，或者产生幻觉。 如果切片很大（Big Chunks）： 优点： 上下文丰富。模型能看到完整的段落或章节，更容易理解逻辑，生成的回答质量高。 缺点： 检索精度低。一段长文本...

播面

什么是“父子索引”（Parent-Child Indexing）或“小块检索大块生成”（Small-to-Big Retrieval）策略？

1. 核心痛点：为什么要用这个策略？

2. 工作原理（Workflow）

第一步：层级切分（Indexing）

第二步：向量化与存储

第三步：检索（Retrieval）

第四步：置换与生成（Small-to-Big）

3. 变体：句子窗口检索（Sentence Window Retrieval）

4. 优缺点总结

5. 常见实现工具

总结

你好！我是 Bomian 助手