在 RAG(检索增强生成)系统中,PDF 文档中的表格(Tables)和图片(Images/Charts)确实是最大的痛点。传统的文本提取工具(如 PyPDF2)往往会将表格变成一堆乱码,完全忽略图片。 处理这些复杂的非结构化数据,通常需要一套“解析(Parsing) -> 处理(Processing) -> 索引(Indexing)”的组合策略。以下是目前业界最主流且有效的处理方案: --- 一、 表格(Tables)的处理策略 表格包含行、列和标题的二维关系,如果直接展平为一维文本,语义会完全丢失。 1. 提取阶段 (Extraction) 基于规则/流的工具:如果 PDF 是原生的(非扫描件),可以使用 Camelot 或 Tabula。它们利用 PDF 内部的线条坐标来重建表格。 基于视觉模型的工具(推荐):对于复杂表格(无边框、合并单元格)或扫描件,必须使用视觉模型。 Microsoft Azure Document Intelligence (前 Form Recognizer):目前业界公认表格识别效果最好的商业 API。 LlamaParse:LlamaIndex...