什么是聚集索引（Clustered Index）和非聚集索引（Non-clustered Index）？

知识点图片

本文通过字典的比喻，详细解释了数据库中聚集索引（物理排序）与非聚集索引（逻辑指针）的核心区别、优缺点及适用场景。

这是一个非常核心的数据库概念。我会用一个简单的比喻来解释，然后再深入技术细节。

核心比喻：字典

想象一下你有一本很厚的英汉词典。

聚集索引 (Clustered Index) - 就像字典本身的正文
- 字典里的单词是按照字母顺序（A, B, C...）物理排列的。如果你要查找 "Banana"，你知道它在 "Apple" 之后，"Cat" 之前。你直接翻到 B 的部分就能快速找到它。
- 数据本身（单词的释义）就存放在索引（单词）的旁边。找到单词，就找到了它的所有信息。
- 核心特点：数据行的物理存储顺序与索引顺序完全一致。 一张表只能有一个聚集索引，因为数据只能有一种物理排序方式。
非聚集索引 (Non-clustered Index) - 就像字典末尾的 "汉字笔画索引"
- 这个笔画索引是独立于正文的一个结构。它按照汉字的笔画数进行排序。
- 当你通过笔画找到一个汉字时，索引本身并不包含这个字的详细解释。它只告诉你：“这个字在正文的第XXX页”。然后你需要根据这个页码，翻到字典的正文部分去查找详细信息。
- 核心特点：索引的逻辑顺序与数据行的物理存储顺序没有关系。 索引本身是一个独立的数据结构，它包含一个指向实际数据行的“指针”。一张表可以有多个非聚集索引。

技术详解

现在，我们把这个比喻转换成数据库术语。

聚集索引 (Clustered Index)

聚集索引决定了数据在磁盘上的物理存储顺序。当你在一个表上创建聚集索引时，数据库会根据你指定的列（索引键）对表中的所有行进行物理排序。

结构：聚集索引通常使用 B-Tree 结构。它的叶子节点（leaf nodes）直接包含数据行本身。
数量：每张表最多只能有一个聚集索引。因为数据行只能有一种物理排序。
创建：在很多数据库系统（如 SQL Server）中，当你定义一个主键（Primary Key）时，系统会自动为该列创建一个聚集索引。当然，你也可以手动指定在其他列上创建。
优点：
- 范围查询极快：因为数据是连续存储的，所以对于 WHERE ID BETWEEN 100 AND 200 这样的范围查询，数据库可以快速定位到起始点，然后顺序读取即可，效率非常高。
- 访问速度快：根据聚集索引键查找数据非常快，因为索引的叶子节点就是数据本身，找到索引就找到了数据，不需要额外的IO操作（“回表”）。
缺点：
- 数据插入/更新/删除慢：因为要维持数据的物理有序性，当插入新数据时，可能需要移动大量现有数据来为新行腾出空间（这被称为“页分裂” Page Split）。更新聚集索引列的值（这很少见，但可能发生）成本也很高，因为它相当于删除旧数据再插入新数据。
- 占用空间：聚集索引本身就是数据表，所以它不占用额外的存储空间（相对于数据本身而言）。

非聚集索引 (Non-clustered Index)

非聚集索引拥有一个独立于数据行的结构。这个结构也是按索引键排序的，但它的叶子节点并不存储完整的数据行。

结构：非聚集索引同样通常使用 B-Tree 结构。但它的叶子节点存储的是索引键的值和一个指向实际数据行的“指针”或“书签”（Bookmark）。
- 如果表有聚集索引，这个“指针”就是行的聚集索引键。
- 如果表没有聚集索引（这种表称为“堆表” Heap），这个“指针”就是一个行标识符（RID）。
数量：一张表可以有多个非聚集索引（例如，你可以为 LastName 列建一个，为 Email 列再建一个）。
查询过程：
1. 在非聚集索引中查找索引键。
2. 从索引的叶子节点获取指向数据行的“指针”。
3. 使用该指针到数据表中定位并读取完整的数据行。这个第3步的操作被称为“键查找” (Key Lookup) 或 “回表” (RID Lookup)。
优点：
- 灵活性高：可以为一张表创建多个非聚集索引，以优化不同条件的查询。
- 数据插入/更新/删除相对较快：插入新数据时，只需要在数据页的任何位置找到空间插入，然后更新所有非聚集索引即可。不需要移动数据行本身。
缺点：
- 需要额外存储空间：每个非聚集索引都是一个独立的数据结构，需要占用额外的磁盘空间。
- 可能需要回表：如果查询的列没有完全被索引覆盖（见下文“覆盖索引”），就需要一次额外的“回表”操作来获取数据，这会增加IO开销。
- 不适合范围查询：虽然也可以用于范围查询，但因为数据在磁盘上是离散存储的，可能需要多次回表，性能不如聚集索引。

总结与对比

特性	聚集索引 (Clustered Index)	非聚集索引 (Non-clustered Index)
物理顺序	决定数据行的物理存储顺序	不决定数据行的物理存储顺序
数量/表	最多 1 个	可以有多个 (通常有上限，如249个)
叶子节点	存储完整的数据行	存储索引键 + 指向数据行的指针
查询性能	范围查询极快，单点查询快	单点查询快，但可能需要“回表”
写操作性能	插入、更新、删除较慢，可能引起页分裂	插入、更新、删除相对较快
存储空间	不占用额外空间 (本身就是数据)	需要额外的磁盘空间
比喻	字典正文	字典末尾的笔画索引

何时使用？

聚集索引通常用在：
- 主键（Primary Key）：尤其是自增的ID列，因为新数据总是添加到末尾，可以最大限度地减少页分裂。
- 经常进行范围查询的列（如日期、ID范围）。
- 经常用于 ORDER BY 或 GROUP BY 的列。
非聚集索引通常用在：
- 经常在 WHERE 子句中用于精确查找的列（如 Email, PhoneNumber）。
- 外键（Foreign Key），以加速 JOIN 操作。
- 创建覆盖索引（Covering Index）：如果一个非聚集索引包含了查询所需的所有列（SELECT 和 WHERE 子句中的所有列），那么数据库引擎就无需“回表”，可以直接从索引中获取所有数据，极大地提升查询性能。

播面

什么是聚集索引（Clustered Index）和非聚集索引（Non-clustered Index）？

核心比喻：字典

技术详解

聚集索引 (Clustered Index)

非聚集索引 (Non-clustered Index)

总结与对比

何时使用？

你好！我是 Bomian 助手