如何优化LIMIT深分页查询？（例如 LIMIT 1000000, 10）

知识点图片

针对 LIMIT 深分页查询慢的问题，本文介绍了两种核心优化方案：一是推荐使用索引“书签法”替代 OFFSET，二是使用“延迟关联”先查ID再关联全表，从而避免扫描大量数据。

这是一个非常经典且常见的数据库性能问题。LIMIT offset, count 这种深分页查询之所以效率低下，核心原因在于 offset。

我们先来分析一下为什么 LIMIT 1000000, 10 会这么慢。

问题根源：为什么深分页查询慢？

数据库执行 LIMIT offset, count 时，它的工作流程通常是这样的：

根据 WHERE 条件和 ORDER BY 子句，从存储中获取所有符合条件的行。
在内存（或临时文件）中进行排序。
扫描并跳过（discard）前面的 offset 条记录。在我们的例子中，就是 扫描并扔掉 1,000,000 条记录。
最后，再取 count 条（10条）记录作为结果返回。

瓶颈就在第3步。数据库需要实实在在地读取并处理那100万条数据，即使你根本不需要它们。这导致了巨大的 I/O 和 CPU 浪费，随着 offset 的增大，查询时间会线性增长。

优化方案

优化的核心思想是 避免扫描并跳过大量的行。下面介绍几种从优到劣的常用优化策略。

方案一：基于索引的“书签”法（Seek Method / Keyset Pagination）

这是最高效、最推荐的方案，尤其适用于“加载更多”或“上一页/下一页”的场景。

核心思想：不再使用 OFFSET，而是利用 WHERE 子句和一个有序且唯一的索引列（通常是主键 id 或创建时间 create_time）来定位下一页的起始位置。

场景1：按自增ID排序

假设你的查询是按主键 id 升序排列的。

优化前 (慢查询):

sql

-- 查询第 100001 页，每页 10 条
SELECT * FROM posts ORDER BY id ASC LIMIT 1000000, 10;

优化后 (高效查询):
客户端在请求下一页时，需要带上上一页最后一条记录的 id 值（假设是 1000000）。

sql

-- 查询 id > 1000000 的后 10 条记录
SELECT * FROM posts WHERE id > 1000000 ORDER BY id ASC LIMIT 10;

优势：
数据库可以利用 id 上的索引，直接“跳”到 id = 1000000 的位置，然后向后读取10条记录。这几乎是瞬时的，无论数据表有多大。这是一种索引范围扫描（Index Range Scan），性能极高。

场景2：按非唯一键排序（如创建时间 create_time）

如果按 create_time 排序，可能会有多条记录的时间戳完全相同，这会导致分页时数据重复或丢失。

解决方案：增加一个唯一的列（如 id）作为“决胜局”条件（tie-breaker）。

优化前 (慢查询):

sql

SELECT * FROM posts ORDER BY create_time DESC, id DESC LIMIT 1000000, 10;

优化后 (高效查询):
客户端需要传递上一页最后一条记录的 create_time（例如 '2023-10-27 10:00:00'）和 id（例如 12345）。

sql

-- 使用 (create_time, id) 组合条件来定位
SELECT * 
FROM posts 
WHERE 
    (create_time, id) < ('2023-10-27 10:00:00', 12345) -- MySQL 支持行值比较
ORDER BY 
    create_time DESC, id DESC 
LIMIT 10;

如果你的数据库不支持元组比较（(...) < (...)），可以用 OR 逻辑改写，效果一样：

sql

SELECT * 
FROM posts 
WHERE 
    create_time < '2023-10-27 10:00:00' 
    OR (create_time = '2023-10-27 10:00:00' AND id < 12345)
ORDER BY 
    create_time DESC, id DESC 
LIMIT 10;

前提： (create_time, id) 必须有一个联合索引来保证查询效率。

“书签”法总结：

优点：性能极高，扩展性好，是应对深分页的最佳实践。
缺点：不适用于需要直接跳转到任意页码（如“跳转到第500页”）的场景，因为它只能实现“上一页/下一页”的连续翻页。

方案二：子查询/延迟关联法 (Delayed Join)

如果业务场景必须支持跳转到任意页码，但又想优化性能，可以使用此方法。

核心思想：先通过覆盖索引（Covering Index）快速定位到目标页的 id 列表，然后再用这些 id 去关联（JOIN）主表获取完整的行数据。

优化前 (慢查询):

sql

SELECT * FROM posts ORDER BY create_time DESC LIMIT 1000000, 10;

优化后 (高效查询):
假设 (create_time, id) 上有索引。

sql

SELECT t1.* 
FROM 
    posts t1
JOIN 
    (SELECT id FROM posts ORDER BY create_time DESC LIMIT 1000000, 10) t2
ON 
    t1.id = t2.id;

原理解析：

子查询 (SELECT id ...)：这个查询只涉及 id 和 create_time 两列。如果 (create_time, id) 上有索引，数据库可以仅通过扫描索引就完成排序和 LIMIT 操作，无需访问主表数据。索引通常比主表小得多，所以这个过程非常快。
外层 JOIN：子查询快速得到了目标页的10个 id。外层查询通过这10个 id（主键）去主表中精确获取完整的行数据，这个过程也很快。

延迟关联法总结：

优点：在保留任意页码跳转功能的前提下，显著提升查询性能。
缺点：性能不如“书签”法，因为子查询仍然需要扫描大量的索引条目。查询语句相对复杂。

方案三：业务层面的限制与优化

从产品和业务角度出发，规避深分页问题。

限制最大页码：
直接在UI上限制用户能够访问的最大页码，例如只允许查看前100页。问问产品经理：“真的有用户会翻到第10万页吗？” 大多数情况下，用户需要的是更精确的搜索，而不是无尽的翻页。
设定时间范围：
引导用户通过筛选时间范围来缩小结果集，例如“查询近一个月的数据”。这样从根本上减少了需要分页的总数据量。

方案四：使用其他技术（如 Elasticsearch）

如果分页和搜索是应用的核心功能，并且数据量巨大，可以考虑将相关数据同步到专门的搜索引擎中，如 Elasticsearch。

Elasticsearch 对分页查询有非常好的支持。它同样提供了类似于“书签”法的 search_after 参数，性能极高，是解决深分页问题的理想工具。

总结与建议

优化方案	原理	优点	缺点	适用场景
书签法 (Seek Method)	使用 `WHERE` 子句定位下一页的起始点，避免 `OFFSET`	性能最佳，扩展性极好	无法直接跳转到任意页码	“加载更多”、”上一页/下一页”等无限滚动场景
延迟关联法 (Delayed Join)	先通过索引快速定位ID，再关联主表获取数据	保留了跳转功能，性能提升明显	不如书签法快，查询稍复杂	需要支持任意页码跳转的后台分页、报表等
业务限制	从产品设计上规避深分页需求	实现简单，无需改动复杂代码	可能会影响部分用户体验	对分页要求不高的普通查询场景
使用Elasticsearch	将数据同步到搜索引擎进行查询	功能强大，性能优异，支持复杂搜索	增加了系统架构的复杂性	搜索和分析是核心功能的复杂应用

最终建议：

首选“书签法”：对于移动端和现代Web应用，这是最理想的方案。
次选“延迟关联法”：如果必须支持跳转页码，这是一个很好的数据库层面优化。
最后，反思业务需求：与产品团队沟通，确认深分页的必要性，通常可以通过更好的产品设计来规避此问题。

播面

问题根源：为什么深分页查询慢？

优化方案

方案一：基于索引的“书签”法（Seek Method / Keyset Pagination）

方案二：子查询/延迟关联法 (Delayed Join)

方案三：业务层面的限制与优化

方案四：使用其他技术（如 Elasticsearch）

总结与建议

你好！我是 Bomian 助手