使用 Flink SQL 时，对比使用 DISTINCT 关键字去重和使用 ROW_NUMBER() 筛选第一条去重（Deduplication），它们在状态保留策略和性能上有什么区别？

Question

Accepted Answer

在 Flink SQL 中，数据去重是一个非常常见的需求。虽然 和 （保留第一条）在批处理中可能达到类似的效果，但在流处理（Streaming）中，由于底层实现和优化机制完全不同，它们在状态保留策略和性能上有着显著的区别。 总的来说，Flink 官方强烈推荐使用 语法进行去重（Deduplication），因为它经过了专门的算子优化。 以下是它们在状态保留策略和性能上的详细对比： --- 一、 状态保留策略（State Retention）对比 在流处理中，为了识别重复数据，Flink 必须在 State（状态）中记住以前见过的数据。如何清理这些状态是两者的核心差异之一。 1. DISTINCT 的状态保留 清理机制：完全依赖 State TTL（状态生存时间）。 原理： 本质上是一个聚合（Group Aggregation）操作。Flink 无法预知未来的数据流中是否还会出现相同的数据，因此它不能主动清理状态。 缺点：你必须配置 。 如果 TTL 设置得太短，晚到的重复数据会被当成新数据输出，导致去重不彻底。 如果 TTL 设置得太长，State 会持续膨胀，可能导致 OOM ...

维度	`DISTINCT`	`ROW_NUMBER() WHERE rn = 1` (Deduplication)
底层算子	Group Aggregation	Deduplication (专门优化)
状态存储内容	去重的全量字段	仅一个 Boolean/Empty 标记 (极小)
状态清理机制	强依赖 State TTL	Proctime依赖TTL / EventTime依赖Watermark自动清理
向下游发送的消息	可能包含 Update/Retract，下游压力大	仅有 INSERT (+I)，下游压力极小
Checkpoint 压力	大	极小
适用场景	简单的全量数据去重统计 (流处理中不推荐)	流处理中去重的标准/最佳实践

播面

使用 Flink SQL 时，对比使用 DISTINCT 关键字去重和使用 ROW_NUMBER() 筛选第一条去重（Deduplication），它们在状态保留策略和性能上有什么区别？

一、状态保留策略（State Retention）对比

1. DISTINCT 的状态保留

2. ROW_NUMBER()（保留第一条）的状态保留

二、性能（Performance）对比

1. 状态大小（State Size）

2. 产生的消息流类型（Changelog Stream）

3. Checkpoint 开销

三、总结与建议

代码示例（最佳实践）

你好！我是 Bomian 助手

使用 Flink SQL 时，对比使用 DISTINCT 关键字去重和使用 ROW_NUMBER() 筛选第一条去重（Deduplication），它们在状态保留策略和性能上有什么区别？

一、 状态保留策略（State Retention）对比

1. DISTINCT 的状态保留

2. ROW_NUMBER()（保留第一条）的状态保留

二、 性能（Performance）对比

1. 状态大小（State Size）

2. 产生的消息流类型（Changelog Stream）

3. Checkpoint 开销

三、 总结与建议

代码示例（最佳实践）

你好！我是 Bomian 助手

一、状态保留策略（State Retention）对比

二、性能（Performance）对比

三、总结与建议