Apache Flink 的重启策略(Restart Strategies)决定了当作业发生故障(Failover)时,Flink 应该如何尝试恢复作业。 重启策略通常与 Checkpointing(检查点) 机制配合使用。如果未启用 Checkpoint,默认策略通常是“不重启”;如果启用了 Checkpoint,默认策略通常是“无限次重启”。 以下是 Flink 中主要的几种重启策略及其详细说明: --- 1. 固定延迟重启策略 (Fixed Delay Restart Strategy) 这是最常用的策略之一。当发生故障时,Flink 会尝试重启作业固定次数,每次重启之间等待固定的时间。 工作机制: 尝试重启 次。 两次尝试之间等待 时间。 如果超过 次尝试仍然失败,作业最终失败。 适用场景: 适用于对偶尔的、瞬时的网络抖动或外部系统连接超时进行容错。 配置示例: 2. 失败率重启策略 (Failure Rate Restart Strategy) 这种策略基于时间窗口内的失败频率。如果故障发生的频率没有超过设定的阈值,Flink 会继续重启;否则作业失败。 工作机制: 在...