在Kafka中,Consumer Group的Rebalance(重平衡)是为了在消费者增减或Topic分区变化时重新分配消费任务。然而,频繁且不必要的Rebalance会导致所有消费者暂停处理(即所谓的 Stop-The-World,STW),严重时会引发消费堆积(Lag)、业务超时甚至雪崩。 要彻底解决这个问题,我们需要从现象排查、根因定位、参数调优到架构升级四个维度来进行。以下是标准的排查与解决指南: --- 第一步:排查方向与现象收集 当收到Rebalance报警时,第一时间收集以下信息: 1. 查看Consumer应用日志: 搜索关键字 、、、。 寻找核心异常:(通常伴随着“Consumer is not part of the active group”提示)。 2. 监控指标分析: 处理耗时(Processing Time):单条消息或单批次消息的处理时间是否突然飙升? JVM监控:应用是否发生了长时间的 Full GC(导致JVM暂停)? 系统资源:CPU是否打满?网络是否出现抖动? 3. Broker端(Group Coordinator)日志: 查看Broke...