凌晨3点处理线上严重报警,核心原则是:“先止血恢复业务,后排查根因;防雪崩重于一切”。 Kafka积压上百万条消息,意味着数据实时性已经遭到严重破坏。以下是一份标准、冷酷且高效的凌晨3点应急处理SOP(标准作业程序)。 --- 阶段一:初步定级与止血评估(0-10分钟) 目标:确认影响范围,决定是否需要叫醒其他同事,评估是否有引发连环雪崩的风险。 1. 确认报警真实性与积压趋势: 查看监控看板(Grafana/Prometheus):当前Lag(积压量)是100万,生产速率(Produce Rate)和消费速率(Consume Rate)分别是多少? 趋势判断:是逐渐累积到100万的(慢积压),还是突然激增的(突刺型)? 2. 评估业务影响: 该Topic对应什么业务?(核心链路如交易/支付,还是非核心如日志/埋点?) 核心链路:立即拉群,叫醒业务研发Owner和DBA。 非核心链路:记录状态,尝试单人操作恢复。 3. 💥 核心警告:防下游雪崩 在未确认下游系统(如MySQL/Redis/ES/第三方API)抗压能力前,绝不可盲目扩容消费者! 否则清理积压产生的并发洪峰会把下游...