面对接口 QPS 突然暴涨 100 倍的情况,这通常属于P0 级生产事故。处理思路必须遵循“先止损,后排查,再优化”的原则。 以下是详细的排查与优化方案: --- 第一阶段:紧急止损(保命) 当流量暴涨 100 倍时,系统极大概率扛不住,数据库可能已经打满。首要目标是保证核心业务可用,防止系统雪崩。 1. 限流(Rate Limiting): 网关层限流: 在 Nginx 或 API Gateway(如 Kong, Spring Cloud Gateway)层面直接开启限流。 应用层限流: 使用 Sentinel 或 Hystrix 对该接口进行单机或集群限流。 策略: 优先丢弃多余请求,直接返回 HTTP 429 或友好提示,保护后端资源。 2. 熔断与降级(Circuit Breaking & Downgrade): 如果该接口依赖下游服务(如数据库、第三方 API)且已出现超时或报错,立即触发熔断。 非核心业务降级: 如果该接口是非核心功能(如点赞、统计),直接关闭功能或返回默认空值。 核心业务降级: 如果是核心查询,暂停复杂的关联查询,只查主表或缓存。 3. 紧急扩容(S...