遇到 HBase 读性能突然下降，或者某个 RegionServer 负载极高时，应当如何排查原因？

知识点图片

遇到 HBase 读性能突然下降，或者某个 RegionServer (RS) 负载极高时，通常意味着系统出现了资源瓶颈、数据倾斜（热点）或者不合理的客户端请求。

排查这类问题需要遵循“从面到点、从宏观到微观”的原则。以下是标准排查步骤和常见原因分析：

首先不要盲目重启，先保留现场并查看监控大盘（Grafana / Cloudera Manager / HBase Master UI）：

确认范围：是整个集群读变慢，还是只有个别 RegionServer 慢？
OS 资源检查：登录问题 RS 节点，检查 CPU (top)、磁盘 I/O (iostat -x 1)、网络 (sar -n DEV 1) 和内存使用情况。
关键时间点：性能下降是什么时候开始的？当时是否有定时任务启动（如大批量导入、离线 MR/Spark 任务）？

如果只有某一个 RegionServer 负载极高，90% 的概率是发生了数据热点。

排查方法：
- 打开 HBase Master UI，点击进入该高负载的 RegionServer 页面。
- 查看 Region Metrics 列表，按 Read Requests（读请求数）或 Write Requests（写请求数）排序。
- 如果发现某一个或少数几个 Region 的请求量远超其他 Region，即确认是热点。
根本原因：
- RowKey 设计存在缺陷（例如：使用连续时间戳或顺序自增 ID 作为前缀），导致大量并发请求全部打向同一个 Region。
临时解决：通过 HBase Shell 强制将该热点 Region move 到其他空闲节点，或者手动 split 该 Region。
彻底解决：重新设计 RowKey（加盐 Salting、哈希 Hash 前缀、反转 Reverse）。

如果排除了单点热点问题，或者集群整体变慢，需要排查以下 HBase 核心机制：

现象：ipc.queue.size 飙升，客户端出现大量的 CallTimeoutException。
原因：RegionServer 的处理线程（Handler）被耗尽。可能是因为个别慢查询（Bad Query）占用了所有线程，导致正常查询排队。
对策：检查 hbase.regionserver.handler.count（默认 30 通常偏小，高并发读可调大至 100-200）。分离读写队列（配置 hbase.ipc.server.callqueue.handler.factor 等参数）。

现象：读延迟增加，磁盘 I/O 飙升。HBase UI 中 BlockCache 命中率急剧下降。
原因：
- 某个业务进行了超大范围的 Scan 操作（且未设置 setCacheBlocks(false)），导致缓存被迅速刷出（Cache Churn）。
- BlockCache 容量设置过小。
对策：找出恶意 Scan 的客户端并限制；如果是大内存机器，建议开启 BucketCache (Off-heap) 减少 GC 压力并增大缓存。

现象：RegionServer 负载高，网络流入流出流量激增，读请求变慢。
原因：HFile 不在本地 DataNode 上，RS 需要通过网络跨节点读取数据。通常发生在刚做完 Region 负载均衡（Balancer）或节点宕机恢复后。
对策：执行 Major Compaction 可以将数据重新本地化，但这需要在低峰期进行。

现象：磁盘 I/O 长时间 100%，CPU iowait 极高，compactionQueueLength 监控指标飙升。
原因：集群同时触发了大量 Major Compaction，或者 Minor Compaction 跟不上写入速度导致 StoreFile 过多（StoreFile 越多，读放大越严重，读性能越差）。
对策：关闭自动 Major Compaction（hbase.hregion.majorcompaction 设为 0），改用外部 Cron 脚本在深夜低峰期手动触发。

如果 HBase 层面的指标看不出明显异常，可能是底层环境出了问题：

如果 CPU 极高，可以通过以下命令抓取真凶：
1. top -H -p <RegionServer_PID> 找到占用 CPU 最高的线程 ID (TID)。
2. 将 TID 转换为 16 进制：printf "%x\n" <TID>。
3. jstack <RegionServer_PID> | grep <16进制TID> -A 20。
这样可以明确看到 CPU 是在做 GC、还是在做过滤（Filter）、还是在网络序列化。

很多时候，RS 负载高是由业务代码发起了不合理的请求导致的：

缺少 Bloom Filter：读请求如果是 Get 或点查，如果没有配置 Bloom Filter，会导致大量不必要的 HFile 扫描。检查表结构，确保 BLOOMFILTER => 'ROW' 或 'ROWCOL'。
超级全表扫描：客户端发起了全表 Scan，且没有设置 StartRow 和 StopRow，同时还使用了复杂的 Filter。Filter 是在 RegionServer 端计算的，会极大地消耗 RS 的 CPU。
单行数据过大：存在几十 MB 甚至上 GB 的单个 Cell（例如存了图片或视频），读取时瞬间打爆网络和内存。

播面