HBase 与传统关系型数据库（RDBMS）区别？

知识点图片

HBase 与传统关系型数据库（RDBMS，如 MySQL, Oracle, PostgreSQL）在设计理念、架构、数据模型以及应用场景上有本质的区别。

简单来说，传统 RDBMS 是为了处理结构化数据和复杂的事务逻辑（ACID）而设计的，而 HBase 是为了应对海量数据（PB级别）的极高并发读写而设计的。

以下是它们的核心区别对比：

维度	传统关系型数据库 (RDBMS)	HBase
数据模型	关系型（二维表：行和列）	宽列存储（多维映射：行键、列族、列限定符、时间戳）
Schema(模式)	严格。必须预先定义表结构、列名和数据类型。	灵活/半无模式。只需预先定义“列族”，列可以动态增加。
数据规模	GB 到 TB 级别（单表达到千万/亿级性能会急剧下降）	TB 到 PB 级别（单表可达百亿行、百万列）
事务支持(ACID)	强。支持多行、多表、复杂的跨表事务。	弱。仅支持单行级的 ACID 事务，不支持跨行跨表事务。
查询语言	SQL（支持复杂查询、JOIN、聚合操作等）	简单 API（Put, Get, Scan, Delete）。原生不支持 SQL，不支持 JOIN。
索引机制	支持任意列创建多个二级索引。	原生仅有RowKey（行键）这一个主索引。不支持原生二级索引（需借助第三方如 Phoenix）。
扩展性	主要是纵向扩展（提升单机硬件），横向分库分表较复杂。	原生横向扩展（基于HDFS），增加节点即可线性提升存储和计算能力。
底层存储	本地文件系统 / SAN	分布式文件系统 (通常是 HDFS)
对空值的处理	空值（Null）通常也会占用存储空间。	稀疏数据极其友好，未赋值的列完全不占用空间。

RDBMS：数据严格按照二维表格排列。如果要增加一个新的字段，需要执行 ALTER TABLE 语句，这在大表上是非常耗时且容易锁表的。
HBase：基于列族（Column Family）存储。创建表时只需指明列族，具体的列（Column Qualifier）可以在插入数据时动态生成。非常适合存储结构不固定或字段极其稀疏的数据。并且，HBase 原生支持多版本（通过时间戳区分），同一个行键和列下可以保留多个历史数据。

RDBMS：强大的 SQL 引擎是 RDBMS 的核心优势，能够轻松完成多表 JOIN、GROUP BY、ORDER BY、复杂子查询等。
HBase：没有严格意义上的查询引擎。只能通过三种方式读取数据：
1. 通过单一 RowKey 获取单行。
2. 通过 RowKey 的区间（StartRow ~ StopRow）进行扫描（Scan）。
3. 全表扫描。
  注意：HBase 绝对不适合做多表关联（JOIN），如果需要，必须在应用程序代码中实现，或者借助外部计算框架（如 Spark, Hive）。

RDBMS：支持完备的 ACID（原子性、一致性、隔离性、持久性）。例如银行转账（A扣钱，B加钱）必须同时成功或同时失败。
HBase：为了追求极高的写入吞吐量和分布式扩展性，HBase 牺牲了复杂的事务。它只保证单行（Row-level）操作的原子性。如果在应用中需要复杂的跨表事务，HBase 不是一个好选择。

RDBMS：由于要维护复杂的 B+ 树索引和事务日志，当数据量达到千万级别时，写入性能会急剧下降。
HBase：采用 LSM-Tree（Log-Structured Merge-Tree）架构。数据写入时先进入内存（MemStore），然后顺序追加写到磁盘。这种机制使得 HBase 具有极其强悍的随机写入性能，即使表中已经有上百亿条数据，写入速度依然稳定。

总结：
RDBMS 是一位“全能型学者”，逻辑严密，适合处理复杂的关系和事务；而 HBase 是一台“重型推土机”，设计简单粗暴，但力大无穷，专门用来吞吐和存储海量数据。在现代大数据架构中，两者通常是互补的（例如用 MySQL 存业务核心数据，用 HBase 存海量历史日志）。

播面