HDFS(Hadoop Distributed File System)的副本机制是其保证数据高可靠性、容错性以及高可用性的核心设计。 关于你的问题,核心结论如下: HDFS的默认副本数是 3。 (该参数可以通过 配置文件中的 属性进行修改)。 下面详细为你解析 HDFS 中的副本机制是如何运作的: 1. 副本存放策略(机架感知 Rack Awareness) HDFS 决定将这 3 个副本存放在哪里,并不是随机的,而是基于一种称为“机架感知”(Rack Awareness)的策略。这样既能保证数据的安全性,又能尽量减少跨机架的网络带宽消耗。 对于默认的 3 个副本,存放策略如下: 第一个副本(Replica 1): 如果客户端(Client)本身就在集群的一个 DataNode 上,那么第一个副本就会直接存放在本地节点上(减少网络传输)。 如果客户端在集群外部,NameNode 会从集群中随机选择一个负载不高、空间充裕的 DataNode 来存放。 第二个副本(Replica 2): 存放在与第一个副本不同机架(Rack)的任意一个 DataNode 上。 目的: 防止第一个机...