HDFS(Hadoop Distributed File System)默认的副本存放策略是基于机架感知(Rack Awareness)的。在默认情况下,HDFS的副本因子(Replication Factor)为 3。 HDFS 在放置这 3 个副本时,主要为了在可靠性(容错)、写入带宽和读取性能之间取得最佳平衡。其默认的存放策略(针对 3 个副本)如下: 1. 具体的副本放置步骤 第一个副本(Replica 1):存放在本地节点(Local Node) 如果客户端(Client)本身就是一个 DataNode(即在集群内部运行),那么第一个副本会优先存放在客户端所在的节点上。 如果客户端在集群外部,NameNode 会根据网络拓扑、磁盘空间和负载情况,随机选择一个负载不高的节点来存放。 目的:最大程度减少网络传输,提高写入速度。 第二个副本(Replica 2):存放在不同机架的节点上(Remote Rack) HDFS 会强制将第二个副本存放在与第一个副本不同的机架(Rack)上的随机节点。 目的:保证机架级别的容错。如果第一个副本所在的机架发生断电或交换机故障,数据依然可...