在 Hadoop YARN 架构中,NodeManager(NM)是运行在每个计算节点上的代理,负责管理该节点上的资源(CPU、内存)以及启动和监控 Container。 如果某个 NodeManager 宕机或与 ResourceManager(RM)失联,YARN 具有完善的容错机制。总体来说,单个或少量 NodeManager 的宕机不会导致整个 YARN 集群崩溃,但会对正在该节点上运行的任务和集群的总资源产生局部影响。 具体影响可以从以下几个维度进行详细分析: 1. 对集群整体资源和状态的影响 状态标记变更:ResourceManager 会通过心跳机制(Heartbeat)监控各个 NodeManager 的状态。如果 NM 失联超过一定时间(默认通常是 10 分钟,由参数 控制),RM 会将其状态标记为 LOST(丢失)。 集群可用资源减少:该节点之前汇报给 RM 的可用资源(vCores 和 内存)会从集群总资源池中扣除。集群的整体计算能力下降。 停止新任务分配:RM 不会再将任何新的 Container 调度到该节点上。 2. 对正在该节点上运行的普通任务(Ta...