在 YARN 中,一个 Application 提交后状态一直卡在 “ACCEPTED”(已接受)而不变为 “RUNNING”(运行中),核心原因是 ResourceManager 无法为该作业分配并启动 ApplicationMaster (AM)。 这通常与资源分配、队列配置或底层环境故障有关。以下是常见的可能原因及排查思路: --- 一、 常见原因分析 1. 集群或队列资源不足(最常见) 集群整体资源耗尽:当前集群所有 NodeManager 的 Memory 或 CPU (vCores) 都已被其他任务占满。 队列资源到达上限:任务提交的目标队列的已用资源达到了 (最大容量限制)。 用户资源限制:提交任务的用户达到了该队列允许的单用户资源使用上限(User Limit)。 2. AM 资源比例受限 (AM Resource Limit) 原因:YARN(特别是 Capacity Scheduler)为了防止由于提交大量小任务导致集群中全都是 ApplicationMaster(没有资源跑实际 task),设置了一个参数 (默认通常是 0.1,即 10%)。 现象:队列整体...