kube-scheduler 的调度流程是怎样的

知识点图片

Kubernetes 的 kube-scheduler 是集群的默认调度器，它的核心职责是：为一个新创建的 Pod（尚未分配节点）在集群中寻找一个最合适的 Node。

整个调度流程可以概括为三个核心步骤：过滤 (Filtering) -> 打分 (Scoring) -> 绑定 (Binding)。

以下是详细的调度流程解析：

现代的 kube-scheduler 基于 Scheduling Framework（调度框架） 构建。调度过程分为两个大的周期：

监听 (Informer)：Scheduler 通过 API Server 的 Watch 机制，持续监听 spec.nodeName 为空的 Pod。
优先级队列 (Scheduling Queue)：
- 新发现的 Pod 会被放入内部的调度队列。
- 队列会根据 Pod 的 PriorityClass（优先级）进行排序，高优先级的 Pod 先出队。
- 队列分为：活动队列 (ActiveQ)、回退队列 (BackoffQ) 和不可调度队列 (UnschedulableQ)。

Scheduler 从队列中取出一个 Pod，遍历集群中所有的 Node，排除掉不满足硬性条件的节点。如果某个节点不满足任何一个过滤条件，它就会被淘汰。

常见的过滤策略包括：

结果：如果过滤后没有节点剩余，Pod 会进入 Pending 状态，并触发抢占 (Preemption) 逻辑（如果配置了高优先级）。如果有剩余节点，进入下一阶段。

Scheduler 对通过过滤的节点进行打分（通常是 0-100 分）。分数越高，表示该节点越适合放置该 Pod。

常见的打分策略包括：

结果：计算出每个候选节点的总分。

一旦选定节点，Scheduler 不会直接写数据库（etcd），而是分两步走：

Assume (乐观绑定)：Scheduler 先在自己的本地缓存中将 Pod 标记为“已绑定到该节点”。这样做是为了立刻开始调度队列中的下一个 Pod，提高吞吐量，而不需要等待 API Server 的慢速响应。
Bind (实际绑定)：Scheduler 异步向 API Server 发送绑定请求，更新 Pod 的 spec.nodeName 字段。
- API Server 收到请求后，将结果写入 etcd。
- 目标节点上的 Kubelet 监听到 Pod 被分配给自己，开始拉取镜像、启动容器。

为了让用户能自定义调度逻辑，Kubernetes 将上述流程细化为多个扩展点（插件机制）。开发者可以编写插件挂载到这些点上：

QueueSort：决定队列中 Pod 的排序方式。
PreFilter：在过滤前预处理（如检查集群整体资源）。
Filter：对应上述的过滤阶段。
PostFilter：核心用于抢占 (Preemption)。如果 Filter 阶段没找到节点，这里决定是否要驱逐低优先级的 Pod 来腾位置。
PreScore：打分前的预处理。
Score：对应上述的打分阶段。
NormalizeScore：调整分数范围。
Reserve：在内存中预留资源（对应 Assume）。
Permit：允许、拒绝或等待（用于像 Gang Scheduling 这种需要一组 Pod 同时就绪的场景）。
PreBind：绑定前的操作（如挂载网络卷）。
Bind：执行绑定操作。
PostBind：绑定后的通知。

简单来说，kube-scheduler 的工作流就是：
排队 (Queue) -> 硬性筛选 (Filter) -> 软性打分 (Score) -> 乐观绑定 (Assume) -> 写入 API (Bind)。

播面