在构建和维护 AI Infrastructure(AI 基础设施)时,由于其负载特性(高并发计算、大吞吐数据、长周期任务)与传统 Web 服务不同,SLA (Service Level Agreement) 和 SLO (Service Level Objective) 的关注点也有显著差异。 AI Infra 通常分为两大场景:训练 (Training) 和 推理 (Inference)。以下是这两个场景及底层资源层常见的 SLA/SLO 指标: --- 一、 资源与硬件层 (Resource & Hardware Layer) 这是 AI Infra 的基石,主要关注 GPU/TPU 集群的健康度和利用率。 1. 节点/GPU 可用性 (Node/GPU Availability) 定义: GPU 节点处于健康状态且可被调度的时间比例。 关键点: AI 训练对硬件故障非常敏感。 SLO 示例: 99.9% 的 GPU 节点无 ECC 错误、无掉卡现象。 2. 互联带宽利用率与丢包率 (Interconnect Bandwidth & Packet Loss) 定义: 集群内部...