AI Infra 中常见的 SLA / SLO 指标有哪些？

知识点图片

在构建和维护 AI Infrastructure（AI 基础设施）时，由于其负载特性（高并发计算、大吞吐数据、长周期任务）与传统 Web 服务不同，SLA (Service Level Agreement) 和 SLO (Service Level Objective) 的关注点也有显著差异。

AI Infra 通常分为两大场景：训练 (Training) 和 推理 (Inference)。以下是这两个场景及底层资源层常见的 SLA/SLO 指标：

这是 AI Infra 的基石，主要关注 GPU/TPU 集群的健康度和利用率。

节点/GPU 可用性 (Node/GPU Availability)
- 定义: GPU 节点处于健康状态且可被调度的时间比例。
- 关键点: AI 训练对硬件故障非常敏感。
- SLO 示例: 99.9% 的 GPU 节点无 ECC 错误、无掉卡现象。
互联带宽利用率与丢包率 (Interconnect Bandwidth & Packet Loss)
- 定义: 集群内部网络（如 InfiniBand, RoCE）的实际吞吐量和丢包情况。
- 关键点: 分布式训练中，网络往往是瓶颈。丢包会导致 NCCL 通信卡死。
- SLO 示例: RDMA 网络丢包率 < 0.001%，带宽利用率 > 90% (在 All-Reduce 阶段)。
存储吞吐达标率 (Storage Throughput Compliance)
- 定义: 存储系统能否满足 GPU 读取数据的速度（避免 GPU Starvation）。
- SLO 示例: 99% 的时间内，读取速度 > 2GB/s/GPU。

训练任务通常是离线、长周期（数天到数月）的批处理作业。

作业排队时间 (Job Queueing Time / Pending Time)
- 定义: 任务提交后到实际分配到资源开始运行的时间。
- 关键点: 影响算法工程师的迭代效率。
- SLO 示例: P90 排队时间 < 5 分钟（对于调试作业）；< 12 小时（对于大型预训练作业）。
作业成功率 (Job Success Rate)
- 定义: 排除用户代码错误（User Error），由平台或基础设施原因（如节点宕机、网络中断）导致的作业失败率。
- SLO 示例: 平台自身原因导致的作业失败率 < 1%。
断点续训恢复时间 (Checkpoint/Restore Time)
- 定义: 发生故障后，从最近的 Checkpoint 恢复训练所需的时间。
- 关键点: 大模型 Checkpoint 巨大（TB 级），加载慢会浪费昂贵的算力。
- SLO 示例: 恢复时间 < 10 分钟。
MFU (Model FLOPS Utilization) / HFU (Hardware FLOPS Utilization)
- 定义: 实际算力利用率。MFU 是衡量训练效率的核心指标。
- 关键点: 买了 H100 卡，如果 MFU 只有 20% 就是巨大的浪费。
- SLO 示例: 大模型训练 MFU > 40% - 50%。
有效训练时间占比 (Effective Training Time Ratio)
- 定义: (总运行时间 - 故障恢复时间 - Checkpoint时间 - 启动时间) / 总运行时间。
- SLO 示例: > 95%。

推理服务通常是由于用户触发的在线服务，对延迟极其敏感。对于 LLM（大语言模型），指标更加特殊。

端到端延迟 (End-to-End Latency)
- 定义: 从请求到达网关到返回结果的时间。
- SLO 示例: P99 Latency < 200ms (对于传统 CV/NLP 模型)。
服务可用性 (Service Availability)
- 定义: 请求成功响应的比例（排除 4xx 错误，关注 5xx 错误）。
- SLO 示例: 99.95% 或 99.99%。
模型冷启动时间 (Model Cold Start Time)
- 定义: 在 Serverless 场景下，从 0 副本到加载模型并服务第一个请求的时间。
- SLO 示例: < 5秒 (取决于模型大小，大模型通常需要预热)。

TTFT (Time To First Token)
- 定义: 用户发出请求到看到第一个生成的字符的时间。
- 关键点: 直接决定用户的“体感速度”。
- SLO 示例: P90 TTFT < 1.5 秒。
TPOT (Time Per Output Token) / Inter-token Latency
- 定义: 生成每一个后续 Token 的平均间隔时间。
- 关键点: 决定了文字生成的“流畅度”。如果比人类阅读速度慢，体验就很差。
- SLO 示例: < 50ms / token (即每秒生成 20 个 token 以上)。
吞吐量 (Throughput - Tokens per Second)
- 定义: 系统每秒能处理的总 Token 数（Prompt Token + Generation Token）。
- 关键点: 衡量系统负载能力和成本效益。

开发机启动成功率与速度
- Notebook (Jupyter) 实例启动时间 < 2分钟。
镜像拉取速度 (Image Pulling Speed)
- AI 镜像通常很大（10GB+），P90 拉取速度应满足一定阈值，通常利用 P2P 加速。

领域	关键指标 (Metric)	典型 SLO (参考)	业务影响
Infra (硬件)	GPU 节点健康率	> 99.8%	训练中断频率
Training (训练)	MFU (算力利用率)	> 45% (LLM)	训练成本、模型上线周期
Training (训练)	作业排队时间	P90 < 10min (调试)	算法工程师生产力
Inference (推理)	TTFT (首字延迟)	P95 < 800ms	用户流失率
Inference (推理)	Token 生成速度	> 30 tokens/s	用户阅读体验
Inference (推理)	错误率 (Error Rate)	< 0.1%	服务可靠性

在制定 SLA 时，Training 侧更看重吞吐量和资源效率（省钱、跑得快），而 Inference 侧更看重延迟和稳定性（用户体验）。

播面