基于本文回答

播面 播面

刷题像听歌,多听自然懂
0
评论

AI Infra 中常见的 SLA / SLO 指标有哪些?

知识点图片

在构建和维护 AI Infrastructure(AI 基础设施)时,由于其负载特性(高并发计算、大吞吐数据、长周期任务)与传统 Web 服务不同,SLA (Service Level Agreement) 和 SLO (Service Level Objective) 的关注点也有显著差异。

AI Infra 通常分为两大场景:训练 (Training)推理 (Inference)。以下是这两个场景及底层资源层常见的 SLA/SLO 指标:


一、 资源与硬件层 (Resource & Hardware Layer)

这是 AI Infra 的基石,主要关注 GPU/TPU 集群的健康度和利用率。

  1. 节点/GPU 可用性 (Node/GPU Availability)

    • 定义: GPU 节点处于健康状态且可被调度的时间比例。
    • 关键点: AI 训练对硬件故障非常敏感。
    • SLO 示例: 99.9% 的 GPU 节点无 ECC 错误、无掉卡现象。
  2. 互联带宽利用率与丢包率 (Interconnect Bandwidth & Packet Loss)

    • 定义: 集群内部网络(如 InfiniBand, RoCE)的实际吞吐量和丢包情况。
    • 关键点: 分布式训练中,网络往往是瓶颈。丢包会导致 NCCL 通信卡死。
    • SLO 示例: RDMA 网络丢包率 < 0.001%,带宽利用率 > 90% (在 All-Reduce 阶段)。
  3. 存储吞吐达标率 (Storage Throughput Compliance)

    • 定义: 存储系统能否满足 GPU 读取数据的速度(避免 GPU Starvation)。
    • SLO 示例: 99% 的时间内,读取速度 > 2GB/s/GPU。

二、 AI 训练平台 (AI Training Platform)

训练任务通常是离线、长周期(数天到数月)的批处理作业。

  1. 作业排队时间 (Job Queueing Time / Pending Time)

    • 定义: 任务提交后到实际分配到资源开始运行的时间。
    • 关键点: 影响算法工程师的迭代效率。
    • SLO 示例: P90 排队时间 < 5 分钟(对于调试作业);< 12 小时(对于大型预训练作业)。
  2. 作业成功率 (Job Success Rate)

    • 定义: 排除用户代码错误(User Error),由平台或基础设施原因(如节点宕机、网络中断)导致的作业失败率。
    • SLO 示例: 平台自身原因导致的作业失败率 < 1%。
  3. 断点续训恢复时间 (Checkpoint/Restore Time)

    • 定义: 发生故障后,从最近的 Checkpoint 恢复训练所需的时间。
    • 关键点: 大模型 Checkpoint 巨大(TB 级),加载慢会浪费昂贵的算力。
    • SLO 示例: 恢复时间 < 10 分钟。
  4. MFU (Model FLOPS Utilization) / HFU (Hardware FLOPS Utilization)

    • 定义: 实际算力利用率。MFU 是衡量训练效率的核心指标。
    • 关键点: 买了 H100 卡,如果 MFU 只有 20% 就是巨大的浪费。
    • SLO 示例: 大模型训练 MFU > 40% - 50%。
  5. 有效训练时间占比 (Effective Training Time Ratio)

    • 定义: (总运行时间 - 故障恢复时间 - Checkpoint时间 - 启动时间) / 总运行时间。
    • SLO 示例: > 95%。

三、 AI 推理平台 (AI Inference / Serving)

推理服务通常是由于用户触发的在线服务,对延迟极其敏感。对于 LLM(大语言模型),指标更加特殊。

通用推理指标:

  1. 端到端延迟 (End-to-End Latency)

    • 定义: 从请求到达网关到返回结果的时间。
    • SLO 示例: P99 Latency < 200ms (对于传统 CV/NLP 模型)。
  2. 服务可用性 (Service Availability)

    • 定义: 请求成功响应的比例(排除 4xx 错误,关注 5xx 错误)。
    • SLO 示例: 99.95% 或 99.99%。
  3. 模型冷启动时间 (Model Cold Start Time)

    • 定义: 在 Serverless 场景下,从 0 副本到加载模型并服务第一个请求的时间。
    • SLO 示例: < 5秒 (取决于模型大小,大模型通常需要预热)。

LLM (大模型) 专用指标 (GenAI 特有):

  1. TTFT (Time To First Token)

    • 定义: 用户发出请求到看到第一个生成的字符的时间。
    • 关键点: 直接决定用户的“体感速度”。
    • SLO 示例: P90 TTFT < 1.5 秒。
  2. TPOT (Time Per Output Token) / Inter-token Latency

    • 定义: 生成每一个后续 Token 的平均间隔时间。
    • 关键点: 决定了文字生成的“流畅度”。如果比人类阅读速度慢,体验就很差。
    • SLO 示例: < 50ms / token (即每秒生成 20 个 token 以上)。
  3. 吞吐量 (Throughput - Tokens per Second)

    • 定义: 系统每秒能处理的总 Token 数(Prompt Token + Generation Token)。
    • 关键点: 衡量系统负载能力和成本效益。

四、 数据与开发环境 (Data & Dev Environment)

  1. 开发机启动成功率与速度
    • Notebook (Jupyter) 实例启动时间 < 2分钟。
  2. 镜像拉取速度 (Image Pulling Speed)
    • AI 镜像通常很大(10GB+),P90 拉取速度应满足一定阈值,通常利用 P2P 加速。

总结:SLA 仪表盘示例

领域 关键指标 (Metric) 典型 SLO (参考) 业务影响
Infra (硬件) GPU 节点健康率 > 99.8% 训练中断频率
Training (训练) MFU (算力利用率) > 45% (LLM) 训练成本、模型上线周期
Training (训练) 作业排队时间 P90 < 10min (调试) 算法工程师生产力
Inference (推理) TTFT (首字延迟) P95 < 800ms 用户流失率
Inference (推理) Token 生成速度 > 30 tokens/s 用户阅读体验
Inference (推理) 错误率 (Error Rate) < 0.1% 服务可靠性

在制定 SLA 时,Training 侧更看重吞吐量和资源效率(省钱、跑得快),而 Inference 侧更看重延迟和稳定性(用户体验)。

00:00
00:00