在线推理系统(Online Inference System)的端到端延迟(End-to-End Latency)是指从客户端发出请求到接收到响应的总时间。这个时间通常可以拆解为以下几个主要部分。 为了方便理解,我们可以按照请求的生命周期顺序来划分: 1. 网络传输延迟 (Network Latency) 这是请求在物理网络中传输的时间,通常是不可控因素最多的部分。 客户端到服务端 (RTT): 取决于用户的地理位置、网络带宽和网络质量。 网关与负载均衡: 请求经过 Nginx、Envoy 或 Kubernetes Ingress 等组件时的转发耗时。 内部微服务通信: 如果推理服务是微服务架构的一部分,服务间调用(如 gRPC/HTTP)也会产生网络开销。 协议开销: HTTP/1.1 的文本解析开销通常大于 gRPC (Protobuf) 的二进制解析开销。 2. 排队与调度延迟 (Queuing & Scheduling Latency) 当请求到达推理服务器,但计算资源(GPU/CPU)繁忙时,请求必须等待。 请求队列 (Request Queue): 如果并发请求量超过...