什么是 Dynamic Batching？有哪些 trade-off？

知识点图片

Dynamic Batching（动态批处理） 是一种在深度学习模型推理（Inference）服务中广泛使用的技术，旨在提高硬件（特别是 GPU）的利用率和系统的整体吞吐量。

简单来说，它不是让服务器收到一个请求就立刻处理一个（Sequential Processing），而是让服务器稍微“等一等”，在极短的时间窗口内收集多个到达的请求，将它们打包成一个 Batch（批次），然后一次性发送给 GPU 进行并行计算。

为什么需要 Dynamic Batching？

GPU 是为大规模并行计算设计的（SIMD 架构）。

处理 1 个请求：GPU 可能只用了 10% 的算力，剩下 90% 都在空转，且大部分时间花在从内存读取模型权重上（Memory Bound）。
处理 16 个请求：GPU 读取一次权重，就可以对 16 个数据进行计算。算力利用率飙升，分摊了内存带宽的开销。

Dynamic Batching 的 Trade-off（权衡）

Dynamic Batching 的核心在于以“单个请求的延迟”换取“整体系统的吞吐量”。以下是详细的 Trade-off 分析：

1. 吞吐量 vs. 延迟 (Throughput vs. Latency)

这是最主要的权衡点。

Pros (优势 - 吞吐量提升):
- 高并发处理能力： 在高负载下，系统每秒能处理的请求数（QPS/TPS）大幅增加。
- 成本降低： 同样的硬件可以服务更多的用户。
Cons (劣势 - 延迟增加):
- 排队延迟 (Queueing Delay): 第一个到达的请求必须等待后续请求到达，或者等待时间窗口（Time Window）结束才能开始处理。
- 计算延迟 (Compute Delay): 计算一个 Batch 的时间通常比计算单个请求略长（虽然 GPU 并行能力强，但并非完全零损耗）。
- 长尾效应: 如果 Batch 中有一个特别长的输入（例如 NLP 任务），整个 Batch 的处理时间可能会被这个长输入拖慢（取决于具体实现）。

2. 硬件利用率 vs. 显存占用 (Utilization vs. Memory)

Pros (优势):
- 计算单元饱和： 能够充分利用 GPU 的 CUDA Cores 或 Tensor Cores，减少 GPU 空闲时间。
- 带宽利用： 权重加载一次，计算多次，极大提升了算术强度（Arithmetic Intensity）。
Cons (劣势):
- 显存压力 (VRAM Usage): 处理 Batch 需要同时存储多个请求的中间激活值（Activations/KV Cache）。如果 Batch Size 过大，可能导致 OOM（Out Of Memory）错误。

3. 变长序列的处理 (Padding vs. Efficiency)

这主要针对 NLP 或语音任务（输入长度不一）。

问题： 传统的 Dynamic Batching 要求输入张量形状一致。如果 Batch 里有一个长度为 100 的句子和一个长度为 5 的句子，必须把长度为 5 的句子 Pad（填充） 到 100。
Trade-off:
- 计算浪费： GPU 会在大量的 Padding（通常是 0）上进行无效计算，浪费算力。
- 解决方案： 现代推理引擎（如 NVIDIA Triton, FasterTransformer, vLLM）引入了 Ragged Batching 或 Packed Batching 来减少这种浪费，但这增加了工程实现的复杂度。

4. 稳定性 vs. 抖动 (Stability vs. Jitter)

现象： 在低负载时，请求可能需要等待完整的超时窗口（例如 10ms）才能凑够 Batch；在高负载时，Batch 瞬间填满立刻触发计算。
结果： 用户的响应时间（Latency）会变得不那么稳定，出现抖动（Jitter）。

特殊场景：LLM 中的 Continuous Batching (持续批处理)

在大型语言模型（LLM）生成任务中，传统的 Dynamic Batching 有一个致命缺陷：生成长度不可知。
如果 Batch 中有的请求生成 10 个 token 就结束了，有的要生成 1000 个 token，传统的 Batching 必须等那个 1000 token 的请求跑完，其他请求才能返回。

为了解决这个 Trade-off，业界提出了 Continuous Batching (或 Iteration-level Batching)：

机制： 不再等待整个 Batch 结束。一旦某个请求生成完毕（遇到 EOS），立刻将其移出显存，并插入一个新的请求进来。
优势： 极大地减少了 GPU 的空转，将 Dynamic Batching 的效率推到了极致。
代表作： vLLM (PagedAttention), HuggingFace TGI, TensorRT-LLM。

总结

Dynamic Batching 是服务端推理的必选项，但需要精细调优参数。

你需要根据业务场景调整两个核心参数：

Max Batch Size (最大批次大小): 限制显存占用和最大计算延迟。
Max Wait Time (最大等待时间): 限制用户的排队延迟（例如设置为 5ms 或 10ms）。

对延迟敏感的业务（如实时语音识别）： 调小 Wait Time 和 Batch Size。
对吞吐敏感的业务（如离线数据分析）： 调大 Batch Size。

播面