Batch Size(批处理大小)之所以对推理(Inference)性能有巨大影响,核心原因在于现代硬件(特别是 GPU)的架构设计特性以及计算与内存访问之间的平衡关系。 简单来说,增大 Batch Size 可以显著提高吞吐量(Throughput),但可能会增加单次请求的延迟(Latency)。 以下是 Batch Size 影响推理性能的几个核心技术原因: 1. 提高硬件利用率(SIMD/SIMT 架构) GPU 是为大规模并行计算设计的。它的核心逻辑是 SIMT(Single Instruction, Multiple Threads,单指令多线程)。 小 Batch Size (例如 1): 就像开着一辆 50 座的大巴车(GPU),只拉了 1 个乘客(数据)。虽然车速很快,但大部分座位(计算核心 CUDA Cores)是空的,资源被严重浪费。 大 Batch Size: 就像大巴车坐满了人。GPU 的成千上万个核心可以同时对这一批数据执行相同的操作(例如矩阵乘法)。 数学本质: Batch=1 时,计算主要是矩阵-向量乘法 (GEMV)。 Batch>1 时,计算变成...