CPU 推理(Inference)与 GPU 推理在基础设施(Infrastructure)设计上的差异,本质上源于硬件架构特性的不同(延迟敏感 vs. 吞吐敏感)以及成本模型的不同。 以下是从 Infra 架构师角度出发,对两者在设计上的核心差异进行的详细对比: 1. 核心设计理念与场景定位 CPU Infra:追求低延迟与灵活性 定位: 适用于小模型(如推荐系统、搜索排序、OCR)、复杂控制流模型、以及对实时性要求极高(Latency Sensitive)但吞吐量要求不大的场景。 设计哲学: Batch Size = 1。CPU 擅长处理串行指令和分支预测,Infra 设计通常侧重于让单个请求以最快速度跑完。 GPU Infra:追求高吞吐与并行度 定位: 适用于大模型(LLM, Stable Diffusion)、计算机视觉(CV)、以及离线批量处理任务。 设计哲学: Dynamic Batching(动态批处理)。GPU 核心数成千上万,必须凑够一定数量的数据(Batch)才能打满算力,Infra 设计侧重于“攒批”和流水线掩盖。 --- 2. 调度与资源隔离 (Sche...