AI Infra(人工智能基础设施) 是指为了支持人工智能(AI)和机器学习(ML)模型的全生命周期(从数据处理、模型开发、训练到推理部署)而构建的底层硬件、软件平台及工具链的总和。 简单来说,如果 AI 模型是“赛车”,那么 AI Infra 就是“赛道、维修站、加油站以及制造赛车的工厂”。 随着大语言模型(LLM)和生成式 AI 的爆发,AI Infra 已经成为科技界最热门的领域之一。 --- 一、 AI Infra 包含什么? AI Infra 通常可以分为以下几个层级: 1. 算力层(Compute): 核心: GPU(NVIDIA H100/A100)、TPU(Google)、ASIC(专用芯片)。 特点: 极高的并行计算能力,用于处理矩阵运算。 2. 网络层(Network): 核心: InfiniBand (IB)、RoCE、NVLink。 特点: 极高带宽(400Gbps-800Gbps)、极低延迟,用于多卡、多机之间的数据同步。 3. 存储层(Storage): 核心: 高性能并行文件系统(如 Lustre, GPFS, JuiceFS),对象存储。 特点: ...