在 AI 系统(尤其是深度学习)中,可复现性(Reproducibility) 指的是使用相同的代码、数据和超参数,能否得到完全一致的模型和结果。 这是一个非常棘手的问题,被称为“AI 复现危机”。其原因并非单一,而是贯穿了从底层硬件到顶层算法的整个技术栈。以下是导致 AI 系统难以复现的核心原因: 1. 算法层面的内在随机性 (Inherent Randomness) 这是最直观的原因。深度学习算法的设计本身就包含大量随机过程,如果不显式地固定“随机种子(Random Seed)”,每次运行的结果都会不同。 参数初始化: 神经网络的权重通常是随机初始化的(如高斯分布、Xavier 初始化)。初始点不同,最终收敛的局部最优解就不同。 数据打乱(Shuffling): 训练数据通常按 Batch(批次)输入,每个 Epoch 都会打乱顺序。不同的数据输入顺序会导致梯度更新的方向略有差异,累积下来会产生巨大偏差。 正则化技术: 如 Dropout(随机丢弃神经元)或 Data Augmentation(随机裁剪、旋转图片),本质上都是随机操作。 2. 硬件与并行计算的非确定性 (Ha...