你如何理解 ML System 中的 “数据、模型、代码” 三者关系？

知识点图片

这是一个非常经典且深刻的问题。在传统的软件工程中，我们通常关注的是“代码”；但在机器学习（ML）系统中，数据、模型、代码三者构成了一个紧密耦合、动态交互的三角关系。

要理解它们的关系，我们可以从三个维度层层递进：基础逻辑维度、Software 2.0 维度以及工程演进（MLOps）维度。

最直观的理解可以通过对比传统编程和机器学习来阐述。

传统编程（Software 1.0）：
- 关系： $Code + Data = Output$
- 逻辑： 程序员编写规则（Code），输入数据（Data），得到结果。代码是逻辑的载体，数据只是被处理的对象。
机器学习（ML System）：
- 训练阶段： $Data + Code (Architecture + Optimizer) = Model$
- 推理阶段： $Model + New Data = Prediction$
- 逻辑：
  - 代码（Code）： 变成了“制造工厂”和“脚手架”。它定义了如何读取数据、如何构建网络结构、如何优化参数。
  - 数据（Data）： 变成了“逻辑的来源”。模型的行为不是由程序员显式编写的，而是从数据中提取的。
  - 模型（Model）： 是数据和代码交互后的“产物”或“压缩包”。它是数据中蕴含的规律在代码定义的结构中的参数化体现。

一句话总结： 代码决定了学习的能力（上限），数据决定了学习的内容（下限），模型是两者结合的快照。

Andrej Karpathy 提出的 Software 2.0 理论是对这三者关系最深刻的解读之一。在这个视角下，三者的定义发生了本质变化：

Data 是新的 Source Code（源代码）：
- 在 ML 系统中，如果你想改变程序的行为（比如让自动驾驶汽车识别新的路障），你通常不会去改 Python 代码（网络结构），而是去收集更多包含路障的图片并标记。
- 因此，数据集的维护、清洗、版本控制，等同于传统软件中的代码维护。
Code (Training Loop/Arch) 是 Compiler（编译器）：
- 你写的 PyTorch/TensorFlow 代码（ResNet, Transformer）实际上定义了搜索空间。训练过程就像编译过程，将“数据源代码”编译成可执行文件。
Model (Weights) 是 Binary（二进制可执行文件）：
- 最终生成的权重文件（.pth, .pb）是人类无法阅读的二进制文件，它负责实际的运行。

这个视角的启示： 既然 Data 是源代码，那么 ML 系统开发的核心就应该从“优化模型结构”转向“优化数据质量”（即 Data-Centric AI）。

在实际的生产环境（Production ML）中，这三者的关系变得更加复杂，主要体现在版本控制和技术债务上。

在传统软件中，Git Commit Hash 就能确定软件版本。但在 ML 系统中，要复现一个模型，必须同时锁定三个变量：
$Model\_Version = f(Code\_Version, Data\_Version, Hyperparameters)$

代码变了（修复了预处理 Bug），模型会变。
数据变了（增加了一周的新日志），模型会变。
配置变了（学习率调整），模型会变。
这导致 ML 系统的 CI/CD（持续集成/持续部署）比传统软件难得多，你需要同时对代码（Git）、数据（DVC/Delta Lake）和模型（MLflow）进行联合版本管理。

Google 在经典论文《Hidden Technical Debt in Machine Learning Systems》中指出，ML 系统遵循 CACE 原则 (Changing Anything Changes Everything)。

数据与代码的强耦合： 代码中的特征工程（Feature Engineering）通常是针对特定数据分布写的。如果数据分布发生漂移（Data Drift），原本正确的代码逻辑可能失效，导致模型性能下降，但代码本身不会报错。
反馈回路： 模型部署后产生的新数据，又会反过来成为下一轮训练的输入。如果模型（V1）有偏差，它产生的数据会污染 V2 模型的训练集，导致偏差被放大。

理解这三者关系，是为了构建更好的 ML 系统。一个成熟的 AI 工程师或架构师应该具备以下认知：

数据第一（Data-Centric）： 承认数据是核心资产。代码（算法）往往是开源且同质化的，数据质量和数据管道（Pipeline）的健壮性才是壁垒。
代码是基础设施： 代码的重点不再是写出多复杂的数学公式，而是构建稳定、可复用、可监控的流水线（Pipeline），确保数据能顺畅地转化为模型。
模型是易逝品： 模型不是永恒的，它会随着数据分布的变化而“腐烂”（Model Decay）。因此，重新训练（Retraining）的能力比模型本身更重要。

终极比喻：
如果把 ML 系统比作赛车：

播面