什么是灾难性遗忘（Catastrophic Forgetting）？在微调中如何缓解？

Question

Accepted Answer

这是一个非常经典且在深度学习（尤其是大模型微调）中非常重要的问题。 什么是灾难性遗忘（Catastrophic Forgetting）？ 定义： 灾难性遗忘是指神经网络在学习新任务（Task B）的过程中，突然且剧烈地忘记了之前已经学会的任务（Task A）的现象。 通俗类比： 想象一下，你本来精通中文（旧任务）。现在你去学法文（新任务），但在学会法文的同时，你突然发现自己完全不会说中文了，或者中文变得磕磕绊绊。这就是灾难性遗忘。 技术原理： 神经网络的知识存储在权重（Weights）中。 1. 模型在预训练阶段（或旧任务上）找到了一组最优的权重配置。 2. 在微调（Fine-tuning）阶段，为了适应新数据，模型使用反向传播更新这些权重。 3. 如果没有约束，优化器会为了最小化新任务的Loss，大幅度修改权重，导致权重偏离了对旧任务最优的区域。结果就是模型在新任务上表现很好，但在旧任务（或通用能力）上性能崩塌。 --- 在微调中如何缓解灾难性遗忘？ 在实际工程（特别是LLM大模型微调）中，主要有以下几种主流策略来缓解这一问题： 1. 参数高效微调 (PEFT, Paramet...