这是一个非常经典且在深度学习(尤其是大模型微调)中非常重要的问题。 什么是灾难性遗忘(Catastrophic Forgetting)? 定义: 灾难性遗忘是指神经网络在学习新任务(Task B)的过程中,突然且剧烈地忘记了之前已经学会的任务(Task A)的现象。 通俗类比: 想象一下,你本来精通中文(旧任务)。现在你去学法文(新任务),但在学会法文的同时,你突然发现自己完全不会说中文了,或者中文变得磕磕绊绊。这就是灾难性遗忘。 技术原理: 神经网络的知识存储在权重(Weights)中。 1. 模型在预训练阶段(或旧任务上)找到了一组最优的权重配置。 2. 在微调(Fine-tuning)阶段,为了适应新数据,模型使用反向传播更新这些权重。 3. 如果没有约束,优化器会为了最小化新任务的Loss,大幅度修改权重,导致权重偏离了对旧任务最优的区域。结果就是模型在新任务上表现很好,但在旧任务(或通用能力)上性能崩塌。 --- 在微调中如何缓解灾难性遗忘? 在实际工程(特别是LLM大模型微调)中,主要有以下几种主流策略来缓解这一问题: 1. 参数高效微调 (PEFT, Paramet...