RLHF (Reinforcement Learning from Human Feedback,基于人类反馈的强化学习) 是训练像 ChatGPT、Claude 或 Llama 2-Chat 这样的大语言模型的核心技术,目的是让模型不仅仅会“续写文字”,还能理解人类指令,做到有用(Helpful)、诚实(Honest)和无害(Harmless)。 RLHF 的标准流程通常分为以下三个阶段: 第一阶段:有监督微调 (Supervised Fine-Tuning, SFT) ——“老师示范,学生模仿” 目标:让预训练好的基座模型(Base Model)学会如何以对话或指令跟随的形式回答问题。 数据:由人类专家编写的高质量问答对(Prompt + Answer)。 过程: 1. 从提示库中抽取问题。 2. 人类标注员写出标准的、高质量的回答。 3. 使用这些数据对基座模型进行微调。 结果:得到了一个能够基本听懂指令并流畅回答的模型(SFT模型),但它的回答质量可能还不够稳定,也不一定完全符合人类偏好。 第二阶段:奖励模型训练 (Reward Model Training, RM) —...