请说说RLHF (Reinforcement Learning from Human Feedback) 的三个阶段？

Question

Accepted Answer

RLHF (Reinforcement Learning from Human Feedback，基于人类反馈的强化学习) 是训练像 ChatGPT、Claude 或 Llama 2-Chat 这样的大语言模型的核心技术，目的是让模型不仅仅会“续写文字”，还能理解人类指令，做到有用（Helpful）、诚实（Honest）和无害（Harmless）。 RLHF 的标准流程通常分为以下三个阶段： 第一阶段：有监督微调 (Supervised Fine-Tuning, SFT) ——“老师示范，学生模仿” 目标：让预训练好的基座模型（Base Model）学会如何以对话或指令跟随的形式回答问题。 数据：由人类专家编写的高质量问答对（Prompt + Answer）。 过程： 1. 从提示库中抽取问题。 2. 人类标注员写出标准的、高质量的回答。 3. 使用这些数据对基座模型进行微调。 结果：得到了一个能够基本听懂指令并流畅回答的模型（SFT模型），但它的回答质量可能还不够稳定，也不一定完全符合人类偏好。 第二阶段：奖励模型训练 (Reward Model Training, RM) —...