RLHF 的全称是 Reinforcement Learning from Human Feedback,中文翻译为“基于人类反馈的强化学习”。 简单来说,它是让 AI(如 ChatGPT)变得“像人一样说话”并“听懂人类指令”的关键技术。 如果没有 RLHF,大型语言模型(LLM)可能只是一个“读过很多书但不懂人情世故的书呆子”;有了 RLHF,它才变成了一个“懂礼貌、会干活的助手”。 --- 为什么需要 RLHF? 在 RLHF 出现之前,语言模型(比如早期的 GPT-3)主要是通过“预测下一个字”来训练的。虽然它们学到了海量的知识,但存在几个大问题: 1. 不说人话:你问它“怎么做蛋糕?”,它可能接着给你编一段小说,而不是给你食谱。 2. 有毒/危险:它可能会输出暴力、歧视或教人干坏事的内容。 3. 胡说八道:一本正经地编造事实(幻觉)。 RLHF 的目的就是为了解决这些问题,实现AI 对齐(Alignment),即让 AI 的目标与人类的价值观和意图保持一致(有用、诚实、无害)。 --- RLHF 是如何工作的?(通俗版三步走) 我们可以把训练 AI 比作培养一个厨师学徒...