基于本文回答

播面 播面

文图音视,全方位拆解八股文
0
评论

RLHF模型为什么比SFT表现更好?Agent训练中有何优势?

知识点图片

这是一个非常深刻且触及大模型(LLM)核心训练机制的问题。简单来说,SFT(有监督微调)教会模型“怎么说话”,而RLHF(基于人类反馈的强化学习)教会模型“怎么把话说明白、说得符合人类期望”。

以下从通用模型表现Agent(智能体)训练两个维度深入解析。


第一部分:为什么 RLHF 比 SFT 表现更好?

SFT 的本质是模仿学习(Imitation Learning),而 RLHF 的本质是偏好优化(Preference Optimization)。RLHF 之所以能超越 SFT,主要解决了 SFT 的几个核心缺陷:

1. 目标函数的差异:局部 vs. 全局

  • SFT (Next Token Prediction): SFT 的损失函数是交叉熵(Cross-Entropy)。它只关注下一个字预测得准不准。只要模型预测的字和训练数据不一样,哪怕意思完全相同,也会受到惩罚。
    • 弊端: 这限制了模型的多样性,迫使模型死记硬背训练数据的特定措辞。
  • RLHF (Reward Maximization): RLHF 引入了奖励模型(Reward Model)。它关注的是整段回答的质量(是否有用、安全、逻辑通顺)。
    • 优势: 只要最终生成的答案质量高,中间用什么词、什么句式,RLHF 并不强制限制。这让模型能探索出比 SFT 数据集更好的表达方式。

2. 解决“分布偏移”与“暴露偏差” (Exposure Bias)

  • SFT 的问题: 在训练时,SFT 使用“Teacher Forcing”模式(即模型每一步都看到正确的上文)。但在推理(测试)时,模型只能看到自己生成的上文。一旦模型在开头犯了一个小错,因为没见过这种错误路径,SFT 模型往往会“一步错,步步错”,产生幻觉或胡言乱语。
  • RLHF 的优势: RLHF 是在模型自己生成的内容上进行训练的(On-policy)。模型在训练过程中会经历“犯错 -> 收到低分 -> 修正”的过程。因此,RLHF 训练出的模型具有更强的鲁棒性,即使前面生成得不够完美,它也有能力自我纠正,或者在后续生成中挽回局面。

3. 更好地处理“负面约束” (Alignment)

  • SFT 的局限: 很难通过 SFT 教会模型“不要做什么”。例如,要教会模型“不要种族歧视”,你很难构建一个全是“非种族歧视”的数据集来覆盖所有情况。
  • RLHF 的优势: 强化学习非常擅长处理惩罚。如果模型生成了有毒内容,Reward Model 给予一个极大的负分,模型会迅速学会避开这些高风险区域。这是 RLHF 在安全性(Safety)和对齐(Alignment)上表现优异的关键。

4. 超越人类标注员的平均水平

  • SFT 的上限是标注员的写作水平。
  • RLHF 的上限是标注员的鉴赏水平
  • 例子: 写一首完美的诗很难(SFT 数据难做),但判断哪首诗写得好很容易(RM 数据好做)。RLHF 允许模型通过尝试不同的路径来获得高分,从而在某些任务上产生超越 SFT 训练数据的表现。

第二部分:RLHF 在 Agent(智能体)训练中的独特优势

在 Agent 场景下(如调用工具、多步推理、写代码执行),RLHF(以及更广泛的 RL)的优势比在纯对话场景下更加显著。

1. 结果导向 vs. 过程导向 (Outcome-based Feedback)

Agent 的任务通常是多步的(例如:搜索 -> 阅读 -> 思考 -> 调用API -> 总结)。

  • SFT 的困境: 需要标注员一步步写出完美的中间步骤(Chain of Thought)。如果中间某一步 API 返回的结果变了,SFT 的数据就失效了。
  • RL 的优势: 我们可以只奖励最终结果。例如,“帮我订一张票”,只要最终票订成功了,给予正向奖励;失败了,给予负向奖励。RL 算法会自动进行信用分配(Credit Assignment),推断出是哪一步操作导致了成功或失败。

2. 探索未知路径 (Exploration)

  • Agent 需要在复杂的环境中找到最优解。SFT 只能教模型走“人类演示过的那条路”。
  • RL 允许 Agent 进行探索(Exploration)。Agent 可能会发现一种人类标注员没想到的工具组合方式,或者一种更高效的代码写法,能更快解决问题。DeepSeek-R1 等推理模型之所以强大,正是因为通过 RL 探索出了人类未曾演示过的思维链路径。

3. 整合非对齐的反馈信号 (Environment Feedback)

Agent 训练不仅仅依赖人类反馈(RLHF),更多依赖环境反馈(RLEF - RL from Environmental Feedback)

  • 代码解释器: 代码能否运行?是否报错?
  • API 调用: 返回状态码是 200 还是 404?
  • 数学题: 最终答案对不对?
    这些信号是离散的、不可导的,无法直接用于 SFT 的反向传播,但天然适合作为 RL 的 Reward 信号。这使得 Agent 可以通过大量的自我博弈和试错来进化。

4. 解决长程推理的误差累积

Agent 的任务链路通常很长。

  • 在 SFT 中,第一步推理的微小误差会被放大,导致第十步完全偏离目标。
  • RL 训练通常针对整个 Trajectory(轨迹)进行优化。它训练模型在做第一步决策时,就考虑到这一步对第十步结果的影响(通过 Value Network 预估未来收益)。这极大地提高了 Agent 完成复杂长任务的成功率。

总结

  • SFT 是“填鸭式教育”: 老师写在黑板上,学生死记硬背。学生能学会基础知识,但不懂变通,且容易学到老师的坏习惯。
  • RLHF 是“启发式教育”: 学生自己做题,老师只打分(对/错/好/坏)。学生为了拿高分,会自己琢磨解题思路,甚至找出比老师更好的解法。

Agent 领域,因为环境复杂、步骤繁多且标准答案不唯一,RL(RLHF/RLEF)提供的“试错探索”和“结果导向”机制,是实现高水平智能体的必经之路。

00:00
00:00