这是一个非常深刻且触及大模型(LLM)核心训练机制的问题。简单来说,SFT(有监督微调)教会模型“怎么说话”,而RLHF(基于人类反馈的强化学习)教会模型“怎么把话说明白、说得符合人类期望”。 以下从通用模型表现和Agent(智能体)训练两个维度深入解析。 --- 第一部分:为什么 RLHF 比 SFT 表现更好? SFT 的本质是模仿学习(Imitation Learning),而 RLHF 的本质是偏好优化(Preference Optimization)。RLHF 之所以能超越 SFT,主要解决了 SFT 的几个核心缺陷: 1. 目标函数的差异:局部 vs. 全局 SFT (Next Token Prediction): SFT 的损失函数是交叉熵(Cross-Entropy)。它只关注下一个字预测得准不准。只要模型预测的字和训练数据不一样,哪怕意思完全相同,也会受到惩罚。 弊端: 这限制了模型的多样性,迫使模型死记硬背训练数据的特定措辞。 RLHF (Reward Maximization): RLHF 引入了奖励模型(Reward Model)。它关注的是整段回答的质量...