SFT(Supervised Fine-Tuning,有监督微调)是让大模型从“续写文本”转变为“遵循指令、进行对话”的关键阶段。 与预训练(Pre-training)追求海量数据不同,SFT 的核心逻辑是 “Quality over Quantity”(质量优于数量)。根据 LIMA(Less Is More for Alignment)等研究,少量高质量的数据往往能取得比大量低质量数据更好的效果。 以下是 SFT 数据构建的几个关键点,按重要性排序: 1. 数据质量(Quality):核心中的核心 SFT 的本质是教会模型“如何利用预训练阶段学到的知识来回答问题”。如果 SFT 数据有误,模型就会产生幻觉或逻辑崩坏。 正确性与真实性:答案必须事实准确,代码必须能运行,数学推理步骤必须无误。 思维链(Chain of Thought, CoT):不仅仅给出答案,更要展示推理过程。高质量的 SFT 数据应包含详细的步骤解析(Step-by-step),这能显著提升模型的逻辑推理能力。 人类语气与风格:去除机器生成的生硬感,确保回答有帮助、诚实且无害(Helpful, Honest...