Instruction Tuning(指令微调) 是大语言模型(LLM)发展过程中一个非常关键的技术步骤,它是让 GPT-3 变成 ChatGPT 的核心技术之一。 简单来说,指令微调就是教会模型“听懂人话”并“照着做”。 下面我将详细解释它的定义,并对比它与普通微调的区别。 --- 1. 什么是 Instruction Tuning(指令微调)? 在大模型经过预训练(Pre-training)后,它虽然学到了海量的知识和语法,但它的本质仍然是一个“文本续写机”。 预训练模型的行为: 如果你问它“中国的首都是哪里?”,它可能不会回答“北京”,而是根据概率续写成:“...美国的首都是哪里?日本的首都是哪里?”(因为它见过很多类似的试题集)。 指令微调的目标: 改变这种行为,让模型理解“指令(Instruction)”的意图,并给出符合人类期望的“回复(Response)”。 它是怎么做的? 研究人员会准备大量的数据集,这些数据由 对组成。 指令: “请把下面这句话翻译成英文。” 输入(可选): “今天天气真好。” 输出: “The weather is very good toda...