提示工程（Prompt Engineering）与传统的 NLP 微调（Fine-tuning）的优缺点

知识点图片

提示工程（Prompt Engineering）与传统的模型微调（Fine-tuning）是目前让大型语言模型（LLM）适配特定任务的两种最核心手段。它们在成本、技术门槛、数据需求和最终效果上有着显著的差异。

以下是两者的优缺点详细对比：

提示工程是通过设计、优化输入文本（Prompt），利用大模型强大的“上下文学习”（In-context Learning）能力，引导模型生成所需输出，而不改变模型的任何底层权重（参数）。

受限于上下文窗口：Prompt 的长度有限（虽然现在的窗口越来越大，如 128K、1M，但过长的输入会导致模型“迷失在中间”或处理变慢）。
推理成本高（Token 消耗大）：为了让模型表现好，往往需要在 Prompt 中塞入大量背景知识和示例，这会显著增加每次调用的 API 费用和推理延迟。
性能天花板和不稳定性：对于模型从未见过的垂直领域知识（如极其生僻的医学、内部专有代码库），单纯靠 Prompt 很难达到极致的准确率；且模型依然容易产生“幻觉”（Hallucination），输出格式也不如微调稳定。
存在安全风险：容易遭受提示词注入攻击（Prompt Injection），导致模型输出违规内容或泄露系统设定的 Prompt。

微调是指在一个预训练好的基础模型之上，使用特定领域的标注数据集，通过反向传播算法更新模型的参数（权重），使其专门适应某项任务。

极致的垂直领域性能：能够让模型真正“学到”新的风格、特定格式或深度的专业知识。在特定任务上的准确率和稳定性远超提示工程。
降低推理成本：模型内在已经学会了任务，推理时不再需要冗长的背景介绍或 Few-shot 示例，大幅减少输入 Token 数量，降低推理延迟和单次调用成本。
输出格式高度可控：在结构化数据提取（如严格输出 JSON）、特定语气的客服回复等任务中，微调后的模型极少“脱轨”。
数据隐私和安全性：通常微调会在私有环境（本地或私有云）进行，无需将敏感数据写进 Prompt 传给外部公共 API。

高昂的训练成本：需要昂贵的 GPU 算力、较长的训练时间。
苛刻的数据要求：需要大量高质量、经过人工标注的数据（成百上千甚至上万条）。数据清洗和标注是一项巨大的工程。
技术门槛高：需要专业的算法工程师参与，处理学习率、损失函数、过拟合等复杂的机器学习问题。
灾难性遗忘 (Catastrophic Forgetting)：模型在学习新任务时，可能会“忘记”预训练时学到的通用知识能力（例如微调一个代码模型，它可能就不太会写诗了）。
运维负担重：如果企业有 10 个不同的业务场景，可能需要训练并部署 10 个不同的微调模型，显存和管理成本急剧上升。

随着技术的发展，目前工业界很少做“非黑即白”的选择，而是采用组合策略：

先用 Prompt Engineering 探底：拿到新需求时，先花一两天写 Prompt。如果准确率能达到 80%-90% 且满足业务要求，直接上线，无需微调。
引入 RAG（检索增强生成）：如果是因为模型缺乏“最新信息”或“企业内部知识”导致效果不好，现在首选是将文档存入向量数据库，用 Prompt + RAG 的方式解决，而不是直接微调。
PEFT (参数高效微调，如 LoRA)：如果必须微调（比如需要改变模型的说话风格，或者为了降低高频 API 的 Token 成本），现在通常不使用传统的全参数微调（Full Fine-tuning），而是使用 LoRA 等技术。LoRA 只更新极少量的参数（<1%），大幅降低了微调的算力门槛和灾难性遗忘风险，是目前微调的主流方式。

终极建议：能用 Prompt 解决的，就不要微调；能用 RAG 提供知识的，就不要用微调灌输知识；当需要改变模型行为习惯、固定输出格式、降低大规模长期推理成本时，再果断选择微调。

右滑查看面试常问

播面