模型自我反省（Self-reflection）是什么？

Question

Accepted Answer

模型自我反省（Self-reflection），在人工智能（特别是大语言模型，LLM）领域，是指模型在生成回答的过程中或之后，能够自我评估、识别错误并进行修正的一种能力或机制。 简单来说，这就像人类在说话或做题时，会“三思而后行”或者“检查一遍”：写完草稿后，自己读一遍，发现有逻辑漏洞或错别字，然后修改，最后才交卷。 以下是关于模型自我反省的详细解读： 1. 核心机制：它是如何工作的？ 传统的LLM生成通常是线性的：输入提示词（Prompt） -> 模型一次性生成结果。 而引入自我反省后，过程变成了一个循环（Loop）： 1. 生成（Generation）： 模型根据问题生成初步的回答。 2. 评估/批评（Evaluation/Critique）： 模型（或者另一个辅助模型）审视刚才生成的回答。它会问自己：“这个答案对吗？”、“代码能运行吗？”、“逻辑通顺吗？”。 3. 修正（Refinement）： 如果发现错误或不足，模型会根据“批评意见”重新生成或修改答案。 4. 输出（Output）： 直到评估通过，或者达到最大尝试次数，才输出最终结果。 2. 为什么要引入自我反省？ L...