基于本文回答
0
评论

什么是 deterministic agent 和 stochastic agent?

知识点图片

在人工智能(AI)和强化学习(Reinforcement Learning)领域,Deterministic Agent(确定性智能体)Stochastic Agent(随机性智能体) 的核心区别在于它们制定决策(即策略 Policy)的方式

简单来说,区别在于:面对完全相同的情况,确定性智能体每次都会做完全相同的事;而随机性智能体则可能根据概率做不同的事。

以下是详细的解释:


1. Deterministic Agent(确定性智能体)

定义:
确定性智能体的策略(Policy)是状态到动作的一对一映射。对于任何给定的状态 ss,智能体总是选择同一个特定的动作 aa

数学表达:
a=π(s)a = \pi(s)
(输入状态 ss,直接输出动作 aa

特点:

  • 无随机性: 只要输入(环境状态)不变,输出(动作)永远不变。
  • 可预测性: 这种智能体的行为非常容易预测。
  • 贪婪性(通常): 在强化学习中,确定性策略通常对应于“利用”(Exploitation),即总是选择当前认为价值最高的那个动作。

例子:

  • 国际象棋程序: 如果面对一个特定的棋局,程序计算出“马走日”是得分最高的步数,那么无论你让它在这个局面下运行多少次,它永远都会走这一步。
  • 简单的温控器: 如果温度高于26度,开启空调。这个逻辑是死的,没有概率可言。

2. Stochastic Agent(随机性智能体)

定义:
随机性智能体的策略是状态到动作概率分布的映射。对于给定的状态 ss,智能体不会直接输出一个动作,而是输出每个可能动作的发生概率。然后,智能体根据这个概率分布进行“采样”来决定采取哪个动作。

数学表达:
π(as)=P(A=aS=s)\pi(a|s) = P(A=a | S=s)
(在状态 ss 下,采取动作 aa 的概率是多少)

特点:

  • 不确定性: 即使面对完全相同的状态,智能体第一次可能选动作 A,第二次可能选动作 B(取决于概率)。
  • 探索能力(Exploration): 这种机制天然适合探索环境。因为它有机会尝试那些“看起来不是最好,但可能带来意外惊喜”的动作。
  • 适应性: 在某些场景下(如博弈论或部分可观测环境),保持行为的不可预测性是至关重要的。

例子:

  • 石头剪刀布: 如果你是一个确定性智能体(比如总是出石头),对手很快就能打败你。一个优秀的随机性智能体会在石头、剪刀、布之间以各 33.3% 的概率随机选择,这样对手就无法预测你的下一步。
  • 机器人抓取: 在连续动作空间中,智能体可能会输出一个高斯分布(正态分布),动作在均值附近波动,这有助于机器人在学习过程中微调姿态。

3. 核心对比总结

特性 Deterministic (确定性) Stochastic (随机性)
决策逻辑 sas \rightarrow a (固定映射) s概率分布s \rightarrow \text{概率分布} (随机采样)
行为一致性 相同输入 \rightarrow 相同输出 相同输入 \rightarrow 可能不同的输出
主要用途 静态环境、完全可观测环境、利用阶段 探索阶段、博弈对抗、部分可观测环境 (POMDP)
优点 简单、高效、收敛后表现稳定 能够探索新策略、防止陷入局部最优、让对手难以预测
缺点 容易陷入死循环或局部最优、容易被对手针对 训练过程可能不稳定、需要更多的样本来评估好坏

4. 什么时候用哪种?

  1. 在强化学习的训练过程中:

    • 我们通常希望智能体表现得像 Stochastic Agent。因为如果智能体太“确定”,它就会一直走老路,永远发现不了更好的策略(这就是著名的“探索与利用”权衡)。
    • 例如:Epsilon-Greedy 策略 就是一种混合体。它有 1ϵ1-\epsilon 的概率是确定性的(选最好的),有 ϵ\epsilon 的概率是随机的(乱选一个)。
  2. 在模型部署(测试)时:

    • 通常我们会将训练好的随机策略转化为 Deterministic Agent。比如,直接取概率最大的那个动作作为最终决定,以保证性能的稳定性。
  3. 在对抗性博弈(如德州扑克)中:

    • 必须使用 Stochastic Agent。如果你诈唬(Bluff)的策略是确定性的(例如:只要手牌小于5就诈唬),对手一旦发现规律,你就输定了。你需要的是“混合策略纳什均衡”,即保持一定的随机性。
右滑查看面试常问