什么是 deterministic agent 和 stochastic agent?
在人工智能(AI)和强化学习(Reinforcement Learning)领域,Deterministic Agent(确定性智能体) 和 Stochastic Agent(随机性智能体) 的核心区别在于它们制定决策(即策略 Policy)的方式。
简单来说,区别在于:面对完全相同的情况,确定性智能体每次都会做完全相同的事;而随机性智能体则可能根据概率做不同的事。
以下是详细的解释:
1. Deterministic Agent(确定性智能体)
定义:
确定性智能体的策略(Policy)是状态到动作的一对一映射。对于任何给定的状态 ,智能体总是选择同一个特定的动作 。
数学表达:
(输入状态 ,直接输出动作 )
特点:
- 无随机性: 只要输入(环境状态)不变,输出(动作)永远不变。
- 可预测性: 这种智能体的行为非常容易预测。
- 贪婪性(通常): 在强化学习中,确定性策略通常对应于“利用”(Exploitation),即总是选择当前认为价值最高的那个动作。
例子:
- 国际象棋程序: 如果面对一个特定的棋局,程序计算出“马走日”是得分最高的步数,那么无论你让它在这个局面下运行多少次,它永远都会走这一步。
- 简单的温控器: 如果温度高于26度,开启空调。这个逻辑是死的,没有概率可言。
2. Stochastic Agent(随机性智能体)
定义:
随机性智能体的策略是状态到动作概率分布的映射。对于给定的状态 ,智能体不会直接输出一个动作,而是输出每个可能动作的发生概率。然后,智能体根据这个概率分布进行“采样”来决定采取哪个动作。
数学表达:
(在状态 下,采取动作 的概率是多少)
特点:
- 不确定性: 即使面对完全相同的状态,智能体第一次可能选动作 A,第二次可能选动作 B(取决于概率)。
- 探索能力(Exploration): 这种机制天然适合探索环境。因为它有机会尝试那些“看起来不是最好,但可能带来意外惊喜”的动作。
- 适应性: 在某些场景下(如博弈论或部分可观测环境),保持行为的不可预测性是至关重要的。
例子:
- 石头剪刀布: 如果你是一个确定性智能体(比如总是出石头),对手很快就能打败你。一个优秀的随机性智能体会在石头、剪刀、布之间以各 33.3% 的概率随机选择,这样对手就无法预测你的下一步。
- 机器人抓取: 在连续动作空间中,智能体可能会输出一个高斯分布(正态分布),动作在均值附近波动,这有助于机器人在学习过程中微调姿态。
3. 核心对比总结
| 特性 | Deterministic (确定性) | Stochastic (随机性) |
|---|---|---|
| 决策逻辑 | (固定映射) | (随机采样) |
| 行为一致性 | 相同输入 相同输出 | 相同输入 可能不同的输出 |
| 主要用途 | 静态环境、完全可观测环境、利用阶段 | 探索阶段、博弈对抗、部分可观测环境 (POMDP) |
| 优点 | 简单、高效、收敛后表现稳定 | 能够探索新策略、防止陷入局部最优、让对手难以预测 |
| 缺点 | 容易陷入死循环或局部最优、容易被对手针对 | 训练过程可能不稳定、需要更多的样本来评估好坏 |
4. 什么时候用哪种?
在强化学习的训练过程中:
- 我们通常希望智能体表现得像 Stochastic Agent。因为如果智能体太“确定”,它就会一直走老路,永远发现不了更好的策略(这就是著名的“探索与利用”权衡)。
- 例如:Epsilon-Greedy 策略 就是一种混合体。它有 的概率是确定性的(选最好的),有 的概率是随机的(乱选一个)。
在模型部署(测试)时:
- 通常我们会将训练好的随机策略转化为 Deterministic Agent。比如,直接取概率最大的那个动作作为最终决定,以保证性能的稳定性。
在对抗性博弈(如德州扑克)中:
- 必须使用 Stochastic Agent。如果你诈唬(Bluff)的策略是确定性的(例如:只要手牌小于5就诈唬),对手一旦发现规律,你就输定了。你需要的是“混合策略纳什均衡”,即保持一定的随机性。
右滑查看面试常问