什么是 deterministic agent 和 stochastic agent？

知识点图片

在人工智能（AI）和强化学习（Reinforcement Learning）领域，Deterministic Agent（确定性智能体） 和 Stochastic Agent（随机性智能体） 的核心区别在于它们制定决策（即策略 Policy）的方式。

简单来说，区别在于：面对完全相同的情况，确定性智能体每次都会做完全相同的事；而随机性智能体则可能根据概率做不同的事。

以下是详细的解释：

定义：
确定性智能体的策略（Policy）是状态到动作的一对一映射。对于任何给定的状态 $s$ ，智能体总是选择同一个特定的动作 $a$ 。

数学表达：
$a = \pi(s)$
（输入状态 $s$ ，直接输出动作 $a$ ）

特点：

例子：

定义：
随机性智能体的策略是状态到动作概率分布的映射。对于给定的状态 $s$ ，智能体不会直接输出一个动作，而是输出每个可能动作的发生概率。然后，智能体根据这个概率分布进行“采样”来决定采取哪个动作。

数学表达：
$\pi(a|s) = P(A=a | S=s)$
（在状态 $s$ 下，采取动作 $a$ 的概率是多少）

特点：

例子：

石头剪刀布： 如果你是一个确定性智能体（比如总是出石头），对手很快就能打败你。一个优秀的随机性智能体会在石头、剪刀、布之间以各 33.3% 的概率随机选择，这样对手就无法预测你的下一步。
机器人抓取： 在连续动作空间中，智能体可能会输出一个高斯分布（正态分布），动作在均值附近波动，这有助于机器人在学习过程中微调姿态。

在强化学习的训练过程中：
- 我们通常希望智能体表现得像 Stochastic Agent。因为如果智能体太“确定”，它就会一直走老路，永远发现不了更好的策略（这就是著名的“探索与利用”权衡）。
- 例如：Epsilon-Greedy 策略 就是一种混合体。它有 $1-\epsilon$ 的概率是确定性的（选最好的），有 $\epsilon$ 的概率是随机的（乱选一个）。
在模型部署（测试）时：
- 通常我们会将训练好的随机策略转化为 Deterministic Agent。比如，直接取概率最大的那个动作作为最终决定，以保证性能的稳定性。
在对抗性博弈（如德州扑克）中：
- 必须使用 Stochastic Agent。如果你诈唬（Bluff）的策略是确定性的（例如：只要手牌小于5就诈唬），对手一旦发现规律，你就输定了。你需要的是“混合策略纳什均衡”，即保持一定的随机性。

右滑查看面试常问

播面