gpt4 book ai didi

machine-learning - MDP 中的随机状态转换 : How does Q-learning estimate that?

转载 作者:行者123 更新时间:2023-11-30 08:31:05 24 4
gpt4 key购买 nike

我正在网格世界中实现 Q-learning,以找到最佳策略。困扰我的一件事是状态转换是随机的。例如,如果我处于状态 (3,2) 并采取“向北”行动,则我将以 0.8 的概率到达 (3,1),以 0.1 的概率到达 (2,2),并以 0.1 的概率到达 (4) ,2) 概率为 0.1。我如何将这些信息融入到算法中?正如我到目前为止所读到的,Q-learning 是一种“无模型”学习——它不需要知道状态转换概率。我不相信算法在训练过程中如何自动找到这些转移概率。如果有人能解决问题,我将不胜感激。

最佳答案

让我们看看 Q-learning 保证了什么,看看它为什么处理转移概率。

让我们将 q* 称为最佳 Action 值函数。该函数返回在某种状态下采取某种操作的正确。状态- Action 对的是采取该 Action ,然后遵循最优策略的预期累积奖励。最优策略只是一种选择能够实现最大可能预期累积奖励的操作的方法。一旦我们有了q*,就很容易找到最优策略;从您所处的每个状态 s 中,贪婪地选择最大化 q*(s,a) 的操作。 Q-learning 学习 q* 假设它无限次访问所有状态和 Action

For example, if I am in the state (3,2) and take an action 'north', I would land-up at (3,1) with probability 0.8, to (2,2) with probability 0.1 and to (4,2) with probability 0.1. How do I fit this information in the algorithm?

由于该算法无限次访问所有状态和 Action ,并对 q 值进行平均,因此它会了解尝试向北行驶的值的期望。我们向北走很多次,以至于该值收敛到每个可能结果以其转移概率加权的总和。假设我们知道网格世界上的所有值,除了从 (3,2) 向北的值之外,并假设从 (3,2) 开始的任何转换都没有奖励。从 (3,2) 向北采样无限次后,算法收敛到值0.8 * q(3,1) + 0.1 * q(2,2) + 0.1 * q(4,2).有了这个值,来自 (3,2) 的贪婪行动选择现在将被正确告知尝试向北行驶的真实期望值。转移概率直接融入到值中!

关于machine-learning - MDP 中的随机状态转换 : How does Q-learning estimate that?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39247265/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com