- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想我把事情搞砸了。
我一直认为:
- 1 步 TD on-policy = Sarsa
- 1 步 TD off-policy = Q-learning
因此我得出结论:
- n-step TD on-policy = n-step Sarsa
- n-step TD off-policy = n-step Q-learning
然而,在 Sutton 的书中,他从未介绍过 n-step Q-Learning,但他确实介绍了 n-step off-policy Sarsa。现在我感到很困惑。
有人可以帮我命名吗?
Link to Sutton's book (第 149 页的 Off-Policy n 步 Sarsa)
最佳答案
I always thought that:
- 1-step TD on-policy = Sarsa
- 1-step TD off-policy = Q-learning
n
步骤将不再正确,因为这不适用于离策略算法(如 Q-learning)。您必须以某种方式纠正“偏离政策”;一种方法是重要性抽样。当您以更一般的方式(对于任何可能的目标策略)介绍它时,您会在您提到的那个页面上获得算法,他们在那里将其称为 Off-policy
n
-步萨尔萨。我想这个算法的一个特定实例,具有目标策略
pi
是关于
Q
的贪婪策略, 可以直观地理解为
n
的“正确”版本-step Q 学习。
关于reinforcement-learning - 为什么 Sutton 的 RL 书中没有 n-step Q-learning 算法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49822078/
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 这个问题似乎与 help center 中定义的范围内的编程无关。 . 关闭 2 年前。 Improve
我正在尝试基于 Sutton & Barto's Book 实现线性梯度下降 Sarsa ,算法见下图。 但是,我很难理解算法中的某些内容: w 和 z 的维度是否与可以采取的不同操作数量无关?在书中
我已经阅读了很多关于 Reinforcement Learning 的内容最近,我找到了"Reinforcement Learning: An Introduction"成为一名出色的向导。作者的帮助
我想我把事情搞砸了。 我一直认为: - 1 步 TD on-policy = Sarsa - 1 步 TD off-policy = Q-learning 因此我得出结论: - n-step TD o
在 Sutton&Barto 的 RL 书 (link) 中,Watkins 的 Q(λ) 学习算法如图 7.14 所示: 第 10 行“对于所有的 s,a:”,这里的“s,a”是针对所有的 (s,a
我是一名优秀的程序员,十分优秀!