gpt4 book ai didi

reinforcement-learning - 为什么 Sutton 的 RL 书中没有 n-step Q-learning 算法?

转载 作者:行者123 更新时间:2023-12-01 11:16:46 26 4
gpt4 key购买 nike

我想我把事情搞砸了。

我一直认为:
- 1 步 TD on-policy = Sarsa
- 1 步 TD off-policy = Q-learning

因此我得出结论:
- n-step TD on-policy = n-step Sarsa
- n-step TD off-policy = n-step Q-learning

然而,在 Sutton 的书中,他从未介绍过 n-step Q-Learning,但他确实介绍了 n-step off-policy Sarsa。现在我感到很困惑。

有人可以帮我命名吗?

Link to Sutton's book (第 149 页的 Off-Policy n 步 Sarsa)

最佳答案

I always thought that:

  • 1-step TD on-policy = Sarsa
  • 1-step TD off-policy = Q-learning


这大部分是正确的,但不是完整的故事。 Q-learning 是 off-policy 1-step temporal-difference learning 的一个版本,但不仅如此;它专门更新相对于当前估计值贪婪的策略的 Q 值。离策略值学习可以更一般,它可以是任何目标策略的学习; Q-learning 更具体,它特别是关于将贪婪策略作为目标策略。

Q-learning 的简单扩展 n步骤将不再正确,因为这不适用于离策略算法(如 Q-learning)。您必须以某种方式纠正“偏离政策”;一种方法是重要性抽样。当您以更一般的方式(对于任何可能的目标策略)介绍它时,您会在您提到的那个页面上获得算法,他们在那里将其称为 Off-policy n -步萨尔萨。我想这个算法的一个特定实例,具有目标策略 pi是关于 Q 的贪婪策略, 可以直观地理解为 n 的“正确”版本-step Q 学习。

关于reinforcement-learning - 为什么 Sutton 的 RL 书中没有 n-step Q-learning 算法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49822078/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com