gpt4 book ai didi

reinforcement-learning - off-policy 学习方法是否比 on-policy 方法更好?

转载 作者:行者123 更新时间:2023-12-05 00:16:06 27 4
gpt4 key购买 nike

我无法理解 on-policy 方法(如 A3C )和 off-policy 方法(如 DDPG )之间的根本区别是什么。据我所知,无论行为策略如何,off-policy 方法都可以学习到最优策略。它可以通过观察环境中的任何轨迹来学习。因此,我可以说 off-policy 方法比 on-policy 方法更好吗?

我已阅读 cliff-walking example显示 SARSA 之间的差异和 Q-learning .它说 Q-learning将学习沿悬崖行走的最优策略,而 SARSA将学会在使用 epsilon-greedy 时选择更安全的方式政策。但由于 Q-learning已经告诉我们最优策略了,为什么我们不遵循那个策略而不是继续探索呢?

另外,这两种学习方法是否存在一种优于另一种的情况?在哪种情况下,人们会更喜欢 on-policy 算法?

最佳答案

正如您已经说过的,off-policy 方法可以学习最佳策略而不管行为策略(实际上行为策略应该具有一些属性),而 on-policy 方法要求代理按照它正在学习的策略进行操作。

想象一下,您有一个先前存储的轨迹数据集(即元组形式的数据 (s,a,r,s') )的情况。这些数据是根据给定的策略收集的,您无法更改它。在这种情况下,这对于医疗问题很常见,您只能应用非策略方法。

这意味着off-policy方法更好?不一定。我们可以说,off-policy 方法在它们可能面临的问题类型上更加灵活。但是,从理论的角度来看,它们具有不同的属性,有时很方便。例如,如果我们比较 Q-learning 与 SARSA 算法,它们之间的主要区别是 max Q-learning更新规则中使用的算子。这个算子是高度非线性的,这会使算法与函数逼近器相结合变得更加困难。

什么时候最好使用 on-policy 方法?好吧,如果您面临连续状态空间的问题,并且您对使用线性函数逼近器(例如 RFB 网络)感兴趣。然后使用 on-policy 方法更稳定。您可以在 Section off-policy bootstrapping 中找到有关此主题的更多信息。萨顿和巴托的书。

关于reinforcement-learning - off-policy 学习方法是否比 on-policy 方法更好?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42606589/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com