gpt4 book ai didi

algorithm - 什么时候使用某种强化学习算法?

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:17:11 36 4
gpt4 key购买 nike

我正在学习强化学习并阅读 Sutton 的大学类(class)书籍。除了经典的 PD、MC、TD 和 Q-Learning 算法外,我还在阅读有关解决决策问题的策略梯度方法和遗传算法。我以前从未有过这个主题的经验,而且我在理解什么时候应该优先使用一种技术时遇到问题。我有一些想法,但我不确定。有人可以简要解释或告诉我一个来源,在那里我可以找到关于应该使用某种方法的典型情况的信息吗?据我了解:

  • 仅当 MDP 的 Action 和状态很少且模型已知时才应使用动态规划和线性规划,因为它非常昂贵。但是什么时候 DP 比 LP 好呢?
  • 当我没有问题的模型但我可以生成样本时,可以使用蒙特卡洛方法。它没有偏差但具有高方差。
  • 当 MC 方法需要太多样本才能具有低方差时,应使用时间差分方法。但是什么时候应该使用 TD,什么时候使用 Q-Learning?
  • 策略梯度和遗传算法适用于连续 MDP。但是什么时候一个比另一个更好呢?

更准确地说,我认为程序员在选择学习方法时应该问自己以下问题:

  • 代理是在线学习还是离线学习?
  • 我们能否将探索和开发阶段分开?
  • 我们能否进行足够的探索?
  • MDP 的范围是有限的还是无限的?
  • 状态和 Action 是否连续?

但我不知道问题的这些细节如何影响学习方法的选择。我希望一些程序员已经对 RL 方法有一些经验,可以帮助我更好地理解他们的应用。

最佳答案

简要说明:

代理是在线学习还是离线学习?帮助您决定是使用在线算法还是离线算法。 (例如在线:SARSA,离线:Q-learning)。在线方法有更多的局限性,需要更加注意支付。

我们能否将探索和利用阶段分开?这两个阶段通常处于平衡状态。例如,在 epsilon-greedy Action 选择中,您使用 (epsilon) 概率进行利用,使用 (1-epsilon) 概率进行探索。您可以将这两者分开,让算法先探索(例如选择随机 Action ),然后再利用。但是当您离线学习并且可能使用系统动力学模型时,这种情况是可能的。通常意味着提前收集大量样本数据。

我们可以进行足够的探索吗?探索的级别可以根据问题的定义来决定。例如,如果你在内存中有问题的模拟模型,那么你可以随心所欲地探索。但真正的探索仅限于您拥有的资源量。 (例如精力、时间……)

状态和 Action 是否连续?考虑这一假设有助于选择正确的方法(算法)。有为 RL 开发的离散和连续算法。一些“连续”算法在内部离散化状态或 Action 空间。

关于algorithm - 什么时候使用某种强化学习算法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22723830/

36 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com