gpt4 book ai didi

machine-learning - Q 学习、时差、基于模型的强化学习

转载 作者:行者123 更新时间:2023-11-30 08:21:26 28 4
gpt4 key购买 nike

我在大学学习一门名为“智能机器”的类(class)。我们向我们介绍了 3 种强化学习方法,并通过这些方法我们获得了何时使用它们的直觉,我引用:

  1. Q-Learning - 当 MDP 无法解决时最好。
  2. 时间差分学习 - 当 MDP 已知或可以学习但无法求解时效果最佳。
  3. 基于模型 - 当无法学习 MDP 时最好。

是否有任何好的示例来解释何时选择一种方法而不是另一种方法?

最佳答案

时间差异an approach to learning how to predict a quantity that depends on future values of a given signal 。它可以用来学习V函数和Q函数,而Q-learning是一种用于学习Q函数的特定TD算法。正如 Don Reba 所说,您需要 Q 函数来执行操作(例如,遵循 epsilon-greedy 策略)。如果您只有 V 函数,您仍然可以通过迭代所有可能的下一个状态并选择导致 V 值最高的状态的操作来导出 Q 函数。如需示例和更多见解,我推荐 classic book from Sutton and Barto .

无模型强化学习中,您无需学习状态转换函数(模型),只能依赖样本。但是,您可能也有兴趣学习它,例如因为您无法收集许多样本并想要生成一些虚拟样本。在本例中,我们讨论基于模型的强化学习。基于模型的强化学习在机器人领域非常常见,您无法执行许多真实的模拟,否则机器人就会崩溃。 This是一个很好的调查,有很多例子(但它只讨论策略搜索算法)。另一个例子看看 this paper 。在这里,作者学习了一个高斯过程以及一个策略来近似机器人的前向模型,以模拟轨迹并减少实际机器人交互的次数。

关于machine-learning - Q 学习、时差、基于模型的强化学习,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34181056/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com