gpt4 book ai didi

machine-learning - 带有规划的 Dyna-Q 与 n 步 Q 学习

转载 作者:行者123 更新时间:2023-11-30 10:00:00 28 4
gpt4 key购买 nike

我正在阅读 Sutton 和 Barto 的《强化学习》,对于 Dyna-Q 的示例,他们使用了迷宫问题。该示例表明,在 n=50 步规划的情况下,算法只需 3 个回合即可达到最佳路径。

这是否比 50 步 Q 学习有所改进?看起来你实际上只是在每一集中运行一堆 50 步的 Q 学习算法,所以说它在 3 集中找到最佳路径是有误导性的。

另外,我想最大的问题是,我认为当你没有环境模型时 Dyna-Q 很有用,但在这个例子中我们没有环境模型吗?如果我们已经有了模型,为什么要使用所有内存来保存之前的所有 Action 呢?我无法理解为什么这是 Dyna-Q 的一个很好的例子。

最佳答案

理论上,我们没有模型。我们在实践中只是为了模拟,但在现实生活中却没有。

Dyna-Q 基本上使用样本来近似您的模型。您无需学习转换和奖励函数,而是“查询”数据:过去当我在状态 s 下执行操作 a 时发生了什么?如果一切都是确定性的,这相当于知道确切的模型。

想想也是这样。在经典的 Q 学习中,您只知道当前的 s,a,因此仅在访问时才更新 Q(s,a)。在 Dyna-Q 中,您每次更新所有 Q(s,a)从内存中查询它们。您不必重新访问它们。这极大地加快了速度。

此外,非常常见的“重放内存”基本上重新发明了 Dyna-Q,尽管没有人承认这一点。

关于machine-learning - 带有规划的 Dyna-Q 与 n 步 Q 学习,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59425390/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com