gpt4 book ai didi

c++ - 如何在 Q-learning 中计算 MaxQ?

转载 作者:行者123 更新时间:2023-12-03 09:08:37 27 4
gpt4 key购买 nike

我正在实现 Q-learning,特别是 Bellman 方程。 Bellman equation

我正在使用来自 website 的版本这会引导他解决问题,但我有疑问:
对于 maxQ,我是否使用新状态 (s') 的所有 Q 表值来计算最大奖励 - 在我的情况下,4 个可能的操作 (a'),每个都有各自的值 - 或 Q 表值的总和采取行动 (a') 时的所有位置?

换句话说,我是使用我可以采取的所有可能操作的最高 Q 值,还是所有“相邻”方块的 Q 值总和?

最佳答案

对于可以采取的所有可能的操作,您始终使用最大 Q 值。

这个想法是选择下一个状态具有最大(最佳)Q 值的 Action ,以保持最佳策略 Qpi* 。

关于c++ - 如何在 Q-learning 中计算 MaxQ?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58473521/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com