gpt4 book ai didi

algorithm - Q-Learning 算法的实现是递归的吗?

转载 作者:塔克拉玛干 更新时间:2023-11-03 05:04:41 25 4
gpt4 key购买 nike

我正在尝试实现 Q-Learning。通用算法来自here如下

enter image description here

在声明中

enter image description here

我只是不明白我是否应该为所有下一个状态递归实现原始伪代码的上述语句,当前状态/ Action 可以引导我们到达并每次都最大化它

或者从 Action-State Q-Value 表中选择当前操作的下一个状态的最大值

提前致谢。

最佳答案

所有公式表示,在步骤 t+1 上,您使用步骤 t 中的状态 Action 值和值的最大值更新状态 Action 值针对当前状态的所有操作。

关于algorithm - Q-Learning 算法的实现是递归的吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27293219/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com