gpt4 book ai didi

reinforcement-learning - 贝尔曼方程的版本

转载 作者:行者123 更新时间:2023-12-04 08:40:47 26 4
gpt4 key购买 nike

在我浏览关于强化学习的各种资料时,我发现了两个版本的 VQ方程式:

这对:

V(s) = max<sub>a</sub> (sum<sub>s'</sub> P(s'|s,a) (R(s,a,s') + lambda V(s')))

Q(s,a) = sum<sub>s'</sub> P(s'|s,a) (R(s,a,s') + lambda max<sub>a'</sub> Q(s',a'))

还有这对:

V(s) = R(s,a) + max<sub>a</sub> (sum <sub>s'</sub> P(s'|s,a) lambda V(s'))

Q(s,a) = R(s,a) + sum<sub>s'</sub> (P(s'|s,a) lambda max<sub>a'</sub> Q(s',a'))

主要区别在于是否VQ在它们的值(value)中包括立即奖励,以及状态的值(value)是否完全由状态或转移决定。虽然我很少看到后一对,但我确信它是正确的。

这两者之间的这些差异或任何其他差异是否会影响各种强化算法的工作方式?

最佳答案

第一对用于给定状态和 Action 的奖励是确定性的,第二对用于奖励也是随机的。

实际上,环境决定了你必须使用哪一对。例如,在像 Atari-2600 这样的环境中,第一对是有效的,因为对于给定的状态和 Action ,您总是会获得相同的奖励值。

关于reinforcement-learning - 贝尔曼方程的版本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60329757/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com