- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
在我浏览关于强化学习的各种资料时,我发现了两个版本的 V
和 Q
方程式:
这对:
V(s) = max<sub>a</sub> (sum<sub>s'</sub> P(s'|s,a) (R(s,a,s') + lambda V(s')))
Q(s,a) = sum<sub>s'</sub> P(s'|s,a) (R(s,a,s') + lambda max<sub>a'</sub> Q(s',a'))
还有这对:
V(s) = R(s,a) + max<sub>a</sub> (sum <sub>s'</sub> P(s'|s,a) lambda V(s'))
Q(s,a) = R(s,a) + sum<sub>s'</sub> (P(s'|s,a) lambda max<sub>a'</sub> Q(s',a'))
主要区别在于是否V
和 Q
在它们的值(value)中包括立即奖励,以及状态的值(value)是否完全由状态或转移决定。虽然我很少看到后一对,但我确信它是正确的。
这两者之间的这些差异或任何其他差异是否会影响各种强化算法的工作方式?
最佳答案
第一对用于给定状态和 Action 的奖励是确定性的,第二对用于奖励也是随机的。
实际上,环境决定了你必须使用哪一对。例如,在像 Atari-2600 这样的环境中,第一对是有效的,因为对于给定的状态和 Action ,您总是会获得相同的奖励值。
关于reinforcement-learning - 贝尔曼方程的版本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60329757/
我这里有一个更智能的 Bellman-Ford 版本: //Queue Q; source s; vertices u, v Q ← s // Q holds vertices who
已关闭。这个问题是 off-topic 。目前不接受答案。 想要改进这个问题吗? Update the question所以它是on-topic用于堆栈溢出。 已关闭10 年前。 Improve th
我正在尝试改进 Bellman-Ford 算法的性能,我想知道这种改进是否正确。 我运行放松部分不是 V-1 而是 V 次,并且涉及一个 boolean 变量,如果在外循环迭代期间发生任何放松,则设置
经过大量谷歌搜索后,我发现大多数消息来源都说 Dijkstra 算法比 Bellman-Ford 算法“更有效”。但是在什么情况下Bellman-Ford算法比Dijkstra算法更好呢? 我知道“更
def calculateShortestPath(self,vertexList,edgeList,startVertex): startVertex.minDistance=0 f
我是一名优秀的程序员,十分优秀!