gpt4 book ai didi

machine-learning - SARSA-Lambda 实现中各事件之间的资格跟踪重新初始化

转载 作者:行者123 更新时间:2023-11-30 08:22:13 25 4
gpt4 key购买 nike

我正在查看这个 SARSA-Lambda 实现(即:具有资格跟踪的 SARSA),但有一个细节我仍然不明白。

enter image description here

(图片来自http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html)

所以我知道所有 Q(s,a) 都会更新,而不仅仅是代理为给定时间步长选择的 Q(s,a)。我还了解到 E 矩阵不会在每集开始时重置。

让我们假设图 7.12 的面板 3 是第 1 集的最终状态。

在第 2 集开始时,智能体向北移动而不是向东移动,我们假设这会给它 -500 的奖励。这是否也会影响上一集中访问过的所有状态?

如果这个想法是奖励当前情节中访问过的那些状态,那么为什么不在每集开始时重置包含所有 e(s,a) 值的矩阵?看起来,在这个实现中,上一集中访问过的状态会因代理在新集中执行的操作而受到“惩罚”或“奖励”。

最佳答案

我百分百同意你的观点。未能在每集开始时重置电子矩阵正是您所描述的问题。 据我所知,这是伪代码中的错误。您引用的引用文献非常受欢迎,因此该错误已传播到许多其他引用文献。然而,this well-cited paper非常明确地指出 e-matrix 应在剧集之间重新初始化:

The eligibility traces are initialized to zero, and in episodic tasks they are reinitialized to zero after every episode.

作为进一步的证据,this paper的方法:

The trace, e, is set to 0 at the beginning of each episode.

和脚注#3来自 this paper :

...eligibility traces were reset to zero at the start of each trial.

表明这是常见的做法,因为两者都指的是情节之间的重新初始化。我希望这样的例子还有很多。

在实践中,该算法的许多用途不涉及多个情节,或者相对于其衰减率而言,情节很长,因此这最终不会成为问题。我想这就是为什么互联网上其他地方还没有更明确地澄清这一点的原因。

关于machine-learning - SARSA-Lambda 实现中各事件之间的资格跟踪重新初始化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29904270/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com