gpt4 book ai didi

machine-learning - SARSA 的资格痕迹是如何计算的?

转载 作者:行者123 更新时间:2023-11-30 09:13:05 27 4
gpt4 key购买 nike

我正在尝试实现资格跟踪(前瞻性),其伪代码可以在下图中找到

enter image description here

我不确定 For all s, a 的含义(从下面第 5 行)。他们从哪里获得 s, a 的集合?

如果是前瞻性的,是否从当前状态向前循环观察s'

你会调整每一个e(s, a)吗?

最佳答案

不幸的是,他们在两个不同的范围内重用了变量 s 和 a,但是,是的,您可以调整所有 e(s,a) 值,例如,

for every state s in your state space
for every action a in your action space
update Q(s,a)
update e(s,a)

注意这里发生了什么。 e(s,a) 以指数递减的方式递增。但就在进入该循环之前,您增加了与刚刚访问的状态/操作对相对应的single e(s,a)。因此,该对以某种方式“重置”——它不会获得指数较小的更新,并且在下一次迭代中,它的更新将继续大于您最近未访问过的所有对。每次访问状态/操作对时,都会增加它对 Q 的更新贡献的权重,进行几次迭代。

关于machine-learning - SARSA 的资格痕迹是如何计算的?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23559050/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com