gpt4 book ai didi

c++ - SARSA的Zeta变量(lamda)

转载 作者:行者123 更新时间:2023-11-28 04:43:14 25 4
gpt4 key购买 nike

zeta 在 critic 方法中代表什么?我相信它会跟踪状态- Action 对并表示资格跟踪,这是状态- Action 的临时记录,但 zeta 究竟代表什么以及它在 C++ 中的外观如何(例如 double vector )?

评论家 Critic

最佳答案

如您所述,zeta 代表资格迹线。这可以直观地理解为包含“在所有先前时间步中遇到的所有状态- Action 特征向量的衰减混合”。这是我们之前看到的事物的痕迹,因此我们也应该对我们现在观察到的奖励给予一点信任。

更正式地说,如果您想编写 RL 算法的增量实现(计算时间均匀分布在所有时间步长上),它只是必需的东西,当以更直接/明显/朴素的方式编写时,只能以非增量方式实现,因为它们具有更新规则,需要来自您情节中所有时间步长的信息(例如 lambda-returns/Monte Carlo returns)。这听起来可能相当复杂,但最好坚持直观的解释。

至于它在 C++ 中的外观,是的,几乎是 double vector 。图片中第一行代码之前的“z\in R^d”的意思就是,它是一个 d 维实数 vector ( double 或 float )在 C++ 中),其中 d 是状态- Action 特征向量的维数 (phi)。

您还可以通过它需要添加到其他 d 维 vector ( phitheta) 在伪代码的其他几个地方。只有当 zeta 本身也是一个 d 维 vector 时,这才能在数学上正确计算。

关于c++ - SARSA的Zeta变量(lamda),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49786641/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com