gpt4 book ai didi

reinforcement-learning - 如何理解 Sutton&Barto 的 RL 书中 Watkins 的 Q(λ) 学习算法?

转载 作者:行者123 更新时间:2023-12-04 18:29:34 24 4
gpt4 key购买 nike

在 Sutton&Barto 的 RL 书 (link) 中,Watkins 的 Q(λ) 学习算法如图 7.14 所示:
enter image description here
第 10 行“对于所有的 s,a:”,这里的“s,a”是针对所有的 (s,a),而第 8 行和第 9 行的 (s,a) 是针对当前的 (s,a) , 这是正确的吗?

在第12行和第13行,当a'!=a*时,执行第13行,所以所有的e(s,a)都会被设置为0,那么当所有的资格迹都设置为0时,资格迹有什么意义,因为情况 a'!=a* 会经常发生。即使情况 a'!=a* 不经常发生,但一旦发生,资格轨迹的意义将完全丧失,那么 Q 将不会再次更新,因为所有的 e(s,a)= 0,那么在每次更新中,如果使用替换轨迹,e(s,a) 仍然为 0。

那么,这是一个错误吗?

最佳答案

资格痕迹的想法是仅对符合条件的状态- Action 对给予信任或指责。 Sutton & Barto 的书很好地说明了这个想法:
Backward view of eligibility traces

在 Watkin 的 Q(λ) 算法中,如果您以一种确定性的方式(始终选择最佳行动)遵循您的策略 Q,您希望将功劳归咎于您实际访问过的状态- Action 对。

所以你的问题的答案在第 5 行:
Choose a' from s' using policy derived from Q (e.g. epsilon-greedy)
因为 a' 被选择为 epsilon greedy,所以您有很小的机会(概率为 epsilon)采取探索性随机步骤而不是贪婪步骤。在这种情况下,整个资格跟踪设置为零,因为将功劳归咎于之前访问过的状态- Action 对是没有意义的。您在随机探索步骤之前访问的状态- Action 对不应该为 future 的奖励提供信用/责备,因此您删除了整个资格跟踪。在之后的时间步长中,您开始建立新的资格跟踪...

希望有所帮助。

关于reinforcement-learning - 如何理解 Sutton&Barto 的 RL 书中 Watkins 的 Q(λ) 学习算法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40862578/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com