gpt4 book ai didi

reinforcement-learning - 控制变量的离策略形式,来自 RL Barto Sutton

转载 作者:行者123 更新时间:2023-12-05 07:20:15 24 4
gpt4 key购买 nike

<分区>

Reinforcement Learning book by Sutton & Barto, version 2018 ,作者提供了一个带有控制变量的离策略形式的公式(方程式 7.14,第 151 页): enter image description here

如何理解这个等式?我可以理解,如果我们在政策上, Gamma 部分中的后两项会抵消。但是任何人为什么我们必须将 rho 与 G_{t+1:h} 相乘?这个公式有什么意义?

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com