gpt4 book ai didi

reinforcement-learning - 深度强化学习中的有效奖励范围

转载 作者:行者123 更新时间:2023-12-05 04:05:02 26 4
gpt4 key购买 nike

在DQN、Actor-Critic或A3C中选择奖励值时,是否有选择奖励值的通用规则?

正如我简单听到的那样,(-1 ~ +1) 奖励是一种非常有效的选择。

你能告诉我什么建议和原因吗??

最佳答案

理想情况下,您希望标准化您的奖励(即 0 均值和单位方差)。在您的示例中,奖励介于 -1 到 1 之间,满足此条件。我相信原因是因为它在更新你的神经网络参数时加速了梯度下降,而且它还允许你的 RL 代理更有效地区分好的和坏的 Action 。

举个例子:假设我们正在尝试构建一个智能体来过马路,如果它过马路,它会获得 1 的奖励。如果它被车撞了,它会获得 -1 的奖励,并且每一步的奖励为 0。就百分比而言,成功的奖励远远高于失败的奖励(被车撞)。

但是,如果我们给智能体成功过马路奖励 1,000,000,001,并给它被车撞了 999,999,999 的奖励(这种情况和上面的标准化时相同),成功不再是和以前一样发音。此外,如果你对如此高的奖励进行折扣,这将使这两种情况的区别更加难以识别。

这在 DQN 和其他函数逼近方法中尤其是一个问题,因为这些方法概括了状态、 Action 和奖励空间。所以 -1 和 1 的奖励有很大的不同,但是,如果我们使用一个函数来概括它,那么 1,000,000,001 和 999,999,999 的奖励基本上是相同的。

关于reinforcement-learning - 深度强化学习中的有效奖励范围,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51814505/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com