gpt4 book ai didi

machine-learning - 强化学习中折扣因子 γ (gamma) 的完整含义是什么?

转载 作者:行者123 更新时间:2023-11-30 08:53:11 36 4
gpt4 key购买 nike

我对机器学习概念相对较新,并且我一直在关注一些涉及 Q-Learning 的讲座/教程,例如:Stanford's Lecture on Reinforcement Learning

他们都对政策函数中 Gamma 的效用到底是什么给出了简短或模糊的答案。迄今为止我发现的最容易理解的解释是“我们多么重视 future 的返回。”

真的有这么简单吗? Gamma 是否定义了我们如何延迟奖励/展望 future ?比如下面的例子中知道采取B选项:

如果有两个选项,A 和 B,A 将立即支付 10,然后再支付 10,而 B 将立即支付 0,然后再支付 30。

所以,我的问题:

  1. Gamma 的深入解释是什么?
  2. 我们如何设置它?
  3. 如果不展望 future ,我们如何展望 future ?

最佳答案

gamma 参数确实用于说明您如何评估 future 的奖励。更详细地说,您的折扣奖励(用于培训)如下所示:

Discounted reward:

这意味着指数函数决定如何考虑 future 的奖励。作为示例,让我们比较 2 个 Gamma 值:

gamma = 0.9

gamma = 0.99

让我们看看 gamma**steps 何时达到 0.5。在 gamma = 0.9 的情况下,这是 6 个步骤。当 gamma = 0.99 时,它更像是 60 步左右。这意味着,对于 gamma = 0.9,6 步中的奖励是直接奖励的一半,但对于 gamma = 0.99,这对于 60 步同样有效。因此,当 gamma = 0.99 时,下降幅度要小得多,并且 future 的奖励比 gamma = 0.9 时的值(value)更高。要设置应用程序所需的 Gamma 参数,重要的是要对您的环境中需要多少步骤才能获得奖励有某种感觉。

回到你的选项 A 和 B。A 应该具有较低的 gamma 值,因为即时奖励非常重要。选项 B 应该具有更高的 gamma 值,因为奖励是在未来。

关于machine-learning - 强化学习中折扣因子 γ (gamma) 的完整含义是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54334315/

36 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com