gpt4 book ai didi

machine-learning - epsilon 贪婪 q 学习中的 epsilon 和学习率衰减

转载 作者:行者123 更新时间:2023-11-30 08:30:25 26 4
gpt4 key购买 nike

据我所知,epsilon 标志着探索和利用之间的权衡。一开始,你希望 epsilon 较高,这样你才能取得大的进步并学到东西。当您了解 future 的奖励时,epsilon 应该衰减,以便您可以利用您发现的更高的 Q 值。

但是,在随机环境中,我们的学习率是否也会随着时间而衰减?我见过的 SO 上的帖子只讨论了 epsilon 衰变。

我们如何设置 epsilon 和 alpha 以使值收敛?

最佳答案

At the beginning, you want epsilon to be high so that you take big leaps and learn things

我认为你弄错了 epsilon 和学习率。这个定义其实和学习率有关。

学习率衰减

学习率是指您在寻找最佳策略方面的飞跃程度。就简单的 QLearning 而言,它是每一步更新 Q 值的程度。

enter image description here

较高的 alpha 意味着您正在大步更新 Q 值。当代理学习时,您应该衰减它以稳定模型输出,最终收敛到最佳策略。

厄普西隆衰变

当我们根据已有的 Q 值选择特定操作时,会使用 Epsilon。举个例子,如果我们选择纯贪婪方法( epsilon = 0 ),那么我们总是在特定状态的所有 q 值中选择最高的 q 值。这会导致探索中出现问题,因为我们很容易陷入局部最优。

因此,我们使用 epsilon 引入随机性。例如,如果 epsilon = 0.3,那么无论实际 q 值如何,我们都会以 0.3 的概率选择随机操作。

查找有关 epsilon 贪婪策略的更多详细信息 here .

总之,学习率与你的跳跃幅度有关,而 epsilon 与你采取行动的随机程度有关。随着学习的进行,两者都应该衰减以稳定并利用学习到的策略,从而收敛到最佳策略。

关于machine-learning - epsilon 贪婪 q 学习中的 epsilon 和学习率衰减,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53198503/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com