gpt4 book ai didi

machine-learning - 最优 epsilon(ε-贪婪)值

转载 作者:行者123 更新时间:2023-11-30 08:22:03 28 4
gpt4 key购买 nike

ϵ-贪婪策略

我知道 Q-learning 算法应该尝试在探索利用之间取得平衡。由于我是该领域的初学者,因此我想实现一个简单版本的探索/利用行为。

最佳 epsilon 值

我的实现使用 ϵ 贪婪策略,但在决定 epsilon 值时我不知所措。 epsilon 应该受算法访问给定(状态、 Action )对的次数限制,还是应该受执行的迭代次数限制?

我的建议:
  1. 每次遇到给定(状态、操作)对时降低 epsilon 值。
  2. 执行完整迭代后降低 epsilon 值。
  3. 每次遇到状态 s 时降低 epsilon 值。

非常感谢!

最佳答案

虽然在许多简单情况下 εk 保持为 0 和 1 范围内的固定数字,但您应该知道:通常,探索会随着时间的推移而减少,因此所使用的策略渐近变得贪婪,因此(如 Qk → Q*)最优。这可以通过随着 k 的增长使 εk 接近 0 来实现。例如,当 k → ∞ 时,εk = 1/k 形式的 ε -贪婪探索计划减少到 0,同时仍然满足 Q 学习的第二个收敛条件,即同时允许无限多次访问所有状态 Action 对(Singh 等,2000)。

我通常做的是这样的:设置初始 alpha = 1/k(考虑初始 k = 1 或 2)当你进行一次又一次的试验后,随着 k 的增加,alpha 将会减少。它还保证了收敛性。

关于machine-learning - 最优 epsilon(ε-贪婪)值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22805872/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com