gpt4 book ai didi

machine-learning - 不同 epsilon 值对 Q-learning 和 SARSA 的影响

转载 作者:行者123 更新时间:2023-11-30 09:01:23 25 4
gpt4 key购买 nike

由于我是这个领域的初学者,所以我对不同的 epsilon 值将如何影响 SARSA 和 Qlearning 与用于 Action 选择的 epsilon 贪婪算法之间的影响表示怀疑。

据我了解,当 epsilon 等于 0 时,总是根据从 Q 派生的策略来选择操作。因此,Q-learning 首先更新 Q,然后根据更新的 Q 选择下一个操作。另一方面,SARSA 选择下一步行动并更新 Q 后。

当 ε 等于 1 时怎么样? ε从0增加到1?

谢谢!

最佳答案

ε-贪婪策略选择概率为 ε 的随机操作或概率为 1-ε 的最已知操作。当 ε=1 时,它总是选择随机 Action 。这个值在探索和利用之间进行权衡:你想利用你拥有的知识,但你也想寻找更好的替代方案。

关于machine-learning - 不同 epsilon 值对 Q-learning 和 SARSA 的影响,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33748565/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com