gpt4 book ai didi

reinforcement-learning - Q-Learning 收敛到最优策略

转载 作者:行者123 更新时间:2023-12-01 12:42:25 28 4
gpt4 key购买 nike

我正在使用基于 rlglue 的 python-rl q 学习框架。
我的理解是,随着情节的发展,算法会收敛到一个最优策略(这是一个映射,说明在什么状态下采取什么行动)。

问题 1:这是否意味着经过若干集(比如 1000 集或更多)后,我应该基本上得到相同的状态: Action 映射?

当我绘制奖励(或平均超过 100 集的奖励)时,我会在 this link 中得到类似于图 6.13 的图表。 .

问题 2:如果算法已经收敛到某个策略,为什么奖励会下降?奖励是否有可能发生巨大变化?

问题 3:是否有一些标准方法可以用来比较各种 RL 算法的结果?

最佳答案

Q1:它将收敛到单个映射,除非多个映射是最优的。

Q2:Q-Learning 有一个探索参数,它决定了随机的、潜在的次优移动的频率。只要此参数不为零,奖励就会波动。

Q3:奖励图表,如您提供的链接所示。查询 http://rl-community.org .

关于reinforcement-learning - Q-Learning 收敛到最优策略,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23078806/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com