gpt4 book ai didi

machine-learning - OpenAI Gym 环境 'CartPole-v0' 和 'CartPole-v1' 之间的差异

转载 作者:行者123 更新时间:2023-11-30 08:28:01 26 4
gpt4 key购买 nike

我找不到 OpenAI Gym 环境“CartPole-v0”和“CartPole-v1”之间差异的准确描述。

这两种环境都有专门针对它们的单独的官方网站(请参阅 12 ),尽管我只能在gym github存储库中找到一个没有版本标识的代码(请参阅 3 )。我还检查了通过调试器加载的确切文件,尽管它们似乎都加载相同的上述文件。唯一的区别似乎在于它们内部分配的 max_episode_stepsreward_threshold,可以如下所示进行访问。 CartPole-v0 的值为 200/195.0,CartPole-v1 的值为 500/475.0。乍一看,其余部分似乎相同。

import gym

env = gym.make("CartPole-v1")
print(self.env.spec.max_episode_steps)
print(self.env.spec.reward_threshold)

因此,如果有人能为我描述确切的差异或将我转发到这样做的网站,我将不胜感激。非常感谢!

最佳答案

您可能已经注意到,在 OpenAI Gym 中有时同一环境有不同版本。不同版本通常共享主要环境逻辑,但某些参数配置有不同的值。这些版本是使用名为 the registry 的功能进行管理的。 .

如果是CartPole环境,可以在 this source code 中找到两个注册版本。从第50行到第65行可以看到,存在两个CartPole版本,分别标记为v0和v1,其区别在于参数max_episode_stepsreward_threshold:

register(
id='CartPole-v0',
entry_point='gym.envs.classic_control:CartPoleEnv',
max_episode_steps=200,
reward_threshold=195.0,
)

register(
id='CartPole-v1',
entry_point='gym.envs.classic_control:CartPoleEnv',
max_episode_steps=500,
reward_threshold=475.0,
)

这两个参数都证实了您对 CartPole-v0 和 CartPole-v1 之间差异的猜测。

关于machine-learning - OpenAI Gym 环境 'CartPole-v0' 和 'CartPole-v1' 之间的差异,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56904270/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com