gpt4 book ai didi

reinforcement-learning - CartPole-v0 的得分恰好为 200

转载 作者:行者123 更新时间:2023-12-03 16:24:43 25 4
gpt4 key购买 nike

关闭。这个问题需要debugging details .它目前不接受答案。












想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。

3年前关闭。




Improve this question




我正在研究 openai 健身房提供的 CartPole-v0。我注意到我的程序从来没有超过 200。在某些时候它停留在 200 并且不会更多。我想知道 openai 健身房是否有我可能遗漏的任何配置。有没有人发现这个问题?

最佳答案

CartPole-v0给予 1.0 的奖励对于每一步,您的代理都“活着”。

使用以下代码行注册环境:

register(
id='CartPole-v0',
entry_point='gym.envs.classic_control:CartPoleEnv',
max_episode_steps=200,
reward_threshold=195.0,
)

在当前版本的存储库中,可以找到 here .

那个 max_episode_steps=200意味着剧集在 200 之后自动终止脚步。所以,你能得到的最高分是 200 .

关于reinforcement-learning - CartPole-v0 的得分恰好为 200,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50675555/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com