作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我使用 OpenAI Gym 和 Stable-Baselines3 创建了自己的自定义环境。训练完代理后,我尝试使用 stable_baselines3.common.evaluation 中的 evaluate_policy() 函数评估策略。但是,脚本会无限期地运行并且永远不会结束。
因为它永远不会结束,我一直在尝试在我的 CustomEnv() 环境中调试“完成”变量,以确保环境总是以某种方式结束。除此之外,我完全不知所措。
我正在使用的代码如下(为简洁起见,它不包括环境代码):
env = CustomEnv()
env = Monitor(env, log_dir)
model = PPO("MlpPolicy", env, verbose=1, tensorboard_log = log_dir)
timesteps = 5000
for i in range(3):
model.learn(total_timesteps = timesteps, reset_num_timesteps = False, tb_log_name = "PPO")
model.save(f"{models_dir}/car_model_{timesteps * i}")
mean_reward, std_reward = evaluate_policy(model, env, n_eval_episodes=1)
关于如何调试它的任何建议或建议都会很棒。
最佳答案
几天前我遇到了类似的问题。从我的情况来看,我的“评估助手”从不停止的原因是:我的自定义环境没有每集的时间步长限制。因此我的评估函数一直在运行(因为我的策略很好,代理没有失败)。
关于reinforcement-learning - 为什么 Stable-Baselines3 evaluate_policy() 函数永远不会完成/完成?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/71779861/
我使用 OpenAI Gym 和 Stable-Baselines3 创建了自己的自定义环境。训练完代理后,我尝试使用 stable_baselines3.common.evaluation 中的 e
我是一名优秀的程序员,十分优秀!