gpt4 book ai didi

reinforcement-learning - 为什么 Stable-Baselines3 evaluate_policy() 函数永远不会完成/完成?

转载 作者:行者123 更新时间:2023-12-02 22:45:17 37 4
gpt4 key购买 nike

我使用 OpenAI Gym 和 Stable-Baselines3 创建了自己的自定义环境。训练完代理后,我尝试使用 stable_baselines3.common.evaluation 中的 evaluate_policy() 函数评估策略。但是,脚本会无限期地运行并且永远不会结束。

因为它永远不会结束,我一直在尝试在我的 CustomEnv() 环境中调试“完成”变量,以确保环境总是以某种方式结束。除此之外,我完全不知所措。

我正在使用的代码如下(为简洁起见,它不包括环境代码):

env = CustomEnv()
env = Monitor(env, log_dir)
model = PPO("MlpPolicy", env, verbose=1, tensorboard_log = log_dir)

timesteps = 5000
for i in range(3):
model.learn(total_timesteps = timesteps, reset_num_timesteps = False, tb_log_name = "PPO")
model.save(f"{models_dir}/car_model_{timesteps * i}")

mean_reward, std_reward = evaluate_policy(model, env, n_eval_episodes=1)

关于如何调试它的任何建议或建议都会很棒。

最佳答案

几天前我遇到了类似的问题。从我的情况来看,我的“评估助手”从不停止的原因是:我的自定义环境没有每集的时间步长限制。因此我的评估函数一直在运行(因为我的策略很好,代理没有失败)。

关于reinforcement-learning - 为什么 Stable-Baselines3 evaluate_policy() 函数永远不会完成/完成?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/71779861/

37 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com