作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试通过 Stable-Baselines3 和 OpenAI Gym 使用 PPO 训练自定义环境。出于某种原因,当我尝试训练 PPO 模型时,未针对此自定义环境报告推出统计信息。
我正在使用的代码如下(为简洁起见,我没有包括 CustomEnv 的代码):
env = CustomEnv(mode = "discrete")
env = Monitor(env, log_dir)
model = PPO("MlpPolicy", env, verbose=1, tensorboard_log = log_dir)
timesteps = 5000
for i in range(3):
model.learn(total_timesteps = timesteps, reset_num_timesteps = False, tb_log_name = "PPO")
model.save(f"{models_dir}/car_model_{timesteps * i}")
下图展示了上述代码的输出(图片右侧),图片左侧展示了我用于调试的虚拟环境的常规输出。
我已经尝试添加这行代码:
env = Monitor(env, log_dir)
但这不会改变输出。
最佳答案
已解决:存在环境未结束的边缘情况,并且 done 变量无限期地保持为 False。
修复此错误后,Rollout 统计数据重新出现。
关于reinforcement-learning - 未使用 Stable-Baselines3 监视 CustomEnv 的转出摘要统计信息,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/71786530/
我想从 Azure 转移 .net 域。我看了教程here和 here但我无法获取授权码,也无法进入该域的高级管理。过去我发现我需要访问该域的高级管理门户,但它呈灰色,并且没有丢失。 我还看到了her
我是一名优秀的程序员,十分优秀!