RL基础|如何使用OpenAIGym接口，搭建自定义RL环境（详细版）-6ren

RL基础|如何使用OpenAIGym接口，搭建自定义RL环境（详细版）

转载作者：撒哈拉更新时间：2024-11-12 00:46:01

66

4

参考:

官方链接：Gym documentation | Make your own custom environment
腾讯云 | OpenAI Gym 中级教程——环境定制与创建
知乎 | 如何在 Gym 中注册自定义环境？
g，写完了才发现自己曾经写过一篇：RL 基础 | 如何搭建自定义 gym 环境

（这篇博客适用于 gym 的接口，gymnasium 接口也差不多，只需详细看看接口定义魔改一下即可）。

安装 openai gym:

# pip install gym
import gym
from gym import spaces

需实现两个主要功能:

env.__init__() 和 obs = env.reset() 函数；
obs, reward, done, info = env.step(action) 函数。

01 env 的初始化与 reset

env.__init__() 函数:

输入是 env 的一些初始化条件，比如环境的地图多大、环境里有多少个金币以及每个金币的位置。如果只训练一个特定的任务，比如在 3×3 地图中吃右上角的一个金币，则这些设置都可以写死，不需要在 env 初始化时传递参数。
在 env.__init__() 函数中，需要定义 self.observation_space 和 self.action_space 。
- 如果状态空间 / 动作空间是离散的，则使用 spaces.Discrete([space dim]) ；
- 如果是连续的，则使用 spaces.Box(low=np.array([0,1]), high=np.array([100,50]), dtype=np.float32) ，其中 low high 都要符合状态空间 / 动作空间的维度，分别代表每一维的最大最小值。
- 连续空间也可以使用 spaces.Box(low=0, high=255, shape=(84, 84), dtype=np.uint8) 这种形式，其中空间的每个维度具有相同的最大最小值，shape 表示空间的维度。
- gym.spaces 的具体使用：官方文档 Gym documentation | Spaces ，知乎 | Gym 中 Spaces 浅入浅出的理解。
可以在 env.__init__() 函数的最后调用一下 env.reset() 函数。

obs = env.reset() 函数:

作用是初始化环境，比如把 agent 放到地图左下角，金币放在地图右上角，内置的计步器 reset 到 0 之类。
它的返回值 obs，应该是一个与状态空间维度相同的 np.ndarray。

02 与环境交互的 step 函数

obs, reward, done, info = env.step(action) 函数:

输入 action，应该是一个与动作空间维度相同的 np.ndarray。（一般的环境应该不支持批量输入 action，即 action.shape = (batch_size, action_dim) ）
step 函数被用在 agent 与 env 的交互；env 接收到输入的动作 action 后，内部进行一些状态转移，输出：
- 新的状态 obs：与状态空间维度相同的 np.ndarray；
- reward：奖励值，实数；
- done：bool 值，True 代表这个 episode 已经跑完（比如 agent 吃到了金币，或 agent 已经走完了 1000 步）（此时该 reset 了），False 则代表这个 episode 还没跑完。
- info：python 的字典（dict），可以传递一些信息，没有信息传递则可以设成 {} 。

03 高级用法

env.__init__(render_mode="human" or "rgb_array") 以及 rgb_frame = env.render() 。render mode = human 好像可以使用 pygame，rgb frame 则是直接输出（比如说）shape = (256, 256, 3) 的 frame，可以用 imageio 保存成视频。
如何注册 gym 环境：RL 基础 | 如何注册自定义 gym 环境

最后此篇关于RL基础|如何使用OpenAIGym接口，搭建自定义RL环境（详细版）的文章就讲到这里了,如果你想了解更多关于RL基础|如何使用OpenAIGym接口，搭建自定义RL环境（详细版）的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

66

4

0

文章推荐： IBM开源的文档转化利器「GitHub热点速览」

文章推荐：使用C#入门深度学习：Pytorch基础

文章推荐：开源-Ideal库-获取特殊时间扩展方法（四）

文章推荐： LVM使用与扩容总结

javascript - 如何暂时用新的 rl.qu/estion 覆盖之前的 rl.qu/estion？
注意:我对“qu/estion”表示歉意，但是 stackoverflow 阻止我在标题中添加“问题”。如何用一个可以解决的新问题临时覆盖之前提出的 rl.question ，并且旧问题可以返回？这
DiffuisionPolicy+RL-------个人博客_ZSY_20241101
Diffusion Policy: Visuomotor Policy Learning via Action Diffusion Cheng Chi, Zhenjia Xu, Siyua
python - Anaconda如何导入keras-rl
对不起，如果这是一个“nooby”问题，但我真的不知道如何解决它。我已经使用 Ananconda 安装了 keras 和许多其他用于深度学习的东西，但现在我想尝试用强化学习来做一些事情。所以我读到我需
数据中心冷却的safe-RL，基于对action的事后修正技术
目录一个总述摘要 1 intro 2 related work 3 preliminaries
artificial-intelligence - RL 代理的严重损失
当我为各种问题实现代理时......我发现我的 Actor 损失正在按预期减少。但是我的 critic loss 一直在增加，尽管学到的策略非常多。这发生在 DDPG 、 PPO 等。关于我的评论家
dll - 用于商业应用的 MS-RL
关闭。这个问题是off-topic .它目前不接受答案。想改善这个问题吗？ Update the question所以它是 on-topic对于堆栈溢出。 8年前关闭。 Improve this q
tensorflow - 神经网络框架和 RL 算法库有什么区别？
我知道这是个愚蠢的问题，但我找不到合适的表达方式。我曾使用过 TensorFlow 和 TFAgents，现在正转向 Ray RLlib。查看所有 RL 框架/库，我对以下两者之间的区别感到困惑:
reinforcement-learning - 我们如何为 RL 算法设计奖励以激励组指标？
我正在设计一个强化学习代理来引导道路有限区域内的个别汽车。该政策决定了汽车应该走哪条路线。每辆车都可以看到其 10 英里范围内的车辆、它们的速度以及整个边界区域的道路图。基于 RL 的代理的策略必须
OWL2 RL 通过 RETE 算法
我目前正在尝试通过 Rete 算法实现 OWL2 RL。我遇到了以下问题:How to implement lists needed for example in this rule: eq-diff
or-tools - OR-TOOLS RL VRPTW 问题中的移位长度约束？
我正在尝试在 OR-TOOLS RL VRPTW 问题中强制执行位移长度约束。类次时长是车辆在服务中的总时间(运输 + 等待 + 服务)，从到达第一个位置到离开最后一个位置。它看起来像一个 Time
open-source - Ms-RL - 需要解释
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎与 help center 中定义的范围内的编程无关。 . 关闭 7 年前。 Improve
or-tools - OR-TOOLS RL VRPTW 问题中的移位长度约束？
我正在尝试在 OR-TOOLS RL VRPTW 问题中强制执行位移长度约束。类次时长是车辆在服务中的总时间(运输 + 等待 + 服务)，从到达第一个位置到离开最后一个位置。它看起来像一个 Time
keras - 为什么 keras-rl 示例总是在输出层选择线性激活？
我是强化学习的新手。我有一个关于 keras-rl 代理的输出层激活函数选择的问题。在 keras-rl ( https://github.com/matthiasplappert/keras-rl/
javascript - Node js rl 重复上次提示
这看起来应该很容易做到，但我在文档中找不到任何内容。我有一系列问题想问，其中一个我想重新问，直到我得到有效答案。像这样: rl.question('Author: ', function(answe
rl-rtx 中网页的 c 代码
我们必须在我们的项目中使用 RL-RTX (RTOS)。我们必须制作一些网页。我们有使用“go-ahead webserver”在 Linux 中构建网页的经验。我们可以用 C 语言编码并将可执行文
javascript - readline rl.write 如何工作？
我正在尝试解析一个文件，并将“foobar”的行替换为“bazbar”的行。它只是返回一个空文件。我不知道我做错了什么，文档也不是特别有用。 var readline = require('readl
machine-learning - 蒙特卡罗 RL - 为什么估计单个状态值的计算费用与状态数量无关？
在 Sutton's book on RL ，在蒙特卡罗政策评估下，他在第 111 页提到注意估计单个状态值的计算费用与状态数量无关。然而，对于蒙特卡洛来说: 状态的平均返回是从第一次遇到该状态时到该
machine-learning - 带有负奖励的 RL 激活函数
我对具有正向和负向奖励的环境中的适当激活函数有疑问。在强化学习中，我相信我们的输出应该是所有可能行动的预期奖励。由于某些选项具有负奖励，因此我们希望输出范围包含负数。这让我相信唯一合适的激活函数要
machine-learning - 在 RL 中理解近端策略优化算法的方法是什么？
我知道强化学习的基础知识，但是需要了解哪些术语才能读取 arxiv PPO paper ？学习和使用 PPO 的路线图是什么？最佳答案为了更好地理解 PPO，看一下论文的主要贡献是有帮助的，它们
open-source - Microsoft 互惠许可证 (Ms-RL)
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 6年前关闭。 Improve thi

首页

博学

6Ren·AI

商城

RL基础|如何使用OpenAIGym接口，搭建自定义RL环境（详细版）

01 env 的初始化与 reset

02 与环境交互的 step 函数

03 高级用法