- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我目前正在使用由 openai 制作的“spinningup”。在 spinningup 中,实现了 PPO 和其他 RL 算法。但是,只有 DDPG、SAC 和 TD3 具有名为“action_limit”的变量。
我现在正在使用 PPO,我还需要剪辑(给出下限和上限) Action ,因为我的机器人只在 [0, 200.0] 范围内工作。是因为 PPO 算法不需要与 DDPG、SAC、TD3 不同的 action_limit 吗?或者他们没有对 PPO 设置 action_limit 是 spinningup 的错误吗?
或者是否有其他聪明的方法可以在此处进行一些限制?
最佳答案
我还认为当您使用“spaces.Box”创建环境时应该考虑它,但是在运行策略时它也会获得比我输入的框更高的值。
如果您查看 Continuous_MountainCarEnv ,它在 self.step() 中使用以下代码来使用操作(第 74 行):
force = min(max(action[0], self.min_action), self.max_action)
因此,它限制了步骤中的力输入,尽管它已经创建了具有相同限制的 action_space(第 51 行):
self.action_space = spaces.Box(
low=self.min_action,
high=self.max_action,
shape=(1,),
dtype=np.float32
因此,在创建 action_space 和使用操作本身时考虑限制可能很有用。如果您不使用此限制,经过训练的策略可能会导致高于您的限制的操作,尽管它们可能接近该限制。
干杯!
关于reinforcement-learning - openai spinup 中的 RL PPO Action 空间裁剪,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67070862/
其实KL散度在这个游戏里的作用不大,游戏的action比较简单,不像LM里的action是一个很大的向量,可以直接用surr1,最大化surr1,实验测试确实是这样,而且KL的系数不能
参考: 李宏毅老师课件 PPO: Default reinforcement learning algorithm at OpenAI PPO = Policy Gradient 从
我正在尝试为经典控制任务(例如将室温、电池充电等保持在一定范围内)实现截断的 PPO 算法。到目前为止,我只看到了游戏环境中的实现。我的问题是,在执行 Clipped PPO 算法时,游戏环境和经典控
我正在研究用神经网络驱动工业机器人,到目前为止它运行良好。我正在使用来自 OpenAI 基线的 PPO 算法,到目前为止,我可以通过使用以下奖励策略轻松地从一个点到另一个点: 我计算目标和位置之间的归
我读了这篇好文章article关于近端策略优化算法,现在我想将我的 VanillaPG 代理更新为 PPO 代理以了解更多信息。但是,我仍然不确定如何在实际代码中实现这一点,特别是因为我使用的是简单的
在信任区域策略优化 (TRPO) 算法中(以及随后在 PPO 中),我不明白从标准策略梯度替换对数概率项背后的动机 使用策略输出概率相对于旧策略输出概率的重要性采样项 有人可以向我解释一下这一步吗?
我正在尝试使用 tensorflow 训练在线近端策略优化模型,但过了一会儿,tensorflow session 开始返回 NaN。这导致我的代理 step 使用这些 nans,最终整个事情变得一团
我有一个关于深度强化学习的更笼统的问题。我总是有点纠结,on-policy 和 off-policy 到底有什么区别。当然可以说,off-policy 是在轨迹采样期间从不同的分布中采样 Action
我有一个关于深度强化学习的更笼统的问题。我总是有点纠结,on-policy 和 off-policy 到底有什么区别。当然可以说,off-policy 是在轨迹采样期间从不同的分布中采样 Action
我目前正在使用由 openai 制作的“spinningup”。在 spinningup 中,实现了 PPO 和其他 RL 算法。但是,只有 DDPG、SAC 和 TD3 具有名为“action_li
我目前正在使用由 openai 制作的“spinningup”。在 spinningup 中,实现了 PPO 和其他 RL 算法。但是,只有 DDPG、SAC 和 TD3 具有名为“action_li
在 PPO 中更新策略时,裁剪部分是否将权重停止在 r(θ) 恰好为 1±epsilon 的精确值处,或者是否允许超过该值,然后通过设置阻止其进一步发展梯度为零?到底哪一个才是真正发生的事情? 最佳答
我正在使用示例代码学习 AzureML RL。 我可以运行用于训练的 cartpole 示例 (cartpole_ci.ipynb) 计算实例上的 PPO 模型。 我通过将 training_algo
我是一名优秀的程序员,十分优秀!