gpt4 book ai didi

reinforcement-learning - openai spinup 中的 RL PPO Action 空间裁剪

转载 作者:行者123 更新时间:2023-12-02 22:45:23 28 4
gpt4 key购买 nike

我目前正在使用由 openai 制作的“spinningup”。在 spinningup 中,实现了 PPO 和其他 RL 算法。但是,只有 DDPG、SAC 和 TD3 具有名为“action_limit”的变量。

我现在正在使用 PPO,我还需要剪辑(给出下限和上限) Action ,因为我的机器人只在 [0, 200.0] 范围内工作。是因为 PPO 算法不需要与 DDPG、SAC、TD3 不同的 action_limit 吗?或者他们没有对 PPO 设置 action_limit 是 spinningup 的错误吗?

或者是否有其他聪明的方法可以在此处进行一些限制?

最佳答案

我还认为当您使用“spaces.Box”创建环境时应该考虑它,但是在运行策略时它也会获得比我输入的框更高的值。

如果您查看 Continuous_MountainCarEnv ,它在 self.step() 中使用以下代码来使用操作(第 74 行):

force = min(max(action[0], self.min_action), self.max_action)

因此,它限制了步骤中的力输入,尽管它已经创建了具有相同限制的 action_space(第 51 行):

self.action_space = spaces.Box(
low=self.min_action,
high=self.max_action,
shape=(1,),
dtype=np.float32

因此,在创建 action_space 和使用操作本身时考虑限制可能很有用。如果您不使用此限制,经过训练的策略可能会导致高于您的限制的操作,尽管它们可能接近该限制。

干杯!

关于reinforcement-learning - openai spinup 中的 RL PPO Action 空间裁剪,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67070862/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com