python - 如何针对经典控制问题实现近端策略优化(PPO)算法？-6ren

python - 如何针对经典控制问题实现近端策略优化(PPO)算法？

转载作者：行者123 更新时间：2023-12-01 00:59:15

27

4

我正在尝试为经典控制任务(例如将室温、电池充电等保持在一定范围内)实现截断的 PPO 算法。到目前为止，我只看到了游戏环境中的实现。我的问题是，在执行 Clipped PPO 算法时，游戏环境和经典控制问题是否不同？如果是的话，我们将不胜感激有关如何为我的案例实现算法的帮助和提示。

最佳答案

我是从一般强化学习的角度回答你的问题，我不认为特定的算法(PPO)对这个问题有任何影响。

我认为没有根本的区别，两者都可以看作是离散控制问题。在游戏中，你观察状态，然后选择一个 Action 并根据它采取行动，并获得奖励和对后续状态的观察。

现在，如果您遇到一个简单的控制问题，您可能会使用一个模拟(或只是一个非常简单的动态模型)来描述问题的行为，而不是游戏。例如，倒立摆的运动方程(另一个经典控制问题)。在某些情况下，您可能会直接与真实系统交互，而不是它的模型，但这种情况很少见，因为它可能非常慢，而且 RL 算法的典型样本复杂性使得在真实(物理)系统上学习不太实用。

本质上，您与问题模型的交互方式与游戏相同:观察一个状态，采取行动并采取行动，然后观察下一个状态。唯一的区别是，虽然在游戏中奖励通常是预先定义的(一些分数或目标状态)，但您可能需要为您的问题定义奖励函数。但同样，在许多情况下，您还需要定义游戏的奖励，因此这也不是主要区别。

关于python - 如何针对经典控制问题实现近端策略优化(PPO)算法？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55943678/

27

4

0

文章推荐： jquery - 在哪里可以下载 jQuery 计时器？

文章推荐： python - 如何在 Python 3 中从反斜杠符号中拆分反斜杠

文章推荐： javascript - 如何使用函数动态设置 img src

PPO-KL散度近端策略优化玩cartpole游戏
其实KL散度在这个游戏里的作用不大，游戏的action比较简单，不像LM里的action是一个很大的向量，可以直接用surr1，最大化surr1，实验测试确实是这样，而且KL的系数不能
强化学习ProximalPolicyOptimization(PPO)
参考: 李宏毅老师课件 PPO: Default reinforcement learning algorithm at OpenAI PPO = Policy Gradient 从
python - 如何针对经典控制问题实现近端策略优化(PPO)算法？
我正在尝试为经典控制任务(例如将室温、电池充电等保持在一定范围内)实现截断的 PPO 算法。到目前为止，我只看到了游戏环境中的实现。我的问题是，在执行 Clipped PPO 算法时，游戏环境和经典控
neural-network - 强化学习。使用 PPO 绕过物体行驶
我正在研究用神经网络驱动工业机器人，到目前为止它运行良好。我正在使用来自 OpenAI 基线的 PPO 算法，到目前为止，我可以通过使用以下奖励策略轻松地从一个点到另一个点: 我计算目标和位置之间的归
python - 在 TensorFlow 中实现简单的 PPO 代理
我读了这篇好文章article关于近端策略优化算法，现在我想将我的 VanillaPG 代理更新为 PPO 代理以了解更多信息。但是，我仍然不确定如何在实际代码中实现这一点，特别是因为我使用的是简单的
machine-learning - 损失函数中的 TRPO/PPO 重要性采样项
在信任区域策略优化 (TRPO) 算法中(以及随后在 PPO 中)，我不明白从标准策略梯度替换对数概率项背后的动机使用策略输出概率相对于旧策略输出概率的重要性采样项有人可以向我解释一下这一步吗？
python - 在线 PPO : TensorFlow Session returns NaN
我正在尝试使用 tensorflow 训练在线近端策略优化模型，但过了一会儿，tensorflow session 开始返回 NaN。这导致我的代理 step 使用这些 nans，最终整个事情变得一团
reinforcement-learning - 为什么 DDPG/TD3 受益于旧数据而 PPO 却没有
我有一个关于深度强化学习的更笼统的问题。我总是有点纠结，on-policy 和 off-policy 到底有什么区别。当然可以说，off-policy 是在轨迹采样期间从不同的分布中采样 Action
reinforcement-learning - 为什么 DDPG/TD3 受益于旧数据而 PPO 却没有
我有一个关于深度强化学习的更笼统的问题。我总是有点纠结，on-policy 和 off-policy 到底有什么区别。当然可以说，off-policy 是在轨迹采样期间从不同的分布中采样 Action
reinforcement-learning - openai spinup 中的 RL PPO Action 空间裁剪
我目前正在使用由 openai 制作的“spinningup”。在 spinningup 中，实现了 PPO 和其他 RL 算法。但是，只有 DDPG、SAC 和 TD3 具有名为“action_li
reinforcement-learning - openai spinup 中的 RL PPO Action 空间裁剪
我目前正在使用由 openai 制作的“spinningup”。在 spinningup 中，实现了 PPO 和其他 RL 算法。但是，只有 DDPG、SAC 和 TD3 具有名为“action_li
algorithm - PPO 的梯度裁剪真的可以防止 r(θ) 超过 1±epsilon 吗？
在 PPO 中更新策略时，裁剪部分是否将权重停止在 r(θ) 恰好为 1±epsilon 的精确值处，或者是否允许超过该值，然后通过设置阻止其进一步发展梯度为零？到底哪一个才是真正发生的事情？最佳答
azure-machine-learning-service - 可以在 Cartpole 示例中使用 SAC 代替 PPO 吗？
我正在使用示例代码学习 AzureML RL。我可以运行用于训练的 cartpole 示例 (cartpole_ci.ipynb) 计算实例上的 PPO 模型。我通过将 training_algo

首页

博学

6Ren·AI

商城

python - 如何针对经典控制问题实现近端策略优化(PPO)算法？