- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试为经典控制任务(例如将室温、电池充电等保持在一定范围内)实现截断的 PPO 算法。到目前为止,我只看到了游戏环境中的实现。我的问题是,在执行 Clipped PPO 算法时,游戏环境和经典控制问题是否不同?如果是的话,我们将不胜感激有关如何为我的案例实现算法的帮助和提示。
最佳答案
我是从一般强化学习的角度回答你的问题,我不认为特定的算法(PPO)对这个问题有任何影响。
我认为没有根本的区别,两者都可以看作是离散控制问题。在游戏中,你观察状态,然后选择一个 Action 并根据它采取行动,并获得奖励和对后续状态的观察。
现在,如果您遇到一个简单的控制问题,您可能会使用一个模拟(或只是一个非常简单的动态模型)来描述问题的行为,而不是游戏。例如,倒立摆的运动方程(另一个经典控制问题)。在某些情况下,您可能会直接与真实系统交互,而不是它的模型,但这种情况很少见,因为它可能非常慢,而且 RL 算法的典型样本复杂性使得在真实(物理)系统上学习不太实用。
本质上,您与问题模型的交互方式与游戏相同:观察一个状态,采取行动并采取行动,然后观察下一个状态。唯一的区别是,虽然在游戏中奖励通常是预先定义的(一些分数或目标状态),但您可能需要为您的问题定义奖励函数。但同样,在许多情况下,您还需要定义游戏的奖励,因此这也不是主要区别。
关于python - 如何针对经典控制问题实现近端策略优化(PPO)算法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55943678/
其实KL散度在这个游戏里的作用不大,游戏的action比较简单,不像LM里的action是一个很大的向量,可以直接用surr1,最大化surr1,实验测试确实是这样,而且KL的系数不能
参考: 李宏毅老师课件 PPO: Default reinforcement learning algorithm at OpenAI PPO = Policy Gradient 从
我正在尝试为经典控制任务(例如将室温、电池充电等保持在一定范围内)实现截断的 PPO 算法。到目前为止,我只看到了游戏环境中的实现。我的问题是,在执行 Clipped PPO 算法时,游戏环境和经典控
我正在研究用神经网络驱动工业机器人,到目前为止它运行良好。我正在使用来自 OpenAI 基线的 PPO 算法,到目前为止,我可以通过使用以下奖励策略轻松地从一个点到另一个点: 我计算目标和位置之间的归
我读了这篇好文章article关于近端策略优化算法,现在我想将我的 VanillaPG 代理更新为 PPO 代理以了解更多信息。但是,我仍然不确定如何在实际代码中实现这一点,特别是因为我使用的是简单的
在信任区域策略优化 (TRPO) 算法中(以及随后在 PPO 中),我不明白从标准策略梯度替换对数概率项背后的动机 使用策略输出概率相对于旧策略输出概率的重要性采样项 有人可以向我解释一下这一步吗?
我正在尝试使用 tensorflow 训练在线近端策略优化模型,但过了一会儿,tensorflow session 开始返回 NaN。这导致我的代理 step 使用这些 nans,最终整个事情变得一团
我有一个关于深度强化学习的更笼统的问题。我总是有点纠结,on-policy 和 off-policy 到底有什么区别。当然可以说,off-policy 是在轨迹采样期间从不同的分布中采样 Action
我有一个关于深度强化学习的更笼统的问题。我总是有点纠结,on-policy 和 off-policy 到底有什么区别。当然可以说,off-policy 是在轨迹采样期间从不同的分布中采样 Action
我目前正在使用由 openai 制作的“spinningup”。在 spinningup 中,实现了 PPO 和其他 RL 算法。但是,只有 DDPG、SAC 和 TD3 具有名为“action_li
我目前正在使用由 openai 制作的“spinningup”。在 spinningup 中,实现了 PPO 和其他 RL 算法。但是,只有 DDPG、SAC 和 TD3 具有名为“action_li
在 PPO 中更新策略时,裁剪部分是否将权重停止在 r(θ) 恰好为 1±epsilon 的精确值处,或者是否允许超过该值,然后通过设置阻止其进一步发展梯度为零?到底哪一个才是真正发生的事情? 最佳答
我正在使用示例代码学习 AzureML RL。 我可以运行用于训练的 cartpole 示例 (cartpole_ci.ipynb) 计算实例上的 PPO 模型。 我通过将 training_algo
我是一名优秀的程序员,十分优秀!