作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
是否有任何简单的方法可以将 PPO 的属性与 A3C 方法合并? A3C 方法运行多个并行角色并优化参数。我正在尝试将 PPO 与 A3C 合并。
最佳答案
PPO 有一个内置机制(代理剪切目标函数)来防止大梯度更新,并且在大多数连续控制环境中通常优于 A3C。
为了让 PPO 像 A3C 一样享受并行计算的好处,分布式 PPO(DPPO) 是必经之路。
查看以下链接以了解有关 DPPO 的更多信息。
Pseudo code from the original DeepMind paper
Original DeepMind paper: Emergence of Locomotion Behaviours in Rich Environments
如果您打算使用 Tensorflow 在 Python 中实现 DPPO 代码,我建议您尝试 Ray对于分布式执行部分。
关于reinforcement-learning - A3C和PPO在强化学习策略梯度方法上有什么相似之处?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51510460/
我是一名优秀的程序员,十分优秀!