gpt4 book ai didi

python - 如何针对经典控制问题实现近端策略优化(PPO)算法?

转载 作者:行者123 更新时间:2023-12-01 00:59:15 27 4
gpt4 key购买 nike

我正在尝试为经典控制任务(例如将室温、电池充电等保持在一定范围内)实现截断的 PPO 算法。到目前为止,我只看到了游戏环境中的实现。我的问题是,在执行 Clipped PPO 算法时,游戏环境和经典控制问题是否不同?如果是的话,我们将不胜感激有关如何为我的案例实现算法的帮助和提示。

最佳答案

我是从一般强化学习的角度回答你的问题,我不认为特定的算法(PPO)对这个问题有任何影响。

我认为没有根本的区别,两者都可以看作是离散控制问题。在游戏中,你观察状态,然后选择一个 Action 并根据它采取行动,并获得奖励和对后续状态的观察。

现在,如果您遇到一个简单的控制问题,您可能会使用一个模拟(或只是一个非常简单的动态模型)来描述问题的行为,而不是游戏。例如,倒立摆的运动方程(另一个经典控制问题)。在某些情况下,您可能会直接与真实系统交互,而不是它的模型,但这种情况很少见,因为它可能非常慢,而且 RL 算法的典型样本复杂性使得在真实(物理)系统上学习不太实用。

本质上,您与问题模型的交互方式与游戏相同:观察一个状态,采取行动并采取行动,然后观察下一个状态。唯一的区别是,虽然在游戏中奖励通常是预先定义的(一些分数或目标状态),但您可能需要为您的问题定义奖励函数。但同样,在许多情况下,您还需要定义游戏的奖励,因此这也不是主要区别。

关于python - 如何针对经典控制问题实现近端策略优化(PPO)算法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55943678/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com