gpt4 book ai didi

python - 连续状态和 Action 空间的强化学习

转载 作者:太空宇宙 更新时间:2023-11-04 07:51:30 27 4
gpt4 key购买 nike

问题

我的目标是应用强化学习来预测 3D 环境中物体在已知力作用下的下一个状态(该方法将简化为监督学习、离线学习)。

我的方法的细节

当前状态是表示对象在环境中的位置(3 维)和对象速度(3 维)的向量。起始位置以及起始速度在环境中随机初始化。

Action 是表示从状态 t 到状态 t+1 的移动的向量。

奖励只是预测的下一状态和真实的下一状态(我已经有了目标位置)之间的欧氏距离。

到目前为止我做了什么?

我一直在寻找很多方法来做到这一点。 Deep Deterministic Policy Gradients 适用于连续的 Action 空间,但在我的例子中,我还有一个连续的状态空间。如果您对这种方法感兴趣,请参阅 DeepMind 的原始论文: http://proceedings.mlr.press/v32/silver14.pdf

Actor-Critic 方法应该可行,但它通常(或总是)应用于离散和低维状态空间。

Q-LearningDeep-Q Learning 无法处理高维状态空间,因此即使对状态空间进行离散化,我的配置也无法正常工作。

反向强化学习(模仿学习的一个实例,具有行为克隆直接策略学习)在找到奖励时近似奖励函数函数比找到策略函数更复杂。有趣的方法,但我还没有看到任何实现,在我的例子中,奖励函数非常简单。是否有我尚未探索过的处理我的配置的方法?

最佳答案

在你的问题中,我相信可能存在很多困惑和误解。

  1. 首先,深度确定性策略梯度 (DDPG) 可以肯定地处理连续的状态和 Action 。它之所以如此出名,只是因为它。此外,它是第一个这样做的稳定架构。另外,您链接的论文实际上是 DPG,而不是 DDPG。然而,DDPG 和 DPG 都可以处理连续的状态和 Action ,只是后者不稳定得多。这篇论文实际上是我在 UofA 的“前辈”发表的。这是 DDPG 的链接:https://arxiv.org/pdf/1509.02971.pdf .

  2. Actor-critic RL 不是一种算法,而是一系列 RL 算法,其中 actor 将状态映射到 Action ,而 critic 则“预处理”反馈信号,以便 actor 可以更有效地学习它. DDPG 是 Actor 评论家设置的一个例子。在 DDPG 中,DQN 被用作 critic 来预处理确定性策略梯度(actor)的反馈信号。

  3. Q 学习和深度 Q 学习也属于强化学习算法系列。鉴于计算能力不足,Q-learning 当然无法处理高状态空间,但是,深度 Q-learning 肯定可以。一个例子是深度 Q 网络。

回到最初的问题。

我几乎可以保证您可以使用 DDPG 解决您的问题。事实上,DDPG 仍然是仅有的可用于在连续状态、连续 Action 空间中控制代理的算法之一。

另一种可以做到这一点的方法称为信任区域策略优化 (TRPO)。它由 UC Bekelery 团队(以及 OpenAI?)开发。 TRPO 和 DDPG 的基本结构相同(都是 actor-critic),但是训练方式不同。 DDPG 使用目标网络方法来保证收敛和稳定性,而 TRPO 对网络的更新施加 Kullerback-Leibler 散度约束以确保网络的每次更新不会太大(即网络在 t 的最优策略不会相差太大)从 t - 1)。 TRPO 非常难以编码,因此,OpenAI 发表了另一篇名为 Proximal Policy Gradient (PPO) 的论文。该方法类似于TRPO,但更容易实现。

长话短说,我建议您尝试使用 DDPG,因为如果您的任务如您所说的那样简单,那么 DDPG 肯定会奏效。

关于python - 连续状态和 Action 空间的强化学习,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54051499/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com