gpt4 book ai didi

reinforcement-learning - 确定性策略梯度相对于随机策略梯度的优势是什么?

转载 作者:行者123 更新时间:2023-12-04 02:22:25 27 4
gpt4 key购买 nike

Deep Deterministic Policy Gradient (DDPG) 是在 Action 空间连续时进行强化学习的最先进方法。其核心算法是Deterministic Policy Gradient .

然而,在阅读论文并听完演讲(http://techtalks.tv/talks/deterministic-policy-gradient-algorithms/61098/)后,我仍然无法弄清楚确定性 PG 相对于随机 PG 的根本优势是什么。演讲说它更适合高维 Action ,更容易训练,但这是为什么呢?

最佳答案

策略梯度法的主要原因是解决连续 Action 空间问题,由于全局Q最大化,Q学习困难。

SPG 可以解决连续 Action 空间问题,因为它用连续概率分布表示策略。由于 SPG 假设它的策略是一个分布,它需要对 Action 进行积分以获得整体奖励的梯度。 SPG 使用重要性采样来进行这种集成。

DPG 通过从状态到 Action 的确定性映射来表示策略。它可以这样做,因为它没有采取全局最大 Q 的 Action ,而是根据确定性映射(如果在策略上)选择 Action ,同时通过 Q 的梯度(开和关策略)移动此确定性映射。整体奖励的梯度有一个形式,不需要对 Action 进行积分,更容易计算。

可以说,从随机策略转变为确定性策略似乎是一种退步。但首先引入随机策略仅用于处理连续 Action 空间。确定性策略现在提供了另一种处理连续 Action 空间的方法。

我的观察是从这些论文中获得的:

确定性策略梯度算法

具有函数逼近的强化学习的策略梯度方法

深度强化学习的持续控制

关于reinforcement-learning - 确定性策略梯度相对于随机策略梯度的优势是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42763293/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com