gpt4 book ai didi

reinforcement-learning - 为什么 DDPG/TD3 受益于旧数据而 PPO 却没有

转载 作者:行者123 更新时间:2023-12-02 19:51:26 33 4
gpt4 key购买 nike

我有一个关于深度强化学习的更笼统的问题。我总是有点纠结,on-policy 和 off-policy 到底有什么区别。当然可以说,off-policy 是在轨迹采样期间从不同的分布中采样 Action ,on-policy 是使用实际策略生成轨迹。或者 on-policy 无法从旧数据中受益,而 off-policy 可以。两者都没有真正回答确切的区别是什么,而是告诉我输出结果。

在我的理解中,DDPG 和 PPO 都建立在 A2C 之上,并同时训练 Actor 和评论家。虽然 critic 通常是基于 MSE 使用下一个时间步的观察到的奖励(可能使用一些注册多个步骤,但暂时忽略注册)和下一个时间步的网络本身来训练的。我在这里看不出 off-policy DDPG 和 on-policy PPO 之间的区别(TD3 做的略有不同,但现在忽略它,因为想法是相同的)。

在这两种情况下, Actor 本身都有一个基于评论家生成的值(value)的损失函数。 PPO 使用策略的比率来限​​制步长,而 DDPG 使用策略来预测 critic 计算的值的 Action 。因此,在两种方法(PPO 和 DDPG)中,两种 CURRENT 策略都用于批评家和 Actor 的损失函数。

那么现在我的实际问题是:为什么 DDPG 能够从旧数据中受益,或者更确切地说,为什么 PPO 不能从旧数据中受益。可以争辩说,PPO 中政策的比例限制了政策之间的距离,因此需要新的数据。但是与 DDPG 相比,A2C 如何在策略上且无法从旧数据中获益?

我确实理解 Q-learning 离策略学习远多于策略学习的区别。但我不明白那些 PG 方法之间的区别。它是否仅依赖于 DDPG 是确定性的事实。 DDPG是否有任何off-policy correction,使其能够从旧数据中获利?

如果有人能让我更深入地了解这些政策,我会非常高兴。

干杯

最佳答案

PPO actor-critic 目标函数基于通过在 T 个时间步上运行当前策略获得的一组轨迹。策略更新后,从旧/陈旧策略生成的轨迹不再适用。也就是说,它需要“按政策”进行培训。

[为什么?因为 PPO 使用随机策略(即给定状态下 Action 的条件概率分布)并且策略的目标函数基于从概率分布的轨迹中抽样,该概率分布取决于当前策略的概率分布(即您需要使用当前策略生成轨迹)...注意 #1:这适用于使用随机策略的任何策略梯度方法,而不仅仅是 PPO。]

DDPG/TD3 对每个参与者/评论家更新只需要一个时间步(通过贝尔曼方程),并且可以直接将当前确定性策略应用于旧数据元组(s_t、a_t、r_t、s_t+1)。即它被训练为“off-policy”。

[为什么?因为 DDPG/TD3 使用确定性策略 和 Silver、David 等人。 “确定性策略梯度算法。” 2014. 证明策略的目标函数是马尔可夫决策过程状态转移函数的状态轨迹的期望值......但不依赖于策略引起的概率分布,毕竟概率分布是确定性的而不是随机的。]

关于reinforcement-learning - 为什么 DDPG/TD3 受益于旧数据而 PPO 却没有,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58100411/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com