reinforcement-learning - 为什么 DDPG/TD3 受益于旧数据而 PPO 却没有-6ren

reinforcement-learning - 为什么 DDPG/TD3 受益于旧数据而 PPO 却没有

转载作者：行者123 更新时间：2023-12-02 19:51:26

33

4

我有一个关于深度强化学习的更笼统的问题。我总是有点纠结，on-policy 和 off-policy 到底有什么区别。当然可以说，off-policy 是在轨迹采样期间从不同的分布中采样 Action ，on-policy 是使用实际策略生成轨迹。或者 on-policy 无法从旧数据中受益，而 off-policy 可以。两者都没有真正回答确切的区别是什么，而是告诉我输出结果。

在我的理解中，DDPG 和 PPO 都建立在 A2C 之上，并同时训练 Actor 和评论家。虽然 critic 通常是基于 MSE 使用下一个时间步的观察到的奖励(可能使用一些注册多个步骤，但暂时忽略注册)和下一个时间步的网络本身来训练的。我在这里看不出 off-policy DDPG 和 on-policy PPO 之间的区别(TD3 做的略有不同，但现在忽略它，因为想法是相同的)。

在这两种情况下， Actor 本身都有一个基于评论家生成的值(value)的损失函数。 PPO 使用策略的比率来限制步长，而 DDPG 使用策略来预测 critic 计算的值的 Action 。因此，在两种方法(PPO 和 DDPG)中，两种 CURRENT 策略都用于批评家和 Actor 的损失函数。

那么现在我的实际问题是:为什么 DDPG 能够从旧数据中受益，或者更确切地说，为什么 PPO 不能从旧数据中受益。可以争辩说，PPO 中政策的比例限制了政策之间的距离，因此需要新的数据。但是与 DDPG 相比，A2C 如何在策略上且无法从旧数据中获益？

我确实理解 Q-learning 离策略学习远多于策略学习的区别。但我不明白那些 PG 方法之间的区别。它是否仅依赖于 DDPG 是确定性的事实。 DDPG是否有任何off-policy correction，使其能够从旧数据中获利？

如果有人能让我更深入地了解这些政策，我会非常高兴。

干杯

最佳答案

PPO actor-critic 目标函数基于通过在 T 个时间步上运行当前策略获得的一组轨迹。策略更新后，从旧/陈旧策略生成的轨迹不再适用。也就是说，它需要“按政策”进行培训。

[为什么？因为 PPO 使用随机策略(即给定状态下 Action 的条件概率分布)并且策略的目标函数基于从概率分布的轨迹中抽样，该概率分布取决于当前策略的概率分布(即您需要使用当前策略生成轨迹)...注意 #1:这适用于使用随机策略的任何策略梯度方法，而不仅仅是 PPO。]

DDPG/TD3 对每个参与者/评论家更新只需要一个时间步(通过贝尔曼方程)，并且可以直接将当前确定性策略应用于旧数据元组(s_t、a_t、r_t、s_t+1)。即它被训练为“off-policy”。

[为什么？因为 DDPG/TD3 使用确定性策略 和 Silver、David 等人。 “确定性策略梯度算法。” 2014. 证明策略的目标函数是马尔可夫决策过程状态转移函数的状态轨迹的期望值......但不依赖于策略引起的概率分布，毕竟概率分布是确定性的而不是随机的。]

关于reinforcement-learning - 为什么 DDPG/TD3 受益于旧数据而 PPO 却没有，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58100411/

33

4

0

文章推荐： c# - 为什么在ubuntu上构建dotnet会输出dll文件？

文章推荐： javascript - 如何在asp.net用户控件中动态附加脚本标签？

文章推荐： javascript - REGEX 在 javascript 中查找选项标签

文章推荐： shell - 如何在目录及其子目录上递归使用 tail -f ？

html - 为什么与不同
我正在用一个 TD 和一个 colspan 属性替换多个 TD。然而，这呈现完全不同。我不明白为什么不同于我的问题是前 2 个 TD 的宽度之和与 colspanned TD 的宽度不同。
python - Django 。如何在html namevaluedate标签中显示json文件？
我想这是个愚蠢的问题，但我是 json 的新手，所以任何答案都会有所帮助。我有 json 文件: `{"aaData": [ [1, "70.1700", "2008-12-29 11:23:00"
ruby - 当任何 .. 值已知时，是否可以找到 .. 文本？
我有一个类似 html 的网页格式如下: .... . . . alo foo bla bla 现在，我只知道值 bla bla , 根据该值我们可以跟踪或找到 3rd
javascript - 将具有类名的特定 td 之后的所有 td 替换为带有输入的新 td
我有以下 html 代码: Add New Item test test test test test test test te
javascript - 在 td 中单击时如何在 td 中获取字符串，该 td 晚于第一个 td 但在同一 tr 中？
Name1 Position1 Operation1 Name2 Position2
如果 td 与同一行上的另一个 td 不同，jQuery 会突出显示 td
如果其中的数据与同一行上第三列 td 内的数据匹配，我需要做的是向第一列 td 添加一个类。 http://jsfiddle.net/rUssu/ html 表格 firstsecondthi
html - 有没有办法清除/隐藏两个 td 表中的第一个 td，而无需访问第一个 td？
有什么方法可以清除或隐藏第一个 td 的内容，从双列表中的第二个 td，而无需对实际 td 的任何编辑权限？所以我想隐藏下表中的数字 1. Content
html - 当第一个 `` 的高度大于第二个 `` 时，如何将第二个 `` 中的元素对齐到左上角
当第一个高度大于第二个 , 包含第二个文本与中心对齐。我想要第二个的文本或元素当第一个对齐到左上角的高度大于秒。我如何使用 css 来做到这一点？？ HTML5, CSS3 an
javascript - 有没有办法在选择按钮并且显示为无时显示？ ( 中将有一个 codeMirror 文本区域)
我这里遇到了一些麻烦。我正在开发一个按钮，一旦选择该按钮将运行 JavaScript 函数 - ShowColumn() - 这将使表格列出现。表格列首先将被隐藏 - “display:none;”
html - 如何将 100% 宽度设置为第一个表 td 并使其他 td 低于第一个 td
我需要将第一个 td 设为 100% 宽(包括图像)并将其他 td 放在第一个 td 下方。如何在不更改 HTML 的情况下执行此操作？这是我的: #katalogas { float:left;
java - 我想在 td 中放置一个动态值，在一个表中有很多 td，但我想将该值放置在特定的 td 中
用于创建规则列表的Java类 public class CompArray { public ArrayList a1= new ArrayList(); public CompArray (){
css - 如何更改所有 td 的背景，在特定 td 之前，将鼠标悬停在该 td 上
我想在悬停在特定 td 上时更改特定 td 之前所有 td 的背景颜色。因此，当我将鼠标悬停在该图标上时，该特定行中它之前的所有图标和文本都会更改它们的背景。任何人都可以建议如何实现它。这是我的
jquery - 如何使用 jquery 捕获 td 元素中的值并根据捕获的 td 值更改另一个 td 元素的背景颜色？
我今天花了一些时间查看使用 JQuery 遍历表及其行的示例，经过大量试验后我能够做到这一点。但是我在尝试从 td 元素获取值时遇到问题，因此我可以更改为另一个 td 元素的颜色。我有一个绑定(bin
HTML 第一个表格列如何反转 "td + td"？
这个问题在这里已经有了答案: Is there a "previous sibling" selector? (32 个答案) 关闭 7 年前。我正在构建一个与此类似的表: td
html - 使用 td 内的 div 定义 td 宽度 VS 在 td 本身上定义宽度？
当我想设置 td 的宽度时，我将 td 设置为如下宽度: ... 我已经看到通过添加一个空的 div 来设置 td 宽度: some text .h-间隔符{ 高度:0；宽度:0；溢
javascript - 如何从
获取特定的 HTML 控件并将所选控件附加到同一个中？
我有以下 HTML 表格: Products Pack Of Quantity Volume Unit Reb
html - 将 CSS 应用于 TD 中的数据，但不应用于 TD。需要在每个 TD 中提高文本基线。 Maby 文本属性选择器
我需要提升文本，但如果我将类应用于 IE、Opera 和 Chrome 中的 TD 或 TR，则所有单元格都会提升(背景和边框以及单元格中的文本)。请看例子: Untitled D
javascript - 在除第一个 td 的 margin-top 和最后一个 td 的 margin-bottom 之外的所有 td 之间放置边距
我试图在所有之间放置边距除了的 margin-top在第一行，的底部边距在最后一行。那可能吗？谢谢。 table { border: 1px solid black; width: 98%;
javascript - 如何获取标签的post值
我需要发布我的 td 标签的这些值，因为这是一个使用 jquery 的可编辑表。我不确定这里的问题是脚本还是 td 标签？目前我的 var_dump($_POST) 没有返回任何值。参见下面的代码，
javascript - 检查 td 是否是最后可见的 td
我想检查当前网格单元格是否是行中最后一个可见单元格。 //accurately confirms if cell is the last cell in the row, assuming there

首页

博学

6Ren·AI

商城

reinforcement-learning - 为什么 DDPG/TD3 受益于旧数据而 PPO 却没有