- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
Deep Deterministic Policy Gradient (DDPG) 是在 Action 空间连续时进行强化学习的最先进方法。其核心算法是Deterministic Policy Gradient .
然而,在阅读论文并听完演讲(http://techtalks.tv/talks/deterministic-policy-gradient-algorithms/61098/)后,我仍然无法弄清楚确定性 PG 相对于随机 PG 的根本优势是什么。演讲说它更适合高维 Action ,更容易训练,但这是为什么呢?
最佳答案
策略梯度法的主要原因是解决连续 Action 空间问题,由于全局Q最大化,Q学习困难。
SPG 可以解决连续 Action 空间问题,因为它用连续概率分布表示策略。由于 SPG 假设它的策略是一个分布,它需要对 Action 进行积分以获得整体奖励的梯度。 SPG 使用重要性采样来进行这种集成。
DPG 通过从状态到 Action 的确定性映射来表示策略。它可以这样做,因为它没有采取全局最大 Q 的 Action ,而是根据确定性映射(如果在策略上)选择 Action ,同时通过 Q 的梯度(开和关策略)移动此确定性映射。整体奖励的梯度有一个形式,不需要对 Action 进行积分,更容易计算。
可以说,从随机策略转变为确定性策略似乎是一种退步。但首先引入随机策略仅用于处理连续 Action 空间。确定性策略现在提供了另一种处理连续 Action 空间的方法。
我的观察是从这些论文中获得的:
确定性策略梯度算法
具有函数逼近的强化学习的策略梯度方法
深度强化学习的持续控制
关于reinforcement-learning - 确定性策略梯度相对于随机策略梯度的优势是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42763293/
我使用 Deflater 编写了一个备份程序SHA-1 用于存储文件和哈希值。我看到Java的Deflater使用zlib 。如果我显式设置 Deflater 的级别,无论平台和 JRE 版本如何,我
考虑以下算法: r = 2 while r >= 1: x = -1 + 2 * random.random() y = -1 + 2 * random.random() r
我正在编写一个持久保存到磁盘的映射类。我目前只允许 str键,但如果我可以使用更多类型会很好:希望最多可以是任何可散列的(即与内置 dict 相同的要求),但更合理的是我会接受字符串、unicode、
我有一个不使用随机化的脚本,当我运行它时会给出不同的答案。我希望每次运行脚本时答案都是一样的。该问题似乎只发生在某些(病态)输入数据上。 该代码段来自一种计算线性系统特定类型 Controller 的
这对我来说不是问题,没有它我也可以生活,但我只是好奇这是否可能以及如何实现。 今天我了解到,scrapy.Request 不会按照启动的顺序完成。 伪代码示例: class SomeSpider(sc
我正在运行这个 SVD来自 scipy 的求解器,代码如下: import numpy as np from scipy.sparse.linalg import svds features = np
我正在尝试使用确定性 Miller-Rabin 算法实现素数检查功能,但结果并不总是正确的:在检查前 1,000,000 个数字时,它只找到 78,495 而不是 78,498。 这是使用 [2, 7
我正在审查各种 Android 声音 API,我想知道我应该使用哪一个。我的目标是获得低延迟的音频,或者至少是关于播放延迟的确定性行为。 我们遇到了很多问题,Android 声音 API 似乎很垃圾,
过去,我处理过对时间要求严格的软件开发。这些应用程序的开发基本上是这样进行的:“让我们编写代码,测试延迟和抖动,并优化它们,直到它们在可接受的范围内。”我觉得这非常令人沮丧。这不是我所说的 适当的工程
给定: SQL Server 表名为 TEST_TABLE TEST_TABLE 中名为 TEST_FIELD 的列 VARCHAR(50) NOT NULL 第 1 行:10YR3/6 第 2 行:
我在 64 位 Windows PC 上使用 Microsoft Visual Studio Community 2015,版本 14.xxx。 程序读取一个文本文件,其中每一行都是桥牌(四名玩家,每
我需要在 PHP 中创建一个可证明公平(确定性和种子)加密安全 (CS) 随机数生成器。我们正在运行 PHP 5,而 PHP 7 现在并不是一个真正的选择。但是,我找到了 PHP 7 的新 CS 函数
我是一名优秀的程序员,十分优秀!