python - GAE : Why does GAE perform worse than normalized return and advantages-6ren

python - GAE : Why does GAE perform worse than normalized return and advantages

转载作者：行者123 更新时间：2023-12-05 07:26:03

30

4

我正在以 GAE 为优势实现 PPO。以下代码是我根据OpenAI的基线实现计算GAE和返回的方式。

advantages = np.zeros_like(rewards)
last_adv = 0
for i in reversed(range(len(rewards))):
    delta = rewards[i] + nonterminals[i] * self._gamma * values[i+1] - values[i]
    advantages[i] = last_adv = delta + nonterminals[i] * gamma * lam * last_adv
returns = advantages + values[:-1]
advantages = normalize(advantages) # normalize advantages

值得一提的是 values 比 rewards 等其他数组多了一个元素，因此 values[-1] 可以被用作额外的下一个状态。然而，这种实现的表现比下面给出的简单归一化返回和优势要差得多

returns = rewards
next_return = 0
for i in reversed(range(len(rewards))):
    returns[i] = rewards[i] + nonterminals[i] * gamma * next_return
    next_return = returns[i]

# normalize returns and advantages
values = normalize(values[:-1], np.mean(returns), np.std(returns))
advantages = normalize(returns - values)
returns = normalize(returns)

在不改变任何其他东西的情况下，上述实现在gym 环境LunarLanderContinuous-v2 中不断地达到270+ 的平均分数。另一方面，GAE 实现的得分永远不会超过 100。请参见下图的示例，其中更好的一个是使用规范化实现运行的

我的实现有什么问题？

另外，这里是normalize

的代码

def normalize(x, mean=0., std=1., epsilon=1e-8):
    x = (x - np.mean(x)) / (np.std(x) + epsilon)
    x = x * std + mean

    return x

最佳答案

您计算优势的代码似乎是正确的。 normalize 有什么作用？通常您标准化您的数据，这意味着您减去它的平均值并除以它的标准偏差。我问是因为在您的代码的第二部分中，您将返回的均值和标准差传递给函数 normalize，而在第一部分中您没有。

此外，为什么要在代码的第二部分使用 returns 规范化 values？我觉得很奇怪。

最后，如何训练 V 功能？ (我假设 values 包含 V 值)。我发现学习如下

    for epoch in range(epochs_v):
        v_values = ... # compute your values using V
        a_values = ... # compute A as in your code
        target_values = v_values + a_values # generalized Bellman operator
        # optimize V on your dataset with minibatches and ADAM

比“一次性拟合”效果更好

    v_values = ... # compute your values using V
    a_values = ... # compute A as in your code
    target_values = v_values + a_values # generalized Bellman operator
    # fit V to target_values

关于python - GAE : Why does GAE perform worse than normalized return and advantages，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54536452/

30

4

0

文章推荐： listview - 只允许扩展一个 ExpansionTile

文章推荐： c# - try-catch 在 IL 中如何工作？

文章推荐： graphql - Shopify graphql 客户创建

java - Normalizer.normalize(s, Normalizer.Form.NFD) 和 StringUtils.stripAccents(s) 之间的实际区别是什么？
这两种方法似乎都完成了从字符串中删除重音符号的相同工作，但我不确定是否存在一些内部差异，可以使一种方法优于另一种方法最佳答案分解处理的不仅仅是重音(在 Unicode 中称为标记)，例如韩文音节
python - ValueError : Failed to find font DejaVu Sans:style=normal:variant=normal:weight=normal. ..并且回退到默认字体被禁用
我在尝试绘制一些数据时收到此错误: findfont: Font family ['STIXGeneral'] not found. Falling back to DejaVu Sans. Trac
normalization - "normalizing"和 "canonicalizing"数据之间是否存在明确的区别？
我理解规范化和规范化意味着删除数据表示中任何无意义或模棱两可的部分，将有效相同的数据转换为实际相同的数据。例如，如果您想获取某些输入数据的哈希值，并且其他任何人对规范的相同数据进行哈希处理都获得相同
perl - Unicode::Normalize - 查询 'Normalization From'
#!/usr/local/bin/perl use warnings; use 5.014; use Unicode::Normalize qw(NFD NFC compose); my $strin
php - 为什么 Normalizer::normalize (PHP) 不起作用？
我正在尝试将包含“áéíóú”等字符的字符串规范化为“aeiou”以简化搜索。在对 this question 的回复之后我应该使用 Normalizer 类来完成它。问题是 normalize
python - Unicodedata.normalize() 值错误 : invalid normalization form
我正在尝试获取外语文本并输出人类可读、文件名安全的等效文本。环顾四周后，似乎最好的选择是 unicodedata.normalize()，但我无法让它工作。我试过将一些答案的确切代码放在这里和其他地方
python - pymc normal prior + normal likelihood 没有正确收敛？
我是 pymc 和贝叶斯统计的新手。在这里，我试图实现一个极其简单的 pymc 模型，以便与理论结果进行比较。在我的测试用例中，我假设正常先验为 mu~N(20,20) 并且可能性假设为 data~N
xpath - normalize-space(.) 和 normalize-space(text()) 有什么区别？
我正在编写一个 XPath 表达式，但我修复了一个奇怪的错误，但是以下两个 XPath 表达式之间有什么区别？ "//td[starts-with(normalize-space()),'Posted
tensorflow - tf.random.normal 和 tf.distributions.Normal 有什么区别？
tf.random.normal 和 tf.distributions.Normal 有什么区别？或者 tf.distributions.Multinomial 和 tf.random.multino
ios - 存档已提交 :Ld */Objects-normal/arm64/test normal arm64
第一步: xcodebuild -project Pods/Pods.xcodeproj build 第二个: xcodebuild archive -project 'test.xcodeproj'
css - css 字体规则中的 'normal normal medium 45px/61px Oswald' 是什么意思？
我正在将 Adobe Xd 中的设计转换为 HTML 模板，其中一个元素建议使用以下 css 规则。 top: 149px; left: 54px; width: 463px; height: 2
database-normalization - 归一化: Is it considered Normal Form compliant to split static,数值之类的年份放到自己的表中？
我正在与另一位数据库设计人员就规范化进行有趣的讨论。在这个例子中，我们有一个 GameTitles 表，每条记录都必须包含游戏发布的年份。他说 2NF 要求所有内容都必须规范化，因此，要符合要求，年份
python - Unicodedata.normalize : TypeError: normalize() argument 2 must be str, 未列出
我正在尝试在 python 中加载文件。如果您运行下面的代码并加载仅包含英文单词的文件，它将加载得很好。 Listado.txt 是一个西类牙语文件，包含以下单词:abacá、abadí、abadía
java - 调用需要 api 级别 9(当前最低为 7) java.text.normalizer#normalize
我一个月前完成了这个游戏，直到今天一切都很好。我在线收到错误: odgovorNormalized = Normalizer.normalize(konResenje, Normalizer.Form
c - C语言: '= { }' operators vs normal normal equal '=' operator
我正在使用gnutls aes加密，这是我的代码 const gnutls_datum_t * key; *key = (const char*)"tZOVP7o/u2vQB+4B/0O0ZqLWvy
normalization - 带有彩色和灰度图像的训练数据集
我正在尝试训练一个用于面部性别和年龄检测的 cnn 模型。我的训练集包含彩色和灰度的面部图像。我如何标准化这个数据集？或者如何处理混合了灰度和彩色图像的数据集？最佳答案请记住，网络只会尝试了解您的
功能 "normalization"
这是 DB 规范化理论中的一个概念: Third normal form is violated when a non-key field is a fact about another non-ke
normalization - 您如何使一对一或其他关系正常化？
我正在存储有关棒球统计数据的数据，并希望使用三个表来存储:players、battingStats 和 pitchingStats。就问题而言，每个球员都会有击球统计数据或投球统计数据，但不会两者都有
normalization - 如何用推力标准化向量？
我现在正在学习推力。我有一个问题:如何用推力进行归一化？我有一个有效的代码，但我想知道这是否是最佳方法。 struct square { __host__ __device__ float oper
normalization - 促进职称规范化
所以我知道我自己可以如何解决这个问题，但是有人知道任何可以处理这个问题的现有库吗？ (无论什么语言)？最佳答案此 API 仅支持英文，并具有职称规范化:http://api.dataatwork.

首页

博学

6Ren·AI

商城

python - GAE : Why does GAE perform worse than normalized return and advantages