gpt4 book ai didi

machine-learning - 损失函数中的 TRPO/PPO 重要性采样项

转载 作者:行者123 更新时间:2023-11-30 09:26:54 26 4
gpt4 key购买 nike

在信任区域策略优化 (TRPO) 算法中(以及随后在 PPO 中),我不明白从标准策略梯度替换对数概率项背后的动机

enter image description here

使用策略输出概率相对于旧策略输出概率的重要性采样项

enter image description here

有人可以向我解释一下这一步吗?

我明白一旦我们这样做了,为什么我们需要将更新限制在“信任区域”内(以避免 πθold 增加梯度更新而不是梯度方向的近似值是准确的),我只是不确定首先包含该术语的原因。

最佳答案

PG的原始公式没有log,它只是E[pi*A]log 用于数值稳定性,因为它不会改变最优值。

必须使用重要性采样项,因为您要最大化 pi(新策略),但您只有当前策略 pi_old 中的样本。所以基本上 IS 是做什么的

  • 您想要求解pi*A 积分
  • 您没有来自 pi 的样本,只有来自 pi_old 的样本
  • 您将问题更改为积分 pi/pi_old*pi_old*A
  • 这相当于用 pi_old 样本近似得到的积分 pi/pi_old*A

如果您想要存储之前迭代期间收集的样本并仍然使用它们来更新您的政策,这也很有用。

但是,这种简单的重要性采样通常不稳定,特别是如果您当前的政策与之前的政策有很大不同。在 PPO 和 TRPO 中,它效果很好,因为策略更新受到限制(TRPO 中存在 KL 分歧,并通过削减 PPO 中的 IS 比率)。

This是了解重要性采样的一个很好的书籍章节。

关于machine-learning - 损失函数中的 TRPO/PPO 重要性采样项,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51967676/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com