keras - DDPG(Deep Deterministic Policy Gradients)，actor是如何更新的？-6ren

keras - DDPG(Deep Deterministic Policy Gradients)，actor是如何更新的？

转载作者：行者123 更新时间：2023-12-03 16:40:35

27

4

我目前正在尝试在 Keras 中实现 DDPG。我知道如何更新评论家网络(普通 DQN 算法)，但我目前坚持更新 Actor 网络，它使用等式:

equation

因此，为了将 Actor 网络 wrt 的损失减少到其权重 dJ/dtheta，它使用链式法则来获得 dQ/da(来自评论家网络)* da/dtheta(来自 Actor 网络)。

这看起来不错，但我无法理解如何从这两个网络中推导出梯度。有人可以向我解释这部分吗？

最佳答案

所以主要的直觉是，在这里，J 是你想要最大化而不是最小化的东西。因此，我们可以称其为目标函数而不是损失函数。该等式简化为:

dJ/dTheta = dQ/da * da/dTheta = dQ/dTheta

这意味着你想要改变参数 Theta 来改变 Q。因为在 RL 中，我们想要最大化 Q，对于这部分，我们想要做梯度上升。为此，您只需执行梯度下降，除了将梯度作为负值输入。

要导出梯度，请执行以下操作:

使用在线参与者网络，发送从重放内存中采样的一批状态。 (用于训练评论家的同一批)

计算每个状态的确定性 Action

将用于计算这些 Action 的状态发送到在线评论家网络，以将这些确切状态映射到 Q 值。

根据步骤 2 中计算的 Action 计算 Q 值的梯度。我们可以使用 tf.gradients(Q value, actions) 来执行此操作。现在，我们有 dQ/dA。

再次将状态发送给 Actor 在线评论家并将其映射到 Action 。

再次使用 tf.gradients(a, network_weights) 计算 Action 相对于在线参与者网络权重的梯度。这会给你 dA/dTheta

将 dQ/dA 乘以 -dA/dTheta 得到 梯度上升 .我们剩下目标函数的梯度，即梯度 J

将梯度 J 的所有元素除以批量大小，即

对于 j 中的 j，

 j / batch size

通过首先使用网络参数压缩梯度 J 来应用梯度下降的变体。这可以使用 tf.apply_gradients(zip(J, network_params))

来完成

呸，你的 Actor 正在训练它的参数以最大化 Q。

我希望这是有道理的!我也很难理解这个概念，说实话，在某些部分仍然有点模糊。如果我能澄清任何事情，请告诉我!

关于keras - DDPG(Deep Deterministic Policy Gradients)，actor是如何更新的？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51496159/

27

4

0

文章推荐： antlr - 将 ANTLR v2 语法迁移到 ANTLR v4

文章推荐： Spotify 网络钩子(Hook)？

css - linear-gradient 等价于 moz-linear-gradient
我想替换以下特定于 Mozilla 的 CSS 规则: background: -moz-linear-gradient(center top , #F5F5F5, #E4E4E4); 使用标准 li
html - 将褪色黑色分隔符从 "-webkit-gradient"转换为 "linear-gradient"
我有一个当前正在使用的渐变，我想将其从 -webkit 转换为默认的线性渐变。我曾尝试使用所有在线 CSS 生成工具来导入代码，以便查看其他浏览器特定的变体，但由于某种原因，当我导入代码时，结果部分中
html - 将 linear-gradient 语法转换为 -webkit-gradient 语法
我正在尝试在段落中添加行，但我无法将以下语法的线性渐变转换为 -webkit-gradient 语法，因为 wicked_pdf for rails 不支持线性渐变。任何帮助，我无法在网上找到 -w
css - -moz-linear-gradient 和 -webkit-gradient 的区别
-moz-linear-gradient 和 -webkit-gradient 之间的基本区别是什么。我知道更改是在参数中进行的，-moz 是针对 mozilla 的。但是为什么我们为 Mozilla
python - 区别 - tf.gradients 与 tf.keras.backend.gradients
作为 Tensorflow 新手，我试图了解 tf.gradients 和 tf.keras.backend.gradients 底层功能之间的区别。后者找到输入特征值相对成本函数的梯度。但是我无
css - -webkit-linear-gradient 和 -moz-linear-gradient 的不同结果
我为按钮的背景使用了一些 CSS，但它在 Firefox、Chrome 和 IE 中看起来不同。我正在使用 -webkit-linear-gradient 和 -moz-linear-gradien
python - tf2.0 : Gradient Tape returns None gradient in RNN model
在具有嵌入层和 SimpleRNN 层的模型中，我想为每个步骤 t 计算偏导数 dh_t/dh_0。我的模型结构，包括导入和数据预处理。有毒评论列车数据可用:https://www.kaggle.
neural-network - 卷积神经网络中的 "Activations"、 "Activation Gradients"、 "Weights"和 "Weight Gradients"是什么？
我刚看完the notes CNN 上的斯坦福 CS231n 和现场链接 demo ;然而，我不确定演示中的“激活”、“激活梯度”、“权重”和“权重梯度”指的是什么。以下屏幕截图已从演示中复制。混
css - Opera 是否有 -moz-linear-gradient 或 -webkit-gradient 类型的 CSS？
Opera 和其他主要浏览器是否有 -moz-linear-gradient 或 -webkit-gradient 类型的 CSS？最佳答案 IE 实际上支持渐变，Opera 则不支持(从 10.5
javascript - -moz-linear-gradient 在 JQuery Slider 上添加 -webkit-linear-gradient 时中断
TL;DR -webkit-linear-gradient 正在打破 -moz-linear-gradient 听说是个难题，我使用的是带有两个 handle 的 Jquery Slider 插件，我
gradient - 为什么强化学习的策略梯度方法适用于大型行动空间
正如标题中所述，我已经阅读了多个来源，Policy Gradient 方法是 RL 适用于大型 Action 空间，但我不明白为什么会这样。我想看看 RL 是否可以解决我的一个具有巨大组合数的问题。
gradient - 仅计算共享变量数组的一部分的梯度
我想做以下事情: import theano, numpy, theano.tensor as T a = T.fvector('a') w = theano.shared(numpy.array([
gradient - 如何在渐变背景上制作带有阴影的文本渐变？
这是我需要在 CSS 中实现的(它非常丑陋，但它作为一个例子很好地说明了我的问题): 我们在文本上设置了渐变效果，背景上有阴影。我已经尝试了所有我能找到的方法。 This method不适用于文本阴
gradient - 如何让渐变边框也适用于手机？
我有这个代码: #likebuttonsmob {margin-left:auto; margin-right:auto; width: 340px; margin-bottom: 8px; padd
gradient - 底部渐变边框
根据 CSS Tricks , 以下 CSS 语法将导致左边框渐变。 .left-to-right { border-width:3px 0 3px 3px; -webkit-border-image
gradient - TensorFlow 远程应用梯度
我正在尝试将最小化功能拆分到两台机器上。在一台机器上，我调用“compute_gradients”，在另一台机器上调用“apply_gradients”，渐变通过网络发送。问题是无论我做什么，调用 a
gradient - 后记:绘制渐变
我在学习后记我正在尝试创建一种方法来绘制垂直渐变 . 这是我的代码: %!PS-Adobe-3.0 %%%%%%%%%%%%%%%%%%%%%%% % draw a RECTANGLE /Rect
gradient-descent - TensorFlow的ReluGrad声称输入不是有限的
我正在尝试TensorFlow，但遇到了一个奇怪的错误。我编辑了较深的MNIST示例，以使用另一组图像，该算法再次很好地收敛，直到迭代8000(此时的精度为91％)崩溃并出现以下错误。 tensorf
gradient - Jetpack 在图像顶部合成渐变图像
我在 xml 布局中有以下代码，我想将其移动到撰写中，但很难将其正确化我尝试使用 Box 进行 Compose，但不起作用
ios - 如何使用animationWithDuration和Chameleon Gradients？
func fadeLightBar(){ UIView.animateWithDuration(fadeTime, delay: 0, options: UIViewAnimation

首页

博学

6Ren·AI

商城

keras - DDPG(Deep Deterministic Policy Gradients)，actor是如何更新的？