强化学习算法笔记之【DDPG算法】

转载作者：撒哈拉更新时间：2024-10-19 16:18:59

57

4

强化学习笔记之【DDPG算法】

强化学习笔记之【DDPG算法】
- - 前言：
  - 原论文伪代码
  - DDPG 中的四个网络
  - 代码核心更新公式

前言：

本文为强化学习笔记第二篇，第一篇讲的是Q-learning和DQN 。

就是因为DDPG引入了Actor-Critic模型，所以比DQN多了两个网络，网络名字功能变了一下，其它的就是软更新之类的小改动而已。

本文初编辑于2024.10.6 。

CSDN主页：https://blog.csdn.net/rvdgdsva 。

博客园主页：https://www.cnblogs.com/hassle 。

博客园本文链接:

真 · 图文无关。

原论文伪代码

上述代码为DDPG原论文中的伪代码

需要先看:

Deep Reinforcement Learning (DRL) 算法在 PyTorch 中的实现与应用【DDPG部分】【没有在选择一个新的动作的时候，给policy函数返回的动作值增加一个噪音】【critic网络与下面不同】。

深度强化学习笔记——DDPG原理及实现（pytorch）【DDPG伪代码部分】【这个跟上面的一样没有加噪音】【critic网络与上面不同】。

【深度强化学习】(4) Actor-Critic 模型解析，附Pytorch完整代码【选看】【Actor-Critic理论部分】。

如果需要给policy函数返回的动作值增加一个噪音，实现如下。

def select_action(self, state, noise_std=0.1):
    state = torch.FloatTensor(state.reshape(1, -1))
    action = self.actor(state).cpu().data.numpy().flatten()
    
    # 添加噪音，上面两个文档的代码都没有这个步骤
    noise = np.random.normal(0, noise_std, size=action.shape)
    action = action + noise
    
    return action

DDPG 中的四个网络

注意！！！这个图只展示了Critic网络的更新，没有展示Actor网络的更新。

Actor 网络（策略网络）：
- 作用：决定给定状态 ss 时，应该采取的动作 a=π(s)a=π(s)，目标是找到最大化未来回报的策略。
- 更新：基于 Critic 网络提供的 Q 值更新，以最大化 Critic 估计的 Q 值。
Target Actor 网络（目标策略网络）：
- 作用：为 Critic 网络提供更新目标，目的是让目标 Q 值的更新更为稳定。
- 更新：使用软更新，缓慢向 Actor 网络靠近。
Critic 网络（Q 网络）：
- 作用：估计当前状态 ss 和动作 aa 的 Q 值，即 Q(s,a)Q(s,a)，为 Actor 提供优化目标。
- 更新：通过最小化与目标 Q 值的均方误差进行更新。
Target Critic 网络（目标 Q 网络）：
- 作用：生成 Q 值更新的目标，使得 Q 值更新更为稳定，减少振荡。
- 更新：使用软更新，缓慢向 Critic 网络靠近。

大白话解释:

1、DDPG实例化为actor，输入state输出action 2、DDPG实例化为actor_target 3、DDPG实例化为critic_target，输入next_state和actor_target(next_state)经DQN计算输出target_Q 4、DDPG实例化为critic，输入state和action输出current_Q，输入state和actor(state)【这个参数需要注意，不是action】经负均值计算输出actor_loss 。

5、current_Q 和target_Q进行critic的参数更新 6、actor_loss进行actor的参数更新。

action实际上是batch_action，state实际上是batch_state，而batch_action != actor(batch_state) 。

因为actor是频繁更新的，而采样是随机采样，不是所有batch_action都能随着actor的更新而同步更新。

Critic网络的更新是一发而动全身的，相比于Actor网络的更新要复杂要重要许多。

代码核心更新公式

\[target\underline{~}Q = critic\underline{~}target(next\underline{~}state, actor\underline{~}target(next\underline{~}state)) \\target\underline{~}Q = reward + (1 - done) \times gamma \times target\underline{~}Q.detach() \]

上述代码与伪代码对应，意为计算预测Q值

\[critic\underline{~}loss = MSELoss(critic(state, action), target\underline{~}Q) \\critic\underline{~}optimizer.zero\underline{~}grad() \\critic\underline{~}loss.backward() \\critic\underline{~}optimizer.step() \]

上述代码与伪代码对应，意为使用均方误差损失函数更新Critic

\[actor\underline{~}loss = -critic(state,actor(state)).mean() \\actor\underline{~}optimizer.zero\underline{~}grad() \\ actor\underline{~}loss.backward() \\ actor\underline{~}optimizer.step() \]

上述代码与伪代码对应，意为使用确定性策略梯度更新Actor

\[critic\underline{~}target.parameters().data=(tau \times critic.parameters().data + (1 - tau) \times critic\underline{~}target.parameters().data) \\ actor\underline{~}target.parameters().data=(tau \times actor.parameters().data + (1 - tau) \times actor\underline{~}target.parameters().data) \]

上述代码与伪代码对应，意为使用策略梯度更新目标网络

Actor和Critic的角色:

Actor：负责选择动作。它根据当前的状态输出一个确定性动作。
Critic：评估Actor的动作。它通过计算状态-动作值函数（Q值）来评估给定状态和动作的价值。

更新逻辑:

Critic的更新：
1. 使用经验回放缓冲区（Experience Replay）从中采样一批经验（状态、动作、奖励、下一个状态）。
2. 计算目标Q值：使用目标网络（critic_target）来估计下一个状态的Q值（target_Q），并结合当前的奖励。
3. 使用均方误差损失函数（MSELoss）来更新Critic的参数，使得预测的Q值（target_Q）与当前Q值（current_Q）尽量接近。
Actor的更新：
1. 根据当前的状态（state）从Critic得到Q值的梯度（即对Q值相对于动作的偏导数）。
2. 使用确定性策略梯度（DPG）的方法来更新Actor的参数，目标是最大化Critic评估的Q值。

个人理解:

DQN算法是将q_network中的参数每n轮一次复制到target_network里面。

DDPG使用系数$\tau$来更新参数，将学习到的参数更加soft地拷贝给目标网络。

DDPG采用了actor-critic网络，所以比DQN多了两个网络。

最后此篇关于强化学习算法笔记之【DDPG算法】的文章就讲到这里了,如果你想了解更多关于强化学习算法笔记之【DDPG算法】的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

57

4

0

文章推荐：配置与美化Linux桌面

文章推荐： kaggle数据集某咖啡店的营销数据分析

文章推荐： Nuxt.js应用中的app：templatesGenerated事件钩子详解

php - 这个脚本有多安全(强化)？
下面的脚本 test.php 旨在放置在我所有 wordpress 站点的特定目录中。它的作用是抓取下面$source地址的文件，解压到它所在的目录下。这就是它的全部意图。例如，我将在我的中央服务器
java - 强化 : Resource Injection
我有以下代码，并且在 copyMessages() 处遇到资源注入(inject)问题。我不知道如何解决这个问题？ Abstract: Attackers are able to control t
java - 强化 Java 技能
上个学期我介绍了 Java 中的面向对象编程，下学期我将学习 Java 计算机科学 2，它基本上学习用 Java 实现的各种算法和数据结构，例如链表、二叉树等。 ..我可以通过哪些方法来巩固在面向对象
android - 强化 Android 检查
我很好奇 Fortify 规则集在 Android 应用程序中寻找哪些漏洞。不幸的是，我找不到任何相关文件。我知道他们四处寻找 Java 特定的漏洞以及组件的权限检查——还有其他吗？ SQL注入(in
java - 强化 XML 外部实体 (XXE)
我在 fortify 报告中收到第 4 行的 XML 外部实体注入(inject)安全警告。不知道如何解决它。我对 SOAP、JAXB 和 Marshaller 还很陌生。 1 private
python - 通过 python 强化 sshd_config
查找以“#PermitRootLogin yes”开头的行并替换为“PermitRootLogin no” 在底部添加一行“AllowUsers user1@test.com” 重新启动 sshd 守
php - 强化 PHP session - 比较错误
我正在尝试强化我的 session 并找到了下面的代码。我的问题是这一行 isset($_SESSION['last_ip']) !== $_SERVER['REMOTE_ADDR']。当我回显比较
java - 强化 : Null dereference for Java 8
当我在 Java 8 中包含以下代码时，我在 fortify 中遇到 Null Dereference 问题: String name = statusList.stream() .map(s
javascript - 强化 : DOM based cross site scripting
我有一个强化漏洞:跨站点脚本:DOM。在我的应用程序(asp.net)中，我们动态构建 html 并将其分配给一个 div 标签，它在其中提示问题。 str += '
java - 强化 try-with-resource 的安全问题 "Unreleased resource stream"
强化安全运行不合规代码 public static A read(String path) throws IOException, ClassNotFoundException { try (
azure - 强化 Azure Web Apps 和 Azure SQL 数据库之间的安全性
出于安全考虑，我计划不允许 Azure 服务与 Azure 服务进行通信，而只允许与它正在使用的服务进行通信。例如，我有一些使用 Azure SQL 数据库的 Web 应用程序。我应该只在 Azur
azure - 强化 Azure Web Apps 和 Azure SQL 数据库之间的安全性
出于安全考虑，我计划不允许 Azure 服务与 Azure 服务进行通信，而只允许与它正在使用的服务进行通信。例如，我有一些使用 Azure SQL 数据库的 Web 应用程序。我应该只在 Azur
java - 强化 : vsprintf: prevented 33-byte write into 32-byte buffer
早上好，我在 Android 项目上使用 native 库，它只是包签名的简单 md5hash，但是我在具有 JNI 功能的 64 位设备上遇到问题: char *getSignatureMd5(JN
java - 使用 Office 2007/2010 打开 .xls 文件时收到扩展检查(强化)警报
我正在开发一个基于 struts 的 Web 应用程序。在该应用程序中，我们从 Jsp 生成并下载 xls 文件。在Jsp文件和web.xml中，我将内容类型设置为“application/vnd.m
javascript - 强化 JavaScript 劫持 : Vulnerable Framework aspx using Jquery Ajax
我正在处理遗留系统，我们只是用 HP Fortify 扫描了它并得到了JavaScript Hijacking: Vulnerable Framework，代码如下。我能做些什么来确保这一点？我并不完
c - 强化 : Path Manipulation in C - White List Implementation doesn't work - fopen issue
大家好，我有一个由 fopen 使用产生的强化问题“路径操作”。根据 fortify，我可以实现一个白名单来修复它，所以有我的白名单验证器: white_list.c #define BUFF_WHI
android - (强化)类别 : Android Bad Practices: Missing Google Play Services Updated Security Provider (1 Issues)
我们正在使用 Fortify 扫描我的 Android 源代码，但我无法解决这个问题: Category: Android Bad Practices: Missing Google Play Ser

首页

博学

6Ren·AI

商城

强化学习算法笔记之【DDPG算法】

强化学习笔记之【DDPG算法】

前言：

原论文伪代码

DDPG 中的四个网络

代码核心更新公式