python - Keras 中的策略梯度

转载作者：IT老高更新时间：2023-10-28 21:14:02

26

4

我一直在尝试使用“深度 Q 学习”构建一个模型，其中我有大量 Action (2908)。在使用标准 DQN 取得了一些有限的成功之后:(https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf)，我决定做更多的研究，因为我认为 Action 空间太大而无法进行有效的探索。

然后我发现了这篇论文:https://arxiv.org/pdf/1512.07679.pdf他们使用 Actor -评论家模型和策略梯度，然后导致我:https://arxiv.org/pdf/1602.01783.pdf他们使用策略梯度来获得比整体 DQN 更好的结果。

我发现一些网站在 Keras 中实现了策略梯度，https://yanpanlau.github.io/2016/10/11/Torcs-Keras.html和 https://oshearesearch.com/index.php/2016/06/14/kerlym-a-deep-reinforcement-learning-toolbox-in-keras/但是我很困惑它们是如何实现的。在前者中(当我阅读论文时)，似乎不是为参与者网络提供输入和输出对，而是为所有权重提供梯度，然后使用网络对其进行更新，而在后者中他们只是计算一个输入-输出对。

我是不是把自己弄糊涂了？我只是应该通过提供输入输出对并使用标准的“拟合”来训练网络，还是我必须做一些特别的事情？如果是后者，我该如何使用 Theano 后端呢？ (以上示例使用 TensorFlow)。

最佳答案

TL;DR

了解如何使用 Keras.backend 实现自定义损失函数和渐变。您将需要它来实现更高级的算法，一旦掌握了它，它实际上会容易得多
使用 keras.backend 的一个 CartPole 示例可以是 https://gist.github.com/kkweon/c8d1caabaf7b43317bc8825c226045d2 (虽然它的后端使用了 Tensorflow，但如果不一样，应该非常相似)

问题

播放时，

代理需要一个策略，该策略基本上是将状态映射到策略的函数，该策略是每个 Action 的概率。因此，代理将根据其策略选择一个 Action 。

即策略 = f(state)

训练时，

Policy Gradient 没有损失函数。相反，它试图最大化奖励的预期返回。而且，我们需要计算 log(action_prob) * 优势的梯度

优势是奖励的函数。
- 优势 = f(奖励)
action_prob 是 states 和 action_taken 的函数。例如，我们需要知道我们采取了哪些行动，以便我们可以更新参数以增加/减少我们采取行动的概率。
- action_prob = sum(policy * action_onehot) = f(states, action_taken)

我假设是这样的

政策 = [0.1, 0.9]
action_onehot = action_taken = [0, 1]
那么 action_prob = sum(policy * action_onehot) = 0.9

总结

我们需要两个函数

更新函数:f(state, action_taken, reward)
选择 Action 函数:f(state)

你已经知道它不像典型的分类问题那样容易实现，你可以只用 model.compile(...) -> model.fit(X, y)

然而，

为了充分利用 Keras，您应该熟悉定义自定义损失函数和梯度。这与前一篇的作者所采用的方法基本相同。
您应该阅读更多有关 Keras 功能 API 和 keras.backend 的文档

另外，策略梯度有很多种。

前一种称为 DDPG，实际上与常规策略梯度有很大不同
我看到的后一个是传统的 REINFORCE 策略梯度 (pg.py)，它基于 Kapathy 的策略梯度示例。但它非常简单，例如它只假设一个 Action 。这就是为什么它可以使用 model.fit(...) 以某种方式实现。

引用文献

Schulman，“策略梯度方法”，http://rll.berkeley.edu/deeprlcourse/docs/lec2.pdf

关于python - Keras 中的策略梯度，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40438500/

26

4

0

文章推荐： python - 通过参数传递异步循环或使用默认异步循环

文章推荐： java - 字符串和最终

文章推荐： python - 如何在 python joblib 中写入共享变量

三种缓存策略：Cache Aside 策略、Read/Write Through 策略、Write Back 策略
作者：小林coding 计算机八股文网站：https://xiaolincoding.com 大家好，我是小林。今天跟大家聊聊，常见的缓存更新策略。 Cache Aside（旁路缓存）策略； Rea
git - Mercurial merge 策略 vs Git merge 策略
我使用 git 多年，最近为了一个项目改用 mercurial。在过去的 6 个月里，我已经学会了如何通过命令行很好地使用 Mercurial。这可能是我的想象，但在我看来，mercurial 在
oauth-2.0 - Passport & JWT & Google/Facebook 策略 - 我如何结合 JWT 和 Google/Facebook 策略？
这个问题适合任何熟悉的人 Node.js express Passport 带有 Passport 的 JWT 身份验证(JSON Web token ) Facebook OAuth2.0 或谷歌
记录平等的 Coq 策略？
在 Coq 中，当试图证明记录的相等性时，是否有一种策略可以将其分解为所有字段的相等性？例如， Record R := {x:nat;y:nat}. Variables a b c d : nat.
javascript Bootstrap 策略
我正在处理的项目目前只有一个 Bootstrap 文件，用于初始化应用程序中的所有 javascript 对象。类似于下面的代码 if(document.getElementById('nav'))
ubuntu - OpenLDAP 策略
我正在考虑使用 OpenLDAP 在首次登录时添加密码到期和强制更改密码。似乎使用 ppolicy 覆盖来实现这一点。当我在 ppolicy.schema 中看到这个时，我开始使用 ppolicy
避免显卡敏感性的 WPF 策略？
这基本上是我昨天问的一个问题的重新陈述，因为我得到的一个答案似乎没有理解我的问题，所以我一定是不清楚。我的错。因为 WPF 依赖于 DirectX，所以它对卡和驱动程序的内部非常敏感。我有一个案例，
SAML NameId 策略
我是单点登录(SSO)概念的新手。我开始知道 SAML 请求和响应是实现 SSO 流程的最佳方式。然后我开始阅读有关 SAML2.0 的信息。我来了一个术语 NameIdPolicy 在 saml1.
新雪豹用户的 Perl 策略？
关闭。这个问题需要更多 focused .它目前不接受答案。想改进这个问题？更新问题，使其仅关注一个问题 editing this post . 5年前关闭。 Improve this questi
.NET 混淆工具/策略
关闭。这个问题是opinion-based 。目前不接受答案。想要改进这个问题吗？更新问题，以便 editing this post 可以用事实和引文来回答它。 . 已关闭 9 年前。 Improv
用于限制数据库扩展的 Azure 策略
在 Azure 上创建新的 SQL 数据库时，它将“计算+存储”选项设置为“2 vCore + 32GB 数据最大大小”作为默认配置，但我不想使用 vCore，我可以更改它。但问题是，是否可以通过策略
Azure 策略 - 防止在未经身份验证的情况下创建应用程序服务
我希望创建一项策略，防止在未启用身份验证的情况下创建应用服务(仅审核它们是不够的)。以下策略可以正确识别未启用身份验证的现有资源: { "mode": "All", "policyRule"
Azure 策略创建一个deployifnotexists 策略
我正在尝试从现有 AuditIfNotExists 策略创建 DeployIfNotExists 策略。部署时不会出错，但会错误提示“没有相关资源与策略定义中的效果详细信息匹配”。当评估政策时。当我将
Azure 策略创建一个deployifnotexists 策略
我正在尝试从现有 AuditIfNotExists 策略创建 DeployIfNotExists 策略。部署时不会出错，但会错误提示“没有相关资源与策略定义中的效果详细信息匹配”。当评估政策时。当我将
Django json 策略？
我正在使用 wunderground 的 json api 来查询我网站上的天气状况。 api 为我提供了一个包含所有必要数据的漂亮 json 对象，但我每天只能进行多次调用。存储这些数据的首选方式是
Java OOP 策略
我有一个名为可视化数据结构的项目。我有这样的 OOP 设计。 Class VisualDataStructures extends JFrame Class ControlPanel extends
javascript "include"策略
这个问题在这里已经有了答案: 关闭 14 年前。副本: Use javascript to inject script references as needed? Javascript 没有任何指
Android StrictMode 策略
Android 应用程序遇到了一些 ANR 问题，因此我实现了 StrictMode 策略。以前从未使用过这个，所以希望有人可以帮助解释以下内容: 为什么日志显示 2 个看似相似的违规行为，除了前 4
algorithm - 寻找酒店谜语的算法/策略
我目前正在尝试解决一个问题。假设我们在路上行驶，我们知道路上有 10 家酒店。每家酒店都有 0 到 6 星。我的问题是:找到选择星级酒店的最佳解决方案。唯一的问题是:您不能回头去参观您已经决定不去的酒
安卓 MVP 策略
我正在将我的应用程序迁移到 MVP。从这个 konmik 中获得了有关静态演示者模式的提示这是我的简要 MVP 策略。为简洁起见，删除了大部分样板和 MVP 监听器。这个策略帮助我改变了方向，证明了

首页

博学

6Ren·AI

商城

python - Keras 中的策略梯度

TL;DR

问题

播放时，

训练时，

总结

引用文献