- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
鉴于 OpenAI Gym 环境 MountainCar-v0总是返回 -1.0 作为奖励(即使目标实现了),我不明白 DQN 与经验回放如何收敛,但我知道它会收敛,因为我有 working code这证明了这一点。通过工作,我的意思是,当我训练智能体时,智能体很快(在 300-500 集内)学习如何解决山车问题。以下是我训练有素的代理的示例。
据我了解,最终需要找到一个“稀疏的奖励”。然而据我从 openAI Gym 看到的 code ,除了 -1 之外没有任何奖励。感觉更像是一个“没有奖励”的环境。
几乎回答了我的问题,但实际上没有:当任务快速完成时,该剧集的返回(奖励总和)更大。因此,如果汽车从未找到标志,则返回 -1000。如果汽车很快找到标志,返回值可能是 -200。这不能回答我的问题的原因是,使用 DQN 和经验重放时,这些返回值 (-1000, -200) 永远不会出现在经验重放内存中。所有内存都是(状态、 Action 、奖励、next_state)形式的元组,当然请记住,元组是从内存中随机提取的,而不是逐集提取。
这个特定 OpenAI Gym 环境的另一个元素是,在两种情况下都会返回“完成”状态:击中标志 (yay) 或在一定步数后超时 (boo)。然而,智能体对两者的对待是一样的,接受-1 的奖励。因此,就内存中的元组而言,从奖励的角度来看,这两个事件看起来是相同的。
所以,我在内存中没有看到任何表明该集表现良好的内容。
因此,我不知道为什么这个 DQN 代码适用于 MountainCar。
最佳答案
这样做的原因是因为在 Q-learning 中,你的模型试图估计每个可能 Action 的所有 future 奖励的 SUM(技术上是时间衰减总和)。在 MountainCar 中,你每一步都会获得 -1 的奖励,直到你获胜,所以如果你确实获胜,你最终获得的负奖励会比平时少。例如,获胜后的总分可能是 -160 而不是 -200,因此您的模型将开始预测历史上导致赢得比赛的行动的更高 Q 值。
关于machine-learning - DQN 如何在奖励始终为 -1 的环境中工作,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54371272/
我喜欢我正在设计的网站的徽章和成就的概念。它们已被证明可以提高使用率/利用率,我认为这可能是我想要开发的应用程序的一大动力。 在高层次上,我可以想到 3 种方法来做到这一点。 检查满足作为 cron
我正在用ARKit做一些实验,并试图在iPhone 5S中运行,只是想看看会发生什么: 我在Xcode 9.0 beta 6中收到此错误: “ARDemo”需要iPhone不支持的“ARKit”功能
我们在 OptaPlanner 的 XML 文件中为类(class)问题添加负软约束,例如 0 但是
不知何故,从一个应用程序发布到另一个,org.json 库的内部结构崩溃了。它无法再将键的内容作为字符串读取。下面是一个代码示例,该代码在启用 minify/R8/proguard 时可以正常工作并且
我们有一个场景,我们希望允许用户将图像上传到网站。我们在 ASP.Net 上运行。 快速搜索并没有找到任何好的结果。如果该控件是免费/开源的,那就太好了,但我们不介意支付一点费用。 最佳答案 我强烈推
我正在尝试使用 Electron 框架在 macOS 上创建通知。我已经从 GitHub 克隆了开源快速入门,我的 renderer.js 进程中的唯一代码如下: var myNoti
我想知道 Google Pay 如何在“您的奖励”页面的 GridView 中显示不同类型的卡片。我正在尝试开发像 Google Pay 这样的卡 最佳答案 有许多库可用于开发 Google Pay
我觉得是时候从Webforms升级到MVC了。我已经编写了Webforms和jquery很长时间了。 你们都可以建议您喜欢的资源来学习这项技术吗? 奖励:我对使用ViewModel(不一定是MVVM框
我是一名优秀的程序员,十分优秀!