- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
在 Q 学习中,从当前状态开始,智能体在每个离散时间步采取行动,并且在执行操作后,智能体会立即收到奖励以了解所执行操作的成功或失败。假设我们想要使用 Q 学习来控制车辆速度,其中 Action 是目标速度,智能体的目标是尽快到达 parking 线(距起点 1 公里)。
1) 所以在这个例子中,智能体是否需要在每个离散时间步长(1秒)采取行动,或者智能体可以在每 100m 而不是每个离散时间步长采取行动。是否必须在每个离散时间步采取行动?
2)Q-learning中的延迟奖励是什么意思?是在代理达到目标后更新奖励,而不是在每个时间步骤采取每个操作后更新奖励?预先感谢:)
最佳答案
1) does agent need to take action at every discrete time step (1sec) or agent can get an action at every 100m instead of every discrete time step. Is that a must to take action at every discrete time step?
我认为您可能将 Q-learning 中的时间步长概念与我们对时间的物理实现混淆了。在 Q 学习中,每个时间步都是轮到智能体采取行动/采取行动的时间。因此,如果游戏是国际象棋,那么每个时间步都是玩家下棋的时间。因此,你的智能体采取行动的频率是由游戏规则决定的。在你的例子中,我不太清楚“游戏”的规则是什么?如果规则规定代理每 1“秒”选择一个操作,那么代理将需要遵循该规则。如果您认为这种情况太频繁,您可以查看“无”是否是代理可以采取的操作选项。
what is mean by delayed reward in Q-learning? is that updating reward once agent reaches to the target instead of updating reward after taking each action at every time step?
要了解延迟奖励,也许可以看看 formula有助于。 正如您所看到的,时间步 t 处的 Q 值不仅受到旧 Q 值和即时奖励的影响,还受到“估计的最佳 future 值”的影响。这个估计的最佳值(带有待调整的超参数折扣因子)被设置为捕获“延迟奖励”。
延迟奖励背后的直觉是,有时一个 Action 在当时可能看起来是一个不好的 Action (从数学上讲,通过采取这个 Action ,代理会收到较低的即时奖励甚至惩罚),但不知何故,这个 Action 会导致长期效益。放在你的例子中,假设代理在位置 P,有两条路线可以到达 parking 线。一条路线直线距离为 1 公里,另一条路线有一点绕道,距离为 1.5 公里。代理选择 1.5 公里的路线,它可能会比选择 1 公里的路线获得更少的直接奖励。我们进一步假设 1.5 公里路线的速度限制比 1 公里路线更高,这实际上导致代理比走 1 公里路线更快地到达 parking 线。这个“ future 奖励”是计算时间步t(位置P的状态,采取1.5公里路线的 Action )的Q值时需要考虑的延迟奖励。
该公式实现起来可能有点困惑,因为它涉及 future 的 Q 值。我曾经这样做的方法是简单地计算时间步 t 的 Q 值,而不用担心延迟奖励。
# @ time step t
Q(st, at) = Q(st, at) + alpha * immedate_reward - alpha*Q(st, at)
然后在达到时间步 t+1 后,我返回以延迟奖励更新时间步 t 处的先前 Q 值。
# @ time step t+1
Q(st+1, at+1) = Q(st+1, at+1) + alpha * immedate_reward - alpha*Q(st+1, at+t)
Q(st, at) = Q(st, at) + alpha * gama * max(Q(st+1, a))
我希望这有助于澄清并回答您的问题......
关于machine-learning - Q-learning更新频率,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40121969/
我查看了网站上的一些问题,但还没有完全弄清楚我做错了什么。我有一些这样的代码: var mongoose = require('mongoose'), db = mongoose.connect('m
基本上,根据 this bl.ocks,我试图在开始新序列之前让所有 block 都变为 0。我认为我需要的是以下顺序: 更新为0 退出到0 更新随机数 输入新号码 我尝试通过添加以下代码块来遵循上述
我试图通过使用随机数在循环中设置 JSlider 位置来模拟“赛马”的投注结果。我的问题是,当然,我无法在线程执行时更新 GUI,因此我的 JSlider 似乎没有在竞赛,它们从头到尾都在运行。我尝试
该功能非常简单: 变量:$table是正在更新的表$fields 是表中的字段,$values 从帖子生成并放入 $values 数组中而$where是表的索引字段的id值$indxfldnm 是索引
让我们想象一个环境:有一个数据库客户端和一个数据库服务器。数据库客户端可以是 Java 程序或其他程序等;数据库服务器可以是mysql、oracle等。 需求是在数据库服务器上的一个表中插入大量记录。
在我当前的应用程序中,我正在制作一个菜单结构,它可以递归地创建自己的子菜单。然而,由于这个原因,我发现很难也允许某种重新排序方法。大多数应用程序可能只是通过“排序”列进行排序,但是在这种情况下,尽管这
Provisioning Profile 有 key , key 链依赖于它。我想知道 key 什么时候会改变。 Key will change after renew Provisioning Pr
截至目前,我在\server\publications.js 中有我的 MongoDB“选择”,例如: Meteor.publish("jobLocations", function () { r
我读到 UI 应该始终在主线程上更新。但是,当谈到实现这些更新的首选方法时,我有点困惑。 我有各种函数可以执行一些条件检查,然后使用结果来确定如何更新 UI。我的问题是整个函数应该在主线程上运行吗?应
我在代理后面,我无法构建 Docker 镜像。 我试过 FROM ubuntu , FROM centos和 FROM alpine ,但是 apt-get update/yum update/apk
我构建了一个 Java 应用程序,它向外部授权客户端公开网络服务。 Web 服务使用带有证书身份验证的 WS-security。基本上我们充当自定义证书颁发机构 - 我们在我们的服务器上维护一个 ja
因此,我有时会在上传新版本时使用 app_offline.htm 使应用程序离线。 但是,当我上传较大的 dll 时,我收到黄色错误屏幕,指出无法加载 dll。 这似乎与我对 app_offline.
我刚刚下载了 VS Apache Cordova Tools Update 5,但遇到了 Node 和 NPM 的问题。我使用默认的空白 cordova 项目进行测试。 版本 如果我在 VS 项目中对
所以我有一个使用传单库实例化的 map 对象。 map 实例在单独的模板中创建并以这种方式路由:- var app = angular.module('myApp', ['ui', 'ngResour
我使用较早的 Java 6 u 3 获得的帧速率是新版本的两倍。很奇怪。谁能解释一下? 在 Core 2 Duo 1.83ghz 上,集成视频(仅使用一个内核)- 1500(较旧的 java)与 70
我正在使用 angular 1.2 ng-repeat 创建的 div 也包含 ng-click 点击时 ng-click 更新 $scope $scope 中的变化反射(reflect)在使用 $a
这些方法有什么区别 public final void moveCamera(CameraUpdate更新)和public final void animateCamera (CameraUpdate
我尝试了另一篇文章中某人评论中关于如何将树更改为列表的建议。但是,我在某处(或某物)有未声明的变量,所以我列表中的值是 [_G667, _G673, _G679],而不是 [5, 2, 6],这是正确
实现以下场景的最佳方法是什么? 我需要从java应用程序调用/查询包含数百万条记录的数据库表。然后,对于表中的每条记录,我的应用程序应该调用第三方 API 并获取状态字段作为响应。然后我的应用程序应该
只是在编写一些与 java 图形相关的代码,这是我今天的讲座中的非常简单的示例。不管怎样,互联网似乎说更新不会被系统触发器调用,例如调整框架大小等。在这个例子中,更新是由这样的触发器调用的(因此当我只
我是一名优秀的程序员,十分优秀!