- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我读过几篇关于时间差异学习的论文和讲座(一些与神经网络有关,例如关于 TD-Gammon 的 Sutton 教程),但我很难理解方程,这让我提出了我的问题。
- 预测值 V_t 来自哪里?随后,我们如何得到 V_(t+1)?
- 当 TD 与神经网络一起使用时,反向传播究竟是什么?也就是说,在使用 TD 时,反向传播的错误来自哪里?
最佳答案
向后和向前的 View 可能会令人困惑,但是当您处理诸如游戏程序之类的简单事情时,实际上实际上非常简单。我不是在看你使用的引用资料,所以让我提供一个总体概述。
假设我有一个类似神经网络的函数逼近器,它有两个函数,train
和 predict
用于训练特定输出并预测状态的结果。 (或在给定状态下采取行动的结果。)
假设我从玩游戏中得到了一丝玩意,在那里我使用了 predict
方法告诉我在每个点采取什么行动,并假设我在游戏结束时输了(V = 0)。假设我的状态是 s_1、s_2、s_3...s_n。
蒙特卡罗方法说我使用轨迹和最终分数在轨迹中的每个状态上训练我的函数逼近器(例如我的神经网络)。因此,鉴于此跟踪,您将执行类似调用的操作:train(s_n, 0)
train(s_n-1, 0)
...train(s_1, 0)
.
也就是说,我要求每个州预测跟踪的最终结果。
动态规划方法说我根据下一个状态的结果进行训练。所以我的训练会是这样的train(s_n, 0)
train(s_n-1, test(s_n))
...train(s_1, test(s_2))
.
也就是说,我要求函数逼近器预测下一个状态预测什么,最后一个状态预测跟踪的最终结果。
TD 学习混合了这两者,其中 λ=1
对应于第一种情况(蒙特卡罗)和 λ=0
对应于第二种情况(动态规划)。假设我们使用 λ=0.5
.那么我们的训练将是:train(s_n, 0)
train(s_n-1, 0.5*0 + 0.5*test(s_n))
train(s_n-2, 0.25*0 + 0.25*test(s_n) + 0.5*test(s_n-1)+)
...
现在,我在这里写的内容并不完全正确,因为您实际上并没有在每一步都重新测试逼近器。相反,您只需从预测值(在我们的示例中为 V = 0
)开始,然后更新它以使用下一个预测值训练下一步。 V = λ·V + (1-λ)·test(s_i)
.
这比蒙特卡罗和动态规划方法学得快得多,因为您没有要求算法学习这样的极端值。 (忽略当前预测或忽略最终结果。)
关于artificial-intelligence - 神经网络和时间差分学习,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23235181/
我对 EPOCH 时间有疑问。 我需要计算两个数据包之间的时间差。我不太确定如何: printf("Epoch Time: %d:%d seconds\n", header->ts.tv_sec, h
我正在尝试了解数字旋转的速度。我有一个程序,其中计数器从 0 开始。 每次用户单击按钮“加 1”。它将计数器递增 1。 计数器最大值为 255。在 255 之后它回到 0。 现在我想显示从 0 到递增
基本上我想做的是根据 SIP 信令获取通话持续时间。 我有一个包含如下所示记录的表,我正在尝试编写一个返回以下内容的 SELECT 语句: id callid date
您好,我需要有关 MySQL 数据库查询的帮助。 我有一个看起来像这样的表: ID TRACKID DATE Name Action 38
细节。我有包含以下列的注释表。 ID - INT(3) Date - DateTime Note - VARCHAR(100) Tile - Varchar(100
午夜过后我很难计算时间: String time = "15:00-18:05"; //Calculating OK //String time = "22:00-01:05"; //Not
我使用 XML 从 MySQL 数据库中抓取了两个日期,如下所示。我想获得以秒为单位的时差。 我写了这个脚本,但它给出了“NaN” function show(){ var t1 = new Dat
如何在 MYSQL phpMyAdmin 数据库中以 (TIME 00:00:00) 格式更新另一个字段(整列)的时间差 当我在 PHP 中执行此操作时,我不断收到 0:00:00 并且没有结果。其
我的表单中有两个字段,用户可以在其中选择输入时间(开始时间、结束时间),我想在更改这些字段时重新计算另一个字段的值。 我想做的是获取 2 次之间的小时数。因此,例如,如果我的开始时间为 5:30,结束
我想使用 Date 和 Calendar 类计算 java 中两个日期/时间之间的差异。我的格式是“2012-01-24 12:30:00 PM”。 我已经实现了我自己的方法,也用谷歌搜索它以与其他人
MySQL 服务器上的访客数据库如下所示id 是主键整数类型,firstname 和 lastname 是文本类型,访客 id 是整数类型 id firstname lastname
我是一名优秀的程序员,十分优秀!