artificial-intelligence - 神经网络和时间差分学习-6ren

artificial-intelligence - 神经网络和时间差分学习

转载作者：行者123 更新时间：2023-12-03 14:05:20

27

4

我读过几篇关于时间差异学习的论文和讲座(一些与神经网络有关，例如关于 TD-Gammon 的 Sutton 教程)，但我很难理解方程，这让我提出了我的问题。

- 预测值 V_t 来自哪里？随后，我们如何得到 V_(t+1)？

- 当 TD 与神经网络一起使用时，反向传播究竟是什么？也就是说，在使用 TD 时，反向传播的错误来自哪里？

最佳答案

向后和向前的 View 可能会令人困惑，但是当您处理诸如游戏程序之类的简单事情时，实际上实际上非常简单。我不是在看你使用的引用资料，所以让我提供一个总体概述。

假设我有一个类似神经网络的函数逼近器，它有两个函数，train和 predict用于训练特定输出并预测状态的结果。 (或在给定状态下采取行动的结果。)

假设我从玩游戏中得到了一丝玩意，在那里我使用了 predict方法告诉我在每个点采取什么行动，并假设我在游戏结束时输了(V = 0)。假设我的状态是 s_1、s_2、s_3...s_n。

蒙特卡罗方法说我使用轨迹和最终分数在轨迹中的每个状态上训练我的函数逼近器(例如我的神经网络)。因此，鉴于此跟踪，您将执行类似调用的操作:
train(s_n, 0)train(s_n-1, 0) ...train(s_1, 0) .

也就是说，我要求每个州预测跟踪的最终结果。

动态规划方法说我根据下一个状态的结果进行训练。所以我的训练会是这样的
train(s_n, 0)train(s_n-1, test(s_n)) ...train(s_1, test(s_2)) .

也就是说，我要求函数逼近器预测下一个状态预测什么，最后一个状态预测跟踪的最终结果。

TD 学习混合了这两者，其中 λ=1对应于第一种情况(蒙特卡罗)和 λ=0对应于第二种情况(动态规划)。假设我们使用 λ=0.5 .那么我们的训练将是:
train(s_n, 0)train(s_n-1, 0.5*0 + 0.5*test(s_n))train(s_n-2, 0.25*0 + 0.25*test(s_n) + 0.5*test(s_n-1)+) ...

现在，我在这里写的内容并不完全正确，因为您实际上并没有在每一步都重新测试逼近器。相反，您只需从预测值(在我们的示例中为 V = 0)开始，然后更新它以使用下一个预测值训练下一步。 V = λ·V + (1-λ)·test(s_i) .

这比蒙特卡罗和动态规划方法学得快得多，因为您没有要求算法学习这样的极端值。 (忽略当前预测或忽略最终结果。)

关于artificial-intelligence - 神经网络和时间差分学习，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23235181/

27

4

0

文章推荐： geometry - 如何计算边界多边形？

文章推荐： asp.net-mvc - 不区分大小写的模型绑定(bind) MVC 4

文章推荐： traffic - 删除特定界面上的 tc 配置

文章推荐： string - 模式之间的 Lua string.gsub 文本

c - 时间差(以微秒为单位)
我对 EPOCH 时间有疑问。我需要计算两个数据包之间的时间差。我不太确定如何: printf("Epoch Time: %d:%d seconds\n", header->ts.tv_sec, h
两个值之间的 C++ 时间差
我正在尝试了解数字旋转的速度。我有一个程序，其中计数器从 0 开始。每次用户单击按钮“加 1”。它将计数器递增 1。计数器最大值为 255。在 255 之后它回到 0。现在我想显示从 0 到递增
表中所选记录的一列上的 MySQL 时间差
基本上我想做的是根据 SIP 信令获取通话持续时间。我有一个包含如下所示记录的表，我正在尝试编写一个返回以下内容的 SELECT 语句: id callid date
匹配条件的行之间的 MySQL 时间差
您好，我需要有关 MySQL 数据库查询的帮助。我有一个看起来像这样的表: ID TRACKID DATE Name Action 38
datetime - 我需要计算一个日期时间列之间的日期/时间差
细节。我有包含以下列的注释表。 ID - INT(3) Date - DateTime Note - VARCHAR(100) Tile - Varchar(100
java - 时间差 - 从午夜之前到午夜之后，无日期
午夜过后我很难计算时间: String time = "15:00-18:05"; //Calculating OK //String time = "22:00-01:05"; //Not
javascript - 如何使用给定的日期/时间在javascript中获取日期/时间差
我使用 XML 从 MySQL 数据库中抓取了两个日期，如下所示。我想获得以秒为单位的时差。我写了这个脚本，但它给出了“NaN” function show(){ var t1 = new Dat
php - MYSQL PHP 时间差
如何在 MYSQL phpMyAdmin 数据库中以 (TIME 00:00:00) 格式更新另一个字段(整列)的时间差当我在 PHP 中执行此操作时，我不断收到 0:00:00 并且没有结果。其
javascript - 来自两个字段的 Jquery 时间差(以小时为单位)
我的表单中有两个字段，用户可以在其中选择输入时间(开始时间、结束时间)，我想在更改这些字段时重新计算另一个字段的值。我想做的是获取 2 次之间的小时数。因此，例如，如果我的开始时间为 5:30，结束
java - 考虑 AM/PM 计算 Java 中的日期/时间差
我想使用 Date 和 Calendar 类计算 java 中两个日期/时间之间的差异。我的格式是“2012-01-24 12:30:00 PM”。我已经实现了我自己的方法，也用谷歌搜索它以与其他人
mysql - 从具有时间戳和访客 ID 的 SQL 表生成访客 InTime 访客 OutTime 和访问持续时间(时间差)的 SQL 查询
MySQL 服务器上的访客数据库如下所示id 是主键整数类型，firstname 和 lastname 是文本类型，访客 id 是整数类型 id firstname lastname

首页

博学

6Ren·AI

商城

artificial-intelligence - 神经网络和时间差分学习