gpt4 book ai didi

artificial-intelligence - 神经网络和时间差分学习

转载 作者:行者123 更新时间:2023-12-03 14:05:20 27 4
gpt4 key购买 nike

我读过几篇关于时间差异学习的论文和讲座(一些与神经网络有关,例如关于 TD-Gammon 的 Sutton 教程),但我很难理解方程,这让我提出了我的问题。

- 预测值 V_t 来自哪里?随后,我们如何得到 V_(t+1)?

- 当 TD 与神经网络一起使用时,反向传播究竟是什么?也就是说,在使用 TD 时,反向传播的错误来自哪里?

最佳答案

向后和向前的 View 可能会令人困惑,但是当您处理诸如游戏程序之类的简单事情时,实际上实际上非常简单。我不是在看你使用的引用资料,所以让我提供一个总体概述。

假设我有一个类似神经网络的函数逼近器,它有两个函数,trainpredict用于训练特定输出并预测状态的结果。 (或在给定状态下采取行动的结果。)

假设我从玩游戏中得到了一丝玩意,在那里我使用了 predict方法告诉我在每个点采取什么行动,并假设我在游戏结束时输了(V = 0)。假设我的状态是 s_1、s_2、s_3...s_n。

蒙特卡罗方法说我使用轨迹和最终分数在轨迹中的每个状态上训练我的函数逼近器(例如我的神经网络)。因此,鉴于此跟踪,您将执行类似调用的操作:
train(s_n, 0)train(s_n-1, 0) ...train(s_1, 0) .

也就是说,我要求每个州预测跟踪的最终结果。

动态规划方法说我根据下一个状态的结果进行训练。所以我的训练会是这样的
train(s_n, 0)train(s_n-1, test(s_n)) ...train(s_1, test(s_2)) .

也就是说,我要求函数逼近器预测下一个状态预测什么,最后一个状态预测跟踪的最终结果。

TD 学习混合了这两者,其中 λ=1对应于第一种情况(蒙特卡罗)和 λ=0对应于第二种情况(动态规划)。假设我们使用 λ=0.5 .那么我们的训练将是:
train(s_n, 0)train(s_n-1, 0.5*0 + 0.5*test(s_n))train(s_n-2, 0.25*0 + 0.25*test(s_n) + 0.5*test(s_n-1)+) ...

现在,我在这里写的内容并不完全正确,因为您实际上并没有在每一步都重新测试逼近器。相反,您只需从预测值(在我们的示例中为 V = 0)开始,然后更新它以使用下一个预测值训练下一步。 V = λ·V + (1-λ)·test(s_i) .

这比蒙特卡罗和动态规划方法学得快得多,因为您没有要求算法学习这样的极端值。 (忽略当前预测或忽略最终结果。)

关于artificial-intelligence - 神经网络和时间差分学习,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23235181/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com