artificial-intelligence - Delphi/Pascal 中的 TD(λ)(时间差分学习)-6ren

artificial-intelligence - Delphi/Pascal 中的 TD(λ)(时间差分学习)

转载作者：行者123 更新时间：2023-12-01 04:13:32

25

4

我有一个可以玩 Tic-Tac-Toe 的人工神经网络 - 但它还没有完成。

我还没有:

奖励数组“R[t]”，每个时间步长或移动“t”的整数值(1=玩家 A 获胜，0=平局，-1=玩家 B 获胜)

输入值通过网络正确传播。

调整权重的公式:

缺少什么:

TD 学习:我仍然需要一个使用 TD(λ) 算法“反向传播”网络错误的过程。

但我真的不明白这个算法。

到目前为止我的方法...

轨迹衰减参数 λ 应为“0.1”，因为远端状态不应获得那么多奖励。

两层(输入层和隐藏层)的学习率都是“0.5”。

这是一个延迟奖励的情况:奖励保持“0”直到游戏结束。然后，第一个玩家获胜时奖励变为“1”，第二个玩家获胜时奖励变为“-1”，平局时奖励变为“0”。

我的问题:

您如何以及何时计算网络误差(TD 误差)？

如何实现错误的“反向传播”？

如何使用 TD(λ) 调整权重？

非常感谢您提前:)

最佳答案

如果您认真对待这项工作，那么了解 TD-lambda 将非常有帮助。 Sutton 和 Barto 的书“强化学习”是 available for free in HTML format并详细介绍了该算法。基本上，TD-lambda 所做的是在游戏状态和游戏结束时的预期奖励之间创建映射。随着游戏的进行，更有可能导致获胜状态的状态往往会获得更高的预期奖励值。

对于像井字棋这样的简单游戏，最好从表格映射开始(只需跟踪每个可能游戏状态的预期奖励值)。然后，一旦您开始工作，您就可以尝试使用 NN 进行映射。但我建议先尝试一个单独的、更简单的 NN 项目......

关于artificial-intelligence - Delphi/Pascal 中的 TD(λ)(时间差分学习)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4845489/

25

4

0

文章推荐： java - 如何在 WeldListener 中捕获 isHexDigit 异常？

文章推荐： python - 根据分隔符的多次出现分割文件

文章推荐： python - Theano 中归约操作的加速

delphi - 如何从另一个 Delphi 应用程序触发 Delphi 应用程序中的事件？
请在标记为重复之前阅读。我正在创建一组依赖智能卡进行身份验证的应用程序。到目前为止，每个应用程序都单独控制智能卡读卡器。几周后，我的一些客户将同时使用多个应用程序。因此，我认为创建一个控制身份验证过
delphi - 从另一个 Delphi 程序调用 Delphi 方法
我想设置一个小程序，从数据库中检索信息，然后根据请求将该信息分发给另一个程序。例如，一个名为“Master”的程序将从数据库中检索数据并创建一个对象集合(列表、数组等，无论哪种效果最好)，然后一个名为
delphi - 如何迁移 Delphi 或克隆 Delphi 注册表设置？
我有两台电脑，都装有 XE2。我以为我在两者上安装了相同的安装，但在其中一个上安装第 3 方软件包时遇到问题，而另一个则正常。无论如何，我希望两者都一样。最简单的人可能只是通过移入我的 Dropbo
delphi - Delphi 2009 可以与 Delphi 2006 或 Delphi 2007 安装在同一台计算机上吗？
有冲突吗？最佳答案所有新版本的 Delphi 始终可以安全地安装到旧版本的下一个版本。每个新版本都应安装在其自己的目录中。如果您要安装多个版本，请始终先安装最旧的版本，然后再安装最新版本。我
delphi - Delphi 中的注释会减慢执行时间吗？
快速提问:如果我从代码中删除 // 或 (* *) 中的注释，Delphi 2007 的执行时间会受到影响吗？最终结果是一个可能包含数千行注释的 EXE 文件。最佳答案编译器会简单地忽略注释，并且
delphi - Delphi-针对另一个文件检查文件的每一行
我必须对照另一个文件检查文件的每一行。如果第二个文件中存在第一个文件中的一行，则必须删除它。现在，我正在使用2个列表框，并且“对于listbox1.items.count-1可以开始...” 我的
delphi - Adoquery1缺少SQL属性-Delphi
我正在尝试在访问数据库中添加一些数据。但是我有麻烦，因为这会返回错误： ADOQuery1 missing sql property 实现了对代码的几次修改，到目前为止没有任何效果。我究竟做错了什么
delphi - Delphi 5在64位上出现内存错误
我用Delphi 5编写了一个程序，在Windows 8 32位PC上可以正常运行。我发现在Windows 7 64位笔记本电脑上运行它最终会导致reallocmem错误，而该错误在32位PC上不会发
delphi - Delphi XE2面板中的XMLTransformProvider组件在哪里？
看来这是我需要的工具，用于提取XML并与TClientDataset连接。我已经在几篇文章和文档中看到了它，但是我无法在XE2组件列表中找到它-在任何地方！应该在哪里？是否在可能未安装的可选软件包中？
delphi - Delphi DBTree组件
我正在寻找一个非常通用的TDBTree组件，我想听听一些建议。我正在特别寻找一种显示主记录和“ n”个链接表记录的记录。（我的意思是来自各个表的记录）。例如，TDBTree将钩接到主表，明细表1，附
delphi - Delphi 7中多边形形式的按钮
我需要将按钮制作成旋转三角形的形状（或者说是任何多边形）。谁能提供任何建议？最佳答案查看Win32 API CreatePolygonRgn()和SetWindowRgn()函数，以创建一个HRG
delphi - delphi JvPasswordForm1
你好专家我的JvPasswordForm1有一个旧的JVC组件。似乎该组件不再存在：它替换为哪个组件？重新获得最佳答案尝试查找TJvLoginDialog，TjvPassword已合并到其中
delphi - Delphi-已安装的组件丢失
几天前，我已经设置了我的开发环境（在装有Win 7的VM和域上的用户的VM上安装了delphi 2009），并安装了我的组件（jedi's，devExpress，ADS等）。今天，我启动机器，打开d
delphi - Delphi:适当的时间来继承和还原控件吗？
开始对控件进行子分类的正确位置/时间是什么？恢复原始窗口proc的正确时间是几点？现在我在表单创建过程中子类化： procedure TForm1.FormCreate(Sender: TObje
delphi - Delphi-如何监控网络
有人可以给我一些有关如何登录访问的网页（使用任何网络浏览器）的指示吗？我应该建立一个全球代理....钩住网络....吗？我需要记录的只是页面地址，而不是其中包含的信息。我正在使用Delphi。谢谢
delphi - Delphi:泛型和TObjectList
我创建了一个像 TMyClass = class(TObject) private FList1: TObjectList; FList2: TObjectList; public end;
delphi - Delphi 7提示找不到文件
我有一个BPG文件，我已对其进行修改以用作我们公司的自动构建服务器的make文件。为了使其正常工作，我必须进行更改用途*用途 'unit1.pas'中的unit1 * unit1 'unit2.pa
delphi - Delphi XE4中的EDOMParseError
我将Delphi 7代码迁移到了Delphi XE4。我在Delphi XE4的LoadFromStram方法中遇到错误，但对于Delphi 7来说也可以正常工作。错误： First chance
delphi - delphi 如何在类中定义类？
我正在尝试学习一些新技巧，以便更好地组织我在 Delphi 中的单元中的一些源代码。我注意到我访问的一些函数或方法似乎是类中的类，但是我还没有成功地在类中创建一个工作类，虽然它编译得很好，但在执行代
delphi - Delphi:是否有一个重构工具可以将一个单元中的类及其依赖项提取到一个新单元中？
我有一个包含许多类的大单元，现在我想通过将某些类分成新的单元来重构该单元。我不得不承认我缺乏使用Delphi内置IDE功能的经验。利用内置功能“查找|查找对类型的本地引用”并没有多大帮助，因为类方法

首页

博学

6Ren·AI

商城

artificial-intelligence - Delphi/Pascal 中的 TD(λ)(时间差分学习)