algorithm - 资格跟踪算法，更新顺序-6ren

algorithm - 资格跟踪算法，更新顺序

转载作者：塔克拉玛干更新时间：2023-11-03 04:27:55

27

4

我正在阅读 Silver et al (2012) "Temporal-Difference Search in Computer Go" ，并试图了解资格跟踪算法的更新顺序。在论文的算法 1 和算法 2 中，权重在更新资格轨迹之前被更新。我想知道这个顺序是否正确(算法 1 中的第 11 和 12 行，以及算法 2 中的第 12 和 13 行)。考虑 lambda=0 的极端情况，参数不会用初始状态- Action 对更新(因为 e 仍然是 0)。所以我怀疑顺序可能应该相反。

有人能澄清一下吗？

我发现这篇论文对学习强化学习领域很有指导意义，所以想详细了解这篇论文。

如果有更合适的平台可以问这个问题，也请告诉我。

最佳答案

在我看来你是对的，e 应该在 theta 之前更新。根据论文中的数学计算，这也是应该发生的情况。例如，请参见等式 (7) 和 (8)，其中 e_t 首先使用 phi(s_t) 计算，然后才为 theta 使用 delta V_t 更新(在控制情况下为 delta Q)。

请注意，您所写的关于 lambda=0 的极端情况并不完全正确。初始状态- Action 对仍将参与更新(不是在第一次迭代中，但它们将在第二次迭代期间合并到 e 中)。然而，在我看来，第一个奖励 r 永远不会在任何更新中使用(因为它只出现在第一次迭代中，其中 e 仍然是 0)。由于这篇论文是关于 Go 的，所以我想这无关紧要；除非他们在做一些非常规的事情，否则他们可能只对终端游戏状态使用非零奖励。

关于algorithm - 资格跟踪算法，更新顺序，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52808170/

27

4

0

文章推荐： java - Comparable 接口(interface)前无接口(interface)词

文章推荐： java - 逐行在属性文件中添加注释

文章推荐： java - 在静态方法中定义内部类的目的是什么？

文章推荐：对话框中的java垃圾收集

django - 我将如何安全地处理付费成员(member)资格？
我正在为客户构建一个简单的 Django 应用程序，它允许用户注册付费帐户以访问网站的某些部分；但是，除了几个简单的 Paypal 按钮之外，我从未处理过付款处理。我的问题是，在这种情况下我该如何安
c - 危险的指针转换导致失去 const 资格
根据 ISO C 标准 (6.3.16.1)，如果“两个操作数都是指向兼容类型的合格或非合格版本的指针，并且左边指向的类型具有所有右边指向的类型的限定符”。我在我的静态分析工具中收到了警告，但我不确定
Paypal 订阅按钮升级成员(member)资格
我用 paypal 创建了 2 个订阅按钮。此按钮适用于不同的成员(member)资格:1. 基本 2. 专业。我正在尝试使用此按钮订阅成员(member)资格并且工作没有任何问题。但是当我试图通过其
Asp.net 成员(member)资格
如果我想做一个管理功能，比如删除 asp.net mvc 示例附带的 asp.net 成员(member)资格内容中的用户。我尝试查看表格，发现有多个表格添加了行。我想一定有一个更简单的方法。最佳
Asp.NET 论坛和博客共享成员(member)资格
我希望在新网站上创建博客和论坛。我希望用户注册后可以在论坛上发帖，在博客上发表评论，并拥有自己的公共(public)个人资料页面。我有使用 BlogEngine.NET 的经验，所以希望使用它。我目
c# - 自定义基于角色的授权(无成员(member)资格)
我对 MVC 和使用 ASP.NET MVC 4 开发应用程序还很陌生。对于身份验证，我在域中使用 Windows 身份验证和 Active Directory。下一步是授权用户(不使用成员(memb
mysql - 查找用户首次登录asp.net成员(member)资格
我试图找出用户第一次使用asp.net 成员(member)资格(mysql)登录，并根据它显示一些协议(protocol)页面。我遵循的程序是: When a user registers a ma
PHP MySQL 在一定时间后停用高级成员(member)资格？
我最近刚刚研究出如何使用 PayPal IPN 在用户支付一定金额后启动高级成员(member)资格。一旦用户点击升级帐户，他们就会被定向到 PayPal 进行支付，然后 IPN 就会启动更新数据库以
java - 如何将客户更改为不同的成员(member)资格？ java
我正在尝试学习 Java 中的继承和接口(interface)。我有三个不同的类:Customer、SilverCustomer 和 GoldCustomer。 SilverCustomer 和 Go
iphone - iOS 提前更新成员(member)资格？
我刚刚收到一封来自 Apple 开发者门户的电子邮件(2 月 20 日)，说我需要续订我的成员(member)资格。当我查看我的帐户时，我的订阅实际上在 4 月 20 日用完。我的问题是，如果我现在续
ios - iOS 推送通知是否需要苹果开发者计划成员(member)资格
要向 iOS 应用程序添加推送通知，您是否需要拥有已注册 iOS 成员(member)计划的苹果开发者帐户？最佳答案 Yes , it is - see the terms here 看这里- In
.net - 如何注销 ASP 成员(member)资格
protected void Button2_Click(object sender, System.EventArgs e) //logout { if (System.Web.HttpCo
ios - 使用蓝牙的 iOS 应用程序是否需要蓝牙 SIG 资格？
我正在构建一个使用蓝牙与远程传感器通信的 iPhone 应用程序。外设是蓝牙自行车速度传感器。该应用程序使用来自外围设备的信息来计算行驶距离。我看到有一个蓝牙特别兴趣小组 (SIG) 负责确保制造商
asp.net 成员(member)资格 - 管理员批准
我正在使用 asp.net mvc 示例应用程序，并对其进行了一些扩展。我使用 asp.net 成员(member)身份进行用户登录和注册。我现在想更改它，以便当人们注册时，它不会立即能够登录，而是
ASP.NET 成员(member)资格 - 让用户使用以前的密码
我为我的客户创建了一个成员(member)登录系统，现在他们不希望用户在创建新密码时使用他最后 5 个密码之一。这是内置的东西吗？我怎样才能实现它？最佳答案 asp.net 成员(member)登
ASP.NET 成员(member)资格 - 用于跟踪附加信息的设计
我正在为一个公共(public)站点开发 ASP.NET4.0/C# 应用程序，该应用程序仅需要对在关联企业工作的员工进行身份验证。这个想法是让网站拥有一个 CMS，以便员工可以进入并更改某些内容，而
ASP.NET 成员(member)资格 getuserbyID
如何通过 ID 获取用户？MembershipUser mu=Membership.GetUser("用户名");但是，我想通过 ID 获取用户，而不是通过名称获取用户。最佳答案 Membershi
python - 与 MTurk 的 OR-ing 资格
是否可以让用户拥有多个资格之一才能从事 HIT。例如: qualifications = Qualifications() qualifications.add( Requirement(co
c# - AspNet 成员(member)资格 - 集中登录
现在我们有几个数据库，每个数据库都有自己的 aspnet 成员表。我们希望将所有成员集中到一个数据库中。例如一个主登录页面，他们将在其中指定数据库、用户名和密码。然后我们将检查集中式数据库并根据他们在
paypal - 如何跟踪从 Paypal 取消成员(member)资格
我正在使用 Paypal 的定期成员(member)付款。我想知道是否有成员(member)手动从paypal取消成员(member)资格，我如何从paypal获取返回值/URL，以便我可以跟踪成员(

首页

博学

6Ren·AI

商城

algorithm - 资格跟踪算法，更新顺序