- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
所以我使用 UCT 在蒙特卡洛树搜索算法中实现了一个转置表。这允许保留游戏状态的累积奖励值,无论在何处以及在整个树中遇到多少次。这提高了在特定游戏状态下收集的信息的质量。
唉,我注意到这会在 UCT 的开发与探索选择阶段造成一定的问题。简而言之,分配给一个州的 UCT 分数考虑了访问父州的次数与访问子州(我们为其计算 UCT 分数)的次数之间的比率。从这张图中可以看出,当从转置表中将状态拉入树的新创建分支时,该比率完全不正常,子状态已被访问很多次(从树中的其他地方)并且父状态有被访问的次数要少得多,这在技术上应该是不可能的。
因此,使用转置表并保留状态的累积奖励值有助于算法的开发部分做出更好的选择,但同时它以潜在有害的方式扭曲了算法的开发部分。您是否知道有什么方法可以解决这个意外问题?
最佳答案
凭直觉,我预计您会想尝试以下内容。
对于 UCT 的利用部分,您需要存储和使用子节点的平均得分 W/V
。这个平均值可以通过换位共享。因此,在您的示例中,您不一定要单独共享 W = 300
和 V = 600
,而只是共享平均分数 W/V = 300/600 = 0.5
。这意味着,由于转置,您可以共享更准确的分数估计(基于更大样本量的估计)。
对于 UCT 的探索部分,我认为您会希望“从”父节点(没有换位)的角度使用统计信息,而不是子节点节点(这是树中其他地方节点的转置)。在选择要转到的子节点时,不是使用子节点的访问计数,这意味着您将使用父节点中每个 state + action
对收集的访问计数。
例如,假设我们在您编写 V: 2, W: 300
的节点中(将此节点称为 P
),我们必须选择一个子节点。更标准的实现将遍历子节点,并使用子节点的访问计数。在您的情况下,我认为最好在节点 P
中遍历 actions,并跟踪这些操作的访问次数而不是子项的访问次数节点。在 P
中,您还没有采取导致转置子节点的操作,因此 (P + action)
对的访问计数仍将为 0 .
虽然我个人没有使用 MCTS + 换位组合的经验,因此您可能希望进行额外的研究以了解其他人过去的想法。例如有以下论文:
关于algorithm - 蒙特卡洛树搜索算法中的转置表对 UCT 分数的意外影响,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50194982/
我有一个“设置首选项”屏幕。它有一个 ListPreference 和一个 CheckBoxPreference。当我选择 ListPreference 的一项时,我想更改应用程序的日期格式。另外,通
我试图找到创 build 置/配置窗口的示例。单击菜单项中的“选项”操作可启动设置窗口。我想弄清楚如何从主窗口打开第二个窗口。以及新窗口如何将设置信息返回主窗口。尝试使用 QDialog 或一些继承的
我在 Lnux 上有 Qt 应用程序。我想为此创建一个可执行文件/设置以便在 Windows 上分发它并且不需要安装 Qt。我通过包含所有 dll 为此创建了可执行文件但要运行它,用户需要进入文件夹。
我正在尝试创建一个有点动态的 html 类,它根据类末尾包含的数字设置宽度 %。注意:类名将始终以“gallery-item-”开头 示例:div.gallery-item-20 = 20% 宽度 我
关闭。这个问题需要更多focused .它目前不接受答案。 想改进这个问题吗? 更新问题,使其只关注一个问题 editing this post . 关闭 6 年前。 Improve this qu
在我的应用程序中,我想记住一些变量,例如,如果用户登录过一次,那么他们将在下次重新打开应用程序时登录,或者如果他们决定禁用某些提醒,应用程序可以检查该变量是否是错误的,将不再显示该提醒。理想情况下,这
我在 Netbeans 中开发了一个应用程序,它连接到远程计算机的消息队列并发送消息。该应用程序还有其他功能。项目完成后,我清理并构建应用程序,然后 Netbeans 创建一个 jar 文件。 但我的
我创建了一个 Outlook 加载项,需要创建一个设置以使其可分发(我是新手,所以请原谅新手评论) Outlook -2010 Vs -2010 .Net 4.0 我读了一些地方,最简单的方法就是发
这个问题已经有答案了: 已关闭10 年前。 Possible Duplicate: How to make installer pack of Java swing Application Proje
这个问题肯定已经被很多人解决过很多次了,但是经过几个小时的研究,我仍然没有找到我要找的东西。 我有一个 ExportSettings.settings 文件,其中包含一堆设置( bool 值、字符串、
我想为我的项目创建一个安装程序,以便它可以安装在任何电脑上而无需安装头文件。我怎样才能做到这一点? 最佳答案 一般有两种分发程序的方法: 源代码分发(要构建的源代码)。最常见的方法是使用 GNU au
如何在这样的动态壁纸中创 build 置 Activity ? Example Picture 我只用一个简单的文本构建了设置 Activity ,但遇到了一些问题。第一个问题是我不能为此 Activ
我用 GUI 创建了一个简单的软件。它有几个源文件。我可以在我的编辑器中运行该项目。我认为它已经为 1.0 版本做好了准备。但我不知道如何为我的软件创 build 置/安装程序。 源代码是python
我的 SettingsActivity当前扩展了 Android Studio 生成的类,AppCompatPreferenceActivity扩展 PreferenceActivity . Acti
我正在使用 .NET 为 IE 开发工具栏。目前,我使用 gacutil 插入我的 .NET 程序集,并使用 regasm 注册我的 COM 程序集。 我想为项目创建一个设置 (MSI),但我似乎无法
在为设置页面创建 Activity 后,我注意到 if (mCurrentValue !== value) 中的 mCurrentValue !== value 返回警告: Identity equa
我在 Visual Studio 10 中创建了一个项目,该项目使用 Mysql 数据库和 Crystalreports 以及 它。但是我不知道如何进行自动安装 Mysql 和 Crystalrepo
我正在尝试在我的 C# 项目中使用 Sqlite 数据库,并且我在 IDE 中做得很好。我的问题是当我为我的项目制作安装包并安装它时,程序无法访问 sqlite 数据库。我也知道这是因为用户没有访问文
我有一个大型 Web 应用程序(带有 11 子系统的 ErP),我想使用 Microsoft WebPI 为它创建一个设置。 目前,我们每周向客户发送一次应用程序(用于每周更新)。 我们在此应用程序中
所以我对工资单申请的最终查询是 - 如何为薪资申请创 build 置? 我需要知道的一切- 如何将设置项目添加到我现有的解决方案 如何将解决方案中的文件添加到安装项目中,以及添加哪些文件添加和在什么文
我是一名优秀的程序员,十分优秀!