machine-learning - MCTS 如何与 'precise lines' 配合使用-6ren

machine-learning - MCTS 如何与 'precise lines' 配合使用

转载作者：行者123 更新时间：2023-11-30 08:58:02

25

4

所以我熟悉更基本的树搜索算法，例如带有极小极大的游戏搜索，但我一直在尝试了解有关蒙特卡洛树搜索算法的更多信息，并且想知道它如何处理“精确线”。

在国际象棋中，您可能会遇到 30 次失败但有 1 条获胜路线的情况，MTCS 算法(更具体地说是 UCB1 函数)将如何处理这种情况？我理解 UCB1 的方式是，它本质上是对其子节点进行某种平均，因此，有 30 次失败的棋步和 1 次获胜的棋局的 UCB1 值应该低得令人迷惑？

我仍在学习 MCTS，但我一直有这个问题，并希望有人能够解释 MCTS 如何仍然收敛到极小极大，即使 UCB1 值可能非常低。

任何知识将不胜感激!谢谢

最佳答案

Imran 的答案是正确的，因为从理论角度来看，通常在 MCTS 的选择阶段使用的 UCB1 策略应该最终能够处理您描述的各种情况，并且 MCTS(假设我们在选择阶段使用类似 UCB1 的东西)将最终收敛到极小极大评估。

但是，这里的“最终”表示“经过无数次 MCTS 迭代之后”。我们需要无限量的处理时间，因为只有 MCTS 的选择阶段能够充分处理您描述的情况类型(播放阶段不能)，而< em>选择阶段实际上仅用于根节点周围树的缓慢生长部分。因此，如果您描述的情况“位于”相对靠近根节点的位置，那么我们可以预期像 UCB1 这样的策略可以充分处理它们。如果它们非常深/离根很远，深到我们无法在处理时间内将搜索树增长到那么远......那么 MCTS 确实不能很好地处理这些情况。

请注意，对于基于极小极大的方法也可以说类似的事情；如果他们搜索得不够深入，也可能导致评价不佳。不过，在类似极小极大算法的情况下，这个故事往往更加二元化。他们要么设法足够深入地搜索良好的评估，要么就没有。就 MCTS 而言，它最初总是对这些类型的情况评估不佳，并且可能会随着搜索树的逐渐增长而逐渐改善。

实际上，在大约整整十年的时间里，在具有许多“陷阱”情况(如您所描述的情况)的游戏中，极小极大/α-β/相关算法被认为优于基于 MCTS 的方法。这包括类似国际象棋的游戏。在同一时期，MCTS 在围棋等游戏中已经更有前景。仅在 a recent paper MCTS + 深度强化学习 + 大量硬件的组合在类似国际象棋的游戏中击败了基于极小极大的方法。

关于machine-learning - MCTS 如何与 'precise lines' 配合使用，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51881397/

25

4

0

文章推荐： javascript - 在特定情况下无法从类的函数中访问类的变量

文章推荐： javascript - 提交前执行功能

自定义注解配合拦截器实现接口限流
自定义限流注解先介绍一下 @Retention 和 @Target 这两个元注解 @Retention：指定注解的生命周期（源码、class文件、运行时），其参考值见类的定义：java.lang.
Pycharm 配合 IdeaVim 有时会导致键盘无响应
在 Ubuntu 13.10 中使用 PyCharm Community Edition 和 IdeaVim 时，键盘经常停止接受输入，我必须重新启动 IDE。当我单击不同的文本区域时，光标仍然会移动
java - 我无法让 useDelimiter() 配合
我正在开发一个Java项目，我试图让useDelimiter删除除“=”和“,”之间的文本之外的所有内容。例如，在文件的第一行我想保留“ThermostatNight”。文本文件如下所示: E
php - 无法让 mysql_fetch_rows 配合
这个问题不太可能帮助任何 future 的访问者；它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况有关，这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用，visit
SpringBoot 配合 SpringSecurity 实现自动登录功能的代码
目录 1、加入 remember-me 2、原理分析自动登录是我们在软件开发时一个非常常见的功能，例如我们登录 QQ 邮箱：很多网站我们在登录的时
java - SharedPreferences 如何与 UpdateUI 配合？
我是开发 Android 应用程序的菜鸟。我想问一下。我的 PreferenceActivity 如何希望在不返回 MainActivity 并再次转到 PreferenceActivity 的情况下
利用 Aardio 配合 Python 快速开发桌面应用
1. 前言大家好，我是安果! 我们都知道 Python 可以用来开发桌面应用，一旦功能开发完成，最后打包的可执行文件体积大，并且使用 Python 开发桌面应用周期相对较长假如想快速开
macos - 使用 NSPipe 配合 NSTask 模拟命令行输入
我正在为命令行应用程序编写一个非常简单的 GUI 工具。它只有 2 个按钮。连接并退出。在 applicationDidFinishLaunching 中，我运行以下命令 NSPipe *pipe
java - 配合 libGDX 和 Jetbrains MPS
我也在 LibGDX forums 上发布了这个问题. 嘿那里!在我的论文中，我正在编写一个 DSL 来描述图片的外观。这些图片将由 libGDX 根据 DSL-Input 绘制。目前，jetbrai
IDEA 配合 Dockerfile 部署 SpringBoot 工程的注意事项
准备 SpringBoot 工程 1.新建 SpringBoot 项目，默认的端口是 8080 ，新建 Controller 和 Mapping @RestControllerpublic cla
hadoop - 使用 elephant-bird 配合 hive 读取 protobuf 数据
我有类似的问题 this one 以下是我使用的: CDH4.4(配置单元 0.10) protobuf-java-.2.4.1.jar elephant-bird-hive-4.6-SNAPSHOT
angularjs - 如何使 angular-ui 输入与 angularjs 属性(尤其是 ng-readonly)配合？
我想使用 angularjs 和 angular-ui(特别是 ui-select2 功能)实现对选择输入的读/写访问控制。场景很简单:通过使用 ng-readonly 属性，我可以控制用户是否可以

首页

博学

6Ren·AI

商城

machine-learning - MCTS 如何与 'precise lines' 配合使用