gpt4 book ai didi

algorithm - 蒙特卡洛树搜索 : Tree Policy for two player games

转载 作者:塔克拉玛干 更新时间:2023-11-03 03:23:41 24 4
gpt4 key购买 nike

我对 MCTS“树木政策”的实现方式有些困惑。我读过的每篇论文或文章都谈到从当前游戏状态(在 MCTS 术语中:玩家即将采取行动的根)下树。我的问题是,即使我处于 MIN 玩家级别(假设我是 MAX 玩家),我如何选择最好的 child 。即使我选择了 MIN 可能采取的某些特定 Action ,并且我的搜索树通过该节点变得更深,MIN 玩家在轮到它时也可能会选择一些不同的节点。(如果最小玩家是业余人类,它可能就像最好选择一些不一定是最好的节点)。由于 MIN 选择了不同的节点,因此这种情况下 MAX 通过该节点传播的全部工作都是徒劳的。对于我所指的步骤: https://jeffbradberry.com/posts/2015/09/intro-to-monte-carlo-tree-search/其中树政策:https://jeffbradberry.com/images/mcts_selection.png这让我相信他们是从单人玩家的角度来执行的。

最佳答案

要为双人游戏实现 MCTS,您只需在反向传播的每一步中翻转符号,代码中的一行更改。

这意味着我们试图在每一层中最大化奖励,但是当我们将奖励传播到树上时,当你到达你的层时,对你的对手的正面奖励对你来说是负面的。

关于algorithm - 蒙特卡洛树搜索 : Tree Policy for two player games,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42302142/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com