gpt4 book ai didi

algorithm - 了解 MCTS 节点选择

转载 作者:塔克拉玛干 更新时间:2023-11-03 03:29:40 26 4
gpt4 key购买 nike

我目前正在尝试为我的一个项目实现 MCTS,但我不确定我是否正确理解了节点选择的概念。在游戏开始时,在我随机选择一个 Action 后,将整棵树展开到游戏结束点,然后进行反向传播,这个节点显然比其他所有节点都好,因为它是 1/1(如果我们赢了)与他们的 0/0。 MCTS 如何逃离陷阱而不被随机选择的节点卡住?

我的意思是,如果我们使用 UCB 来寻找最佳节点进行扩展,它总是会选择我们首先选择的节点(假设它导致获胜)完全忽略所有其他节点,因为它将是唯一一个非零值。我在这里错过了什么,因为显然不是这样?

最佳答案

每次你在一个节点,你根据这些规则展开一个节点:

  • 如果一个子节点以前从未展开过,则随机展开其中一个未探索的子节点(并且你可以立即从这个子节点展开)
  • 否则,每个子节点至少被访问过一次。计算它们所有的“探索/开发”值并扩展具有最高值的子节点

MCTS 的理念是最大化探索/开发。如果一个子节点以前从未被探索过,那么与之相关的“探索”值是无限的,你将不得不去探索它。但是,一旦你展开了所有的子节点,那么你将更频繁地展开具有更高值(value)的子节点(这是“剥削”部分)

关于algorithm - 了解 MCTS 节点选择,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21321986/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com