gpt4 book ai didi

machine-learning - 蒙特卡洛树搜索 - 具有相反目标的两个玩家的游戏的子选择功能背后的直觉

转载 作者:行者123 更新时间:2023-11-30 08:34:45 25 4
gpt4 key购买 nike

关于 tic-tac-toe 的 MCTS 的 hello world 示例的简单问题,

假设我们有一个董事会,我们想要做出最佳决策。因为我不明白连续节点的选择,而模拟(直到满足叶子)是由探索/利用权衡函数决定的(如维基百科上的 described )。我真的想知道这里函数的第一个组成部分(利用)背后的直觉是什么,特别是对于两个目标相反的玩家之间的游戏。那么“最有希望”的含义就会根据谁采取行动而发生变化。这个函数不应该根据谁采取下一步行动(尤其是它的第一个组成部分)而改变吗?

最佳答案

是的,应该实现等式的开发部分,以考虑从在该节点中选择操作的代理/玩家的角度进行的评估。

对于单代理设置,实现很简单;只是总是最大化。

对于零和、回合制、两人游戏设置,您需要在最大化或最小化等式的开发部分之间进行交替(注意:始终最大化探索项!) 。这也可以通过简单地在对手移动的节点中将该项乘以 -1 来实现。

其他设置也是可能的,但需要稍微更多的实现工作(例如,在非零和或有两个以上玩家的设置中为不同玩家保留不同的平均分数)

关于machine-learning - 蒙特卡洛树搜索 - 具有相反目标的两个玩家的游戏的子选择功能背后的直觉,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48736380/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com