gpt4 book ai didi

java - 我怎样才能影响 minimax 算法更喜欢立即奖励?

转载 作者:搜寻专家 更新时间:2023-11-01 03:17:55 28 4
gpt4 key购买 nike

我正在为 Stratego 游戏(计算机完全了解所有棋子)实现 minimax。但是,我发现计算机通常不会攻击它可以轻易破坏的棋子。据我了解,minimax 分数来自移动树的叶节点(其中每个级别都是一个转弯,叶节点的每个分数是使用该位置的棋盘的评估函数计算的)。因此,如果我有 3 个级别的深度,计算机可以选择攻击第 1 步或攻击第 3 步。根据 minimax 算法,它具有相同的关联分数(结果棋盘位置具有相同的分数)。那么我如何影响 minimax 算法使其更喜欢即时奖励而不是最终奖励呢?也就是说,我希望分数随着时间的推移而衰减,但是根据 minimax 的工作方式,我不明白这是怎么可能的。 Minimax 始终使用叶节点来确定中间节点。

最佳答案

正如其他人在评论中提到的那样,minimax 应该能够注意到延迟自动捕获棋子是否存在危险,并且更改评估函数以强制它更喜欢较早的捕获可能会对演奏性能产生不利影响.

不过,如果您真的想这样做,我认为唯一的方法是开始在您的游戏状态(不仅仅是棋盘)中存储额外的信息。您需要在每个游戏状态的内存中存储时间戳,这样您事后仍然可以准确地知道之前捕获一 block 的时间(在哪个回合)。使用该信息,您可以在搜索树的叶节点中使用的评估函数中实现衰减因子。

另一种解决方案可能是简单地确保搜索到均匀的深度级别; 2 或 4 而不是 3。这样,您的算法将始终评估对手而不是您的计算机玩家最后一步的游戏状态。所有的评估都会变得更加悲观,这可能会鼓励您的代理在某些情况下更喜欢更早的奖励。

奇数搜索深度通常会导致与偶数搜索深度不同的评估的这种效应被称为 odd-even effect .您可能有兴趣对此进行更多研究(尽管通常出于与您的问题不同的原因讨论它)。

关于java - 我怎样才能影响 minimax 算法更喜欢立即奖励?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41752917/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com