gpt4 book ai didi

algorithm - 编程一个概率,让 AI 决定何时在 5 张牌扑克中弃牌

转载 作者:塔克拉玛干 更新时间:2023-11-03 03:47:41 24 4
gpt4 key购买 nike

我正在编写一个 AI 来玩 5 张牌扑克,您可以从手中丢弃一张牌,并根据需要将其换成另一张随机发的牌。我的 AI 可以评估每一手可能的扑克牌 as shown in the answer to my previous question .简而言之,它为每只可能的手分配一个唯一的值,其中较高的值与更好/获胜的手相关。

我现在的任务是编写一个函数,int getDiscardProbability(int cardNumber) 为我的 AI 提供一个 0-100 的数字,表示它是否应该丢弃这张牌(0 = 肯定会丢弃不丢弃,100 = 绝对丢弃)。

我想到的方法是通过将这张牌与牌组中的所有其他牌交换来计算每手可能的手牌(假设现在还剩下 47 张),然后将它们的每个值与当前手牌进行比较,计算有多少更好,所以 (count/47) * 100 是我的概率。

但是,这个解决方案只是在寻找任何更好的手,而不是区分一只手有多好。例如,如果我的 AI 有手牌 23457,它可以将 7 丢弃为 K,从而产生稍微好一点的手牌(更好的高牌),或者它可以将 7 换为 A 或 a 6,完成顺子 - 比 High K 好得多的牌(值(value)高得多)。

所以,当我的 AI 计算这个概率时,当它看到手牌可以通过获得 K 得到改善时,它会增加相同的数量,当它看到手牌可以通过获得 A 得到改善时,它会增加相同的数量或 6. 因此,在计算此概率时,我不知何故需要考虑我的手牌和每只可能手牌的值(value)差异。实现这一目标的好方法是什么?

最佳答案

一般来说,游戏存在先有鸡还是先有蛋的问题:您想要设计一个可以击败优秀玩家的 AI,但您需要一个优秀的 AI 来训练您的 AI 与之对抗。我假设您正在为有底注但没有下注的 2 人扑克游戏制作 AI。

首先,我要注意的是,如果我有一张每个可能手牌的赢率概率表(令人惊讶的是,真正不同的手数很少),就可以编写一个函数来告诉您预期值从你的手牌中丢弃一组牌:简单地列举所有可能的替换牌并平均这些牌获胜的概率。没有那么多牌可以评估——即使你不忽略花色,并且你要替换最多 3 张牌,你也只有 47 * 46 * 43/6 = 16215 种可能性。实际上,有趣的可能性要少得多——例如,如果你不丢弃的牌不都是同花色,你可以完全忽略花色,如果它们是同花色,你只需要区分“同花”换“异花”。这比我描述的稍微棘手一些,因为您必须小心计算正确的可能性。

然后你的 AI 可以通过枚举所有可能要丢弃的牌组来工作,其中有 (5 选择 0) + (5 选择 1) + (5 选择 2) + (5 选择 3) = 1 + 5 + 10 + 10 = 26,然后根据上面的计算选择期望值最高的那个。

先有鸡还是先有蛋的问题是您没有每手牌的获胜概率表。我在这里描述了一种不同的扑克相关游戏的方法,但想法是一样的:http://paulhankin.github.io/ChinesePoker/ .这种方法不是我的想法,并且本质上相同的想法用于例如真实扑克变体的博弈论优化求解器,如 piosolver。

这是方法。

从以某种方式组成的概率表开始。也许您只是开始假设排名最高的牌 (AKQJTs) 获胜的概率为 100%,而最差的牌 (75432) 获胜的概率为 0%,并且概率在两者之间呈线性。没关系。

现在,用您的 AI 模拟数万手牌,并计算每手牌排名的播放频率。您可以使用它来构建一个新的获胜率概率表。这张新的获胜率概率表(忽略一些小的理论问题)是您的 AI 的最佳反击策略,因为使用此表的 AI 知道您的原始 AI 每手牌结束的可能性有多大,并以最佳方式对抗那个。

现在的自然想法是再次重复该过程,并希望这会产生越来越好的 AI。然而,这个过程可能会振荡而不是稳定下来。例如,如果在你训练的某个阶段,你的 AI 倾向于抽到大牌,反派 AI 会倾向于非常保守地打牌,当它错过抽牌时击败你的 AI。相对于非常保守的 AI,稍微不那么保守的 AI 会做得更好。因此,您往往会得到一系列越来越不保守的 AI,然后出现一个临界点,您的 AI 再次被一个极端保守的 AI 打败。

但解决这个问题的方法相对简单——只需以某种方式混合旧表和新表(一种标准方法是,在第 i 步,用新表的 1/i 的加权平均值替换表表和旧表的 (i-1)/i)。这具有不会过度调整到最近迭代的效果。并忽略因假设而出现的一些次要细节(例如,忽略您手中原始纸牌的替换效果),这种方法将为您提供游戏理论上最优的 AI,如:"An iterative method of solving a game, Julia Robinson (1950)." 中所述。

关于algorithm - 编程一个概率,让 AI 决定何时在 5 张牌扑克中弃牌,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42695658/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com