algorithm - 编程一个概率，让 AI 决定何时在 5 张牌扑克中弃牌-6ren

algorithm - 编程一个概率，让 AI 决定何时在 5 张牌扑克中弃牌

转载作者：塔克拉玛干更新时间：2023-11-03 03:47:41

24

4

我正在编写一个 AI 来玩 5 张牌扑克，您可以从手中丢弃一张牌，并根据需要将其换成另一张随机发的牌。我的 AI 可以评估每一手可能的扑克牌 as shown in the answer to my previous question .简而言之，它为每只可能的手分配一个唯一的值，其中较高的值与更好/获胜的手相关。

我现在的任务是编写一个函数，int getDiscardProbability(int cardNumber) 为我的 AI 提供一个 0-100 的数字，表示它是否应该丢弃这张牌(0 = 肯定会丢弃不丢弃，100 = 绝对丢弃)。

我想到的方法是通过将这张牌与牌组中的所有其他牌交换来计算每手可能的手牌(假设现在还剩下 47 张)，然后将它们的每个值与当前手牌进行比较，计算有多少更好，所以 (count/47) * 100 是我的概率。

但是，这个解决方案只是在寻找任何更好的手，而不是区分一只手有多好。例如，如果我的 AI 有手牌 23457，它可以将 7 丢弃为 K，从而产生稍微好一点的手牌(更好的高牌)，或者它可以将 7 换为 A 或 a 6，完成顺子 - 比 High K 好得多的牌(值(value)高得多)。

所以，当我的 AI 计算这个概率时，当它看到手牌可以通过获得 K 得到改善时，它会增加相同的数量，当它看到手牌可以通过获得 A 得到改善时，它会增加相同的数量或 6. 因此，在计算此概率时，我不知何故需要考虑我的手牌和每只可能手牌的值(value)差异。实现这一目标的好方法是什么？

最佳答案

一般来说，游戏存在先有鸡还是先有蛋的问题:您想要设计一个可以击败优秀玩家的 AI，但您需要一个优秀的 AI 来训练您的 AI 与之对抗。我假设您正在为有底注但没有下注的 2 人扑克游戏制作 AI。

首先，我要注意的是，如果我有一张每个可能手牌的赢率概率表(令人惊讶的是，真正不同的手数很少)，就可以编写一个函数来告诉您预期值从你的手牌中丢弃一组牌:简单地列举所有可能的替换牌并平均这些牌获胜的概率。没有那么多牌可以评估——即使你不忽略花色，并且你要替换最多 3 张牌，你也只有 47 * 46 * 43/6 = 16215 种可能性。实际上，有趣的可能性要少得多——例如，如果你不丢弃的牌不都是同花色，你可以完全忽略花色，如果它们是同花色，你只需要区分“同花”换“异花”。这比我描述的稍微棘手一些，因为您必须小心计算正确的可能性。

然后你的 AI 可以通过枚举所有可能要丢弃的牌组来工作，其中有 (5 选择 0) + (5 选择 1) + (5 选择 2) + (5 选择 3) = 1 + 5 + 10 + 10 = 26，然后根据上面的计算选择期望值最高的那个。

先有鸡还是先有蛋的问题是您没有每手牌的获胜概率表。我在这里描述了一种不同的扑克相关游戏的方法，但想法是一样的:http://paulhankin.github.io/ChinesePoker/ .这种方法不是我的想法，并且本质上相同的想法用于例如真实扑克变体的博弈论优化求解器，如 piosolver。

这是方法。

从以某种方式组成的概率表开始。也许您只是开始假设排名最高的牌 (AKQJTs) 获胜的概率为 100%，而最差的牌 (75432) 获胜的概率为 0%，并且概率在两者之间呈线性。没关系。

现在，用您的 AI 模拟数万手牌，并计算每手牌排名的播放频率。您可以使用它来构建一个新的获胜率概率表。这张新的获胜率概率表(忽略一些小的理论问题)是您的 AI 的最佳反击策略，因为使用此表的 AI 知道您的原始 AI 每手牌结束的可能性有多大，并以最佳方式对抗那个。

现在的自然想法是再次重复该过程，并希望这会产生越来越好的 AI。然而，这个过程可能会振荡而不是稳定下来。例如，如果在你训练的某个阶段，你的 AI 倾向于抽到大牌，反派 AI 会倾向于非常保守地打牌，当它错过抽牌时击败你的 AI。相对于非常保守的 AI，稍微不那么保守的 AI 会做得更好。因此，您往往会得到一系列越来越不保守的 AI，然后出现一个临界点，您的 AI 再次被一个极端保守的 AI 打败。

但解决这个问题的方法相对简单——只需以某种方式混合旧表和新表(一种标准方法是，在第 i 步，用新表的 1/i 的加权平均值替换表表和旧表的 (i-1)/i)。这具有不会过度调整到最近迭代的效果。并忽略因假设而出现的一些次要细节(例如，忽略您手中原始纸牌的替换效果)，这种方法将为您提供游戏理论上最优的 AI，如:"An iterative method of solving a game, Julia Robinson (1950)." 中所述。

关于algorithm - 编程一个概率，让 AI 决定何时在 5 张牌扑克中弃牌，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42695658/

24

4

0

文章推荐： algorithm - 在这种情况下如何找到最优策略？

文章推荐： java - 如何在 Eclipse 项目(Java)中刷新外部 Jars？

timer - UNIX 编程。 struct timeval 如何打印它(C 编程)
我正在尝试打印 timeval 类型的值。实际上我可以打印它，但我收到以下警告: 该行有多个标记格式“%ld”需要“long int”类型，但参数 2 的类型为“struct timeval” 程序
c - Unix 编程... fork() & execv() 帮助... C 编程
我正在编写自己的 unix 终端，但在执行命令时遇到问题: 首先，我获取用户输入并将其存储到缓冲区中，然后我将单词分开并将它们存储到我的 argv[] 数组中。IE命令是“firefox”以启动存储在
CUDA 编程
我是 CUDA 的新手。我有一个关于一个简单程序的问题，希望有人能注意到我的错误。 __global__ void ADD(float* A, float* B, float* C) { con
CGI 编程
我有一个关于 C 语言 CGI 编程的一般性问题。我使用嵌入式 Web 服务器来处理 Web 界面。为此，我在服务器中存储了一个 HTML 文件。在此 HTML 文件中包含 JavaScript 和
编程，不止有代码，还有艺术
**摘要：**在代码的世界中，是存在很多艺术般的写法，这可能也是部分程序员追求编程这项事业的内在动力。本文分享自华为云社区《【云驻共创】用4种代码中的艺术试图唤回你对编程的兴趣》，作者： break
R 编程 - 在它被调用的环境中创建变量
我有一个函数，它的任务是在父对象中创建一个变量。我想要的是让函数在调用它的级别创建变量。 createVariable testFunc() [1] "test" > testFunc2() [1]
C 编程 - 关于花括号的困惑
以下代码用于将多个连续的空格替换为1个空格。虽然我设法做到了，但我对花括号的使用感到困惑。这个实际上运行良好: #include #include int main() { int ch, la
C 编程 - 编写可自行编译的文本文件
我正在尝试将文件写入磁盘，然后自动重新编译。不幸的是，某事似乎不起作用，我收到一条我还不明白的错误消息(我是 C 初学者 :-)。如果我手动编译生成的 hello.c，一切正常吗？! #include
C 编程 - 传递指向数组的指针
如何将指针值传递给结构数组；例如，在 txt 上我有这个: John Doe;xxxx@hotmail.com;214425532; 我的代码: typedef struct Person{
C# SNMP 编程
我尝试编写一些代码来检索 objectID，结果是 2B-06-01-04-01-82-31-01-03-01-01 . 这个值不正确吗？ // Send a SysObjectId SNMP req
R 编程 - 对具有共同值的行的元素求和
您好，提前感谢您的帮助， (请注意评论部分以获得更多见解:即，以下示例中的成本列已添加到此问题中；西蒙提供了一个很好的答案，但成本列本身并未出现在他的数据响应中，尽管他提供的功能与成本列一起使用) 我
r - R中具有整数变量的非线性优化/编程
我想知道是否有人能够提出一些解决非线性优化问题的软件包的方法，而非线性优化问题可以为优化解决方案提供整数变量？问题是使具有相等约束的函数最小化，该函数受某些上下边界约束的约束。我已经在R中使用了'n
R 编程 - 向现有矩阵添加额外的列
我是 R 编程的初学者，正在尝试向具有 50 列的矩阵添加一个额外的列。这个新列将是该行中前 10 个值的平均值。 randomMatrix <- generateMatrix(1,5000,100,
C 编程 - 按位运算符并了解何时使用
我在《K&R II C 编程 ANSI C》一书中读到，“>>”和“0; nwords--) sum += *buf++; sum = (sum >>
Javascript - GUI 编程
当下拉列表的选择发生变化时，我想: 1) 通过 div 在整个网站上显示一些 GUI 阻止覆盖 2)然后处理一些代码 3) 然后隐藏叠加层。问题是，当我在事件监听器函数中编写此逻辑时，将执行 onC
Clojure "DSL"编程
我正在使用 Clojure 和 RESTEasy 设计 JAX-RS REST 服务器. 据我了解，用 Lisp 系列语言编写的应用程序比用“传统”命令式语言编写的应用程序更多地构建为“特定于领域的语
VBA 编程。如何将数据从用户窗体传输到工作表的特定行和列？
我目前正在研究一种替代出勤监控系统作为一项举措。目前，我设计的用户表单如下所示: Time Stamp Userform 它的工作原理如下: 员工将选择他/她将使用的时间戳类型:开始时间、超时、第一次
Java 编程 - 可除性和计数？
我是一名学生，试图自学编程，从在线资源和像您这样的人那里获得帮助。我在网上找到了一个练习来创建一个小程序来执行此操作: 编写一个程序，读取数字 a 和 b(长整型)并列出 a 和 b 之间有多少个数字
模数运算的 Shell 编程
我正在尝试编写一个 shell 程序，给定一个参数，打印程序的名称和参数中的每个奇数词(即，不是偶数词)。但是，我没有得到预期的结果。在跟踪我的程序时，我注意到，尽管奇数词(例如，第 5 个词，5 %
Java LED 编程
只是想知道是否有任何 Java API 可以让您控制台式机/笔记本电脑外壳上的 LED？或者，如果不可能，是否有可能？最佳答案如果你说的是前面的 LED 指示电源状态和 HDD 繁忙状态，恐怕没

首页

博学

6Ren·AI

商城

algorithm - 编程一个概率，让 AI 决定何时在 5 张牌扑克中弃牌