c++ - AI Player 表现不佳？为什么？-6ren

c++ - AI Player 表现不佳？为什么？

转载作者：行者123 更新时间：2023-11-28 05:39:41

26

4

我正在尝试实现一个使用 Q-learning 来玩的代理 Ludo .我用一个 e-greedy Action 选择器训练它，epsilon 为 0.1，学习率为 0.6，折扣因子为 0.8。

我跑了大约 50K 步的游戏，还没有赢过一场比赛。这令人费解，因为 Q 表似乎与我想要的非常准确。为什么我会输给随机玩家这么多？如果 Q 表变化不大，系统难道不能获胜吗？一般来说，我需要多少次迭代来训练我的代理？

我不确定需要多少信息，如果需要我会用相关信息更新帖子。

可能的状态，表示为 Q 表中的行:

在家里
在地球上
在星星上
进球
致胜之路
与相同颜色的球员安全
关于可用空间

可能的操作，表示为每个状态的列:

从家里搬出去
进入目标
移动到全局
移至星标
通过星标移动到目标
使用相同颜色的 token 进入安全地带
进入赢家之路
如果对手在地球上则自杀
杀死对手
只是移动
不可能移动

我首先使用随机值初始化我的 Q 表，并以经过 5000 次迭代后看起来像这样的表结束:

-21.9241  345.35 169.189 462.934 308.445 842.939 256.074  712.23 283.328 137.078   -32.8
398.895   968.8 574.977 488.216 468.481 948.541  904.77 159.578 237.928 29.7712 417.599
1314.25 756.426 333.321  589.25 616.682 583.632  481.84 457.585  683.22 329.132 227.329
1127.58 1457.92 1365.58 1429.26 1482.69 1574.66 1434.77 1195.64 1231.01 1232.07    1068
807.592 1070.17  544.13 1385.63 883.123 1662.97  524.08 966.205 1649.67 509.825 909.006
225.453 1141.34 536.544 242.647 1522.26 1484.47 297.704 993.186 589.984  689.73 1340.89
1295.03 310.461 361.776 399.866 663.152 334.657 497.956  229.94 294.462 311.505 1428.26

我的即时奖励是基于每个标记在游戏中的距离乘以常量 10，即执行一个 Action 后。起始位置的位置为 -1，目标位置的位置为 99。中间的所有位置的位置都在 0 - 55 之间。如果目标中有 token ，目标中每个 token 的即时奖励是否会增加额外奖励 +100 .

通常，我的玩家总是将一个标记移动到球门……仅此而已。

最佳答案

Why I am losing so much to random players? Shouldn't the system be able to win if the Q-table isn't changing that much?

这可能是您的 Q-learning 实现中的错误。您说学习的 Q 表中的值与您的预期非常接近。如果值正在收敛，那么我认为它不太可能是错误，而更有可能是...

您的代理正在尽其所能给出状态表示。

Q 表条目会收敛到在给定状态下采取行动的最佳值。为了让这个“最优策略”真正转化为我们称之为好的 Ludo 游戏，代理学习的状态需要直接对应于棋盘游戏的状态。查看您的状态，您可以看到棋盘上的多个棋子排列映射到同一状态。例如，如果您允许玩家拥有多个 token ，则状态空间并不代表所有 token 的位置( Action 空间也不代表)。这可能就是为什么您观察到代理只移动一个 token 然后停止:它看不到它有任何其他操作要采取，因为它相信它已经完成了!举另一个例子来说明这是一个怎样的问题，请注意代理可能希望根据对手棋子的位置采取不同的行动，因此为了发挥最佳效果，代理也需要此信息。此信息需要包含在您的州代表中。

您可以开始向 Q 表添加行，但您会遇到以下问题:Ludo 中有太多可能的状态，无法以表格形式(使用 Q 表)进行学习。 大小类似于您当前的所有状态，乘以棋盘上所有其他标记的每个可能位置。

所以回答这个问题:

in general how many iterations would I have to train my agent?

如果状态空间能够准确表示棋盘的所有排列，则迭代次数过多是不可行的。您需要考虑定义 features 要学习的状态。这些特征将突出显示状态之间的重要差异并丢弃其他特征，因此您可以将其视为压缩代理正在学习的状态空间。然后，您还可以考虑使用函数逼近器 而不是 Q 表来处理可能仍然有大量特征的问题。您可以在 强化学习:简介 中阅读更多相关信息，特别是在 3.9 附近。 .

关于c++ - AI Player 表现不佳？为什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37409528/

26

4

0

文章推荐： C++ 输出错误(新增问题)

文章推荐： javascript - 无法触发手机上的按钮点击(包括代码和链接)

文章推荐： jquery 向 css 函数添加新属性

pthreads - sleep 表现
我正在用 C++ 开发一个程序，我必须实现一个 cron。由于不同的原因，这个 cron 应该每小时和每 24 小时执行一次。我的第一个想法是创建一个独立的 pthread 并在每次 1h 内休眠。这
javascript - 具有不同纹理的多个体素。表现
我需要向同一场景几何添加多个体素(立方体等于)，但每个体素具有不同的纹理。我的体素超过 500 个，导致性能出现严重错误。这是我的代码: texture = crearTextura(voxel.
mysql - 每个用户保存相似记录的单个表还是单独的表？ (表现？？)
对于 MySQL 数据库，我有 2 个场景，我不确定该选择哪一个，并且对于一些表我也遇到了同样的困境。我正在制作一个仅供成员(member)访问的网络应用程序。每个成员都有自己的交易、费用和“列表”
css - 我应该使用哪个？ (表现)
我想知道一个简单的事情: 当设置一个被所有 child 继承的样式时，是否建议最具体？ Structure: html > body > parent_content > wrapper > p 我想
c++ - 矩阵的乘法。表现
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
java - JPA中的显式和隐式JOIN有什么区别？ (表现)
这些天我正在阅读有关 JPA 的内容。我了解到可以在 JPQL 中使用 explicit 或 implicit JOIN。显式加入 em.createQuery(“SELECT b.title, p
c# - 字符串连接与字符串生成器。表现
我有一种情况需要连接几个字符串以形成一个类的 id。基本上，我只是在列表中循环以获取对象的 ToString 值，然后将它们连接起来。 foreach (MyObject o in myList)
javascript - Canvas fillStyle 表现
我正在检查我的游戏在拖尾效果下的性能会降低多少。但我注意到每秒的操作次数更多了。这怎么可能？这是怎么回事... context.fillRect(0, 0, 500, 500); // cl
php - PHP 中的全局变量或传递变量？ (表现)
如果我可以选择使用全局变量或传递变量，哪个选项在速度和内存使用方面更好？ // global variable function func(){ global $var; echo $var;
mysql select 按主键排序。表现
我有一个类似这样的表“tbl”:ID bigint(20) - 主键，自增字段1字段2字段3 该表有 60 万多行。查询:SELECT * from tbl ORDER by ID LIMIT 60
algorithm - 旅行商 (TSP) 表现
谁能告诉我，我如何比较 TSP 最优和启发式算法？我已经实现了 TSP，但不知道如何比较它们。事实上，我怎样才能找到 TSP 的最优成本？有什么方法或猜测吗？谢谢最佳答案用众所周知的基准实例检查
ios - NSTextStorage 里面有长文本。表现
我有一个 NSTextStorage里面有长文本(比如一本书有 500 页，当前字体在设备上超过 9000 页)。我以这种方式为 textcontainer 分发此文本: let textStorag
c# - 按邮政编码查找产品 |半正弦算法 |表现
我有一个根据邮政编码搜索项目的应用程序。在搜索邮政编码时，我返回了来自该城市/社区的所有产品(通过解析邮政编码完成)。我现在需要根据与原始邮政编码的距离对这些产品进行分类。我将纬度/经度存储在数
performance - MPI Alltoallv或更好的个人Send and Recv？ (表现)
我有许多进程(大约100到1000个进程)，每个进程都必须向其他进程(例如大约10个)发送一些数据。 (通常，但不一定总是这样，如果A发送给B，B也发送给A。)每个进程都知道必须从哪个进程接收多少数据
performance - 带有 shouldComponentUpdate 的组件与无状态组件。表现？
我知道无状态组件使用起来更舒服(在特定场景下)，但是既然你不能使用shouldComponentUpdate，这是否意味着组件将在每次props更改时重新渲染？我的问题是，使用带有智能 shouldC
javascript - CSS/JS 即时缩小？ (表现)
我正在研究 Google Pagespeed 的加速页面加载时间指南列表。其中之一是缩小 CSS 和 JS 文件。由于这些文件经常更改，我正在考虑使用 PHP 脚本根据请求(来自浏览器)即时缩小此脚
MySQL 选择每个运动员的最佳(和最老)表现、类别
我正在尝试从下表构建 SQL 查询(示例): Example of table with name "performances" 这是带有运动表现的表格。我想从这个表中选择每个学科和一组一个或多个类别
c++ - 表现。寻找子串。 substr 与查找
假设我们有一个字符串 var "sA"，我想检查字符串 "123"是否在 sA 的末尾。什么更好，为什么: if(sA.length() > 2) sA.substr(sA.length()-3)
c# - Linq group by property 表现
关于受这篇文章启发的可参数化查询 LINQ group by property as a parameter我获得了一个很好的参数化查询，但在性能上有一个缺点。 public static void
c++ - 运算符(operator)表现|与运营商+
| 和| 之间有什么主要区别吗？和 + 从长远来看会影响代码的性能吗？或者都是 O(1)？我正在使用的代码是这样的: uint64_t dostuff(uint64_t a,uint64_t b){

首页

博学

6Ren·AI

商城

c++ - AI Player 表现不佳？为什么？