- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试实现一个使用 Q-learning 来玩的代理 Ludo .我用一个 e-greedy Action 选择器训练它,epsilon 为 0.1,学习率为 0.6,折扣因子为 0.8。
我跑了大约 50K 步的游戏,还没有赢过一场比赛。这令人费解,因为 Q 表似乎与我想要的非常准确。为什么我会输给随机玩家这么多?如果 Q 表变化不大,系统难道不能获胜吗?一般来说,我需要多少次迭代来训练我的代理?
我不确定需要多少信息,如果需要我会用相关信息更新帖子。
可能的状态,表示为 Q 表中的行:
可能的操作,表示为每个状态的列:
我首先使用随机值初始化我的 Q 表,并以经过 5000 次迭代后看起来像这样的表结束:
-21.9241 345.35 169.189 462.934 308.445 842.939 256.074 712.23 283.328 137.078 -32.8
398.895 968.8 574.977 488.216 468.481 948.541 904.77 159.578 237.928 29.7712 417.599
1314.25 756.426 333.321 589.25 616.682 583.632 481.84 457.585 683.22 329.132 227.329
1127.58 1457.92 1365.58 1429.26 1482.69 1574.66 1434.77 1195.64 1231.01 1232.07 1068
807.592 1070.17 544.13 1385.63 883.123 1662.97 524.08 966.205 1649.67 509.825 909.006
225.453 1141.34 536.544 242.647 1522.26 1484.47 297.704 993.186 589.984 689.73 1340.89
1295.03 310.461 361.776 399.866 663.152 334.657 497.956 229.94 294.462 311.505 1428.26
我的即时奖励是基于每个标记在游戏中的距离乘以常量 10,即执行一个 Action 后。起始位置的位置为 -1,目标位置的位置为 99。中间的所有位置的位置都在 0 - 55 之间。如果目标中有 token ,目标中每个 token 的即时奖励是否会增加额外奖励 +100 .
通常,我的玩家总是将一个标记移动到球门……仅此而已。
最佳答案
Why I am losing so much to random players? Shouldn't the system be able to win if the Q-table isn't changing that much?
这可能是您的 Q-learning 实现中的错误。您说学习的 Q 表中的值与您的预期非常接近。如果值正在收敛,那么我认为它不太可能是错误,而更有可能是...
您的代理正在尽其所能给出状态表示。
Q 表条目会收敛到在给定状态下采取行动的最佳值。为了让这个“最优策略”真正转化为我们称之为好的 Ludo 游戏,代理学习的状态需要直接对应于棋盘游戏的状态。查看您的状态,您可以看到棋盘上的多个棋子排列映射到同一状态。例如,如果您允许玩家拥有多个 token ,则状态空间并不代表所有 token 的位置( Action 空间也不代表)。这可能就是为什么您观察到代理只移动一个 token 然后停止:它看不到它有任何其他操作要采取,因为它相信它已经完成了!举另一个例子来说明这是一个怎样的问题,请注意代理可能希望根据对手棋子的位置采取不同的行动,因此为了发挥最佳效果,代理也需要此信息。此信息需要包含在您的州代表中。
您可以开始向 Q 表添加行,但您会遇到以下问题:Ludo 中有太多可能的状态,无法以表格形式(使用 Q 表)进行学习。 大小类似于您当前的所有状态,乘以棋盘上所有其他标记的每个可能位置。
所以回答这个问题:
in general how many iterations would I have to train my agent?
如果状态空间能够准确表示棋盘的所有排列,则迭代次数过多是不可行的。您需要考虑定义 features 要学习的状态。这些特征将突出显示状态之间的重要差异并丢弃其他特征,因此您可以将其视为压缩代理正在学习的状态空间。然后,您还可以考虑使用函数逼近器 而不是 Q 表来处理可能仍然有大量特征的问题。您可以在 强化学习:简介 中阅读更多相关信息,特别是在 3.9 附近。 .
关于c++ - AI Player 表现不佳?为什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37409528/
我正在用 C++ 开发一个程序,我必须实现一个 cron。由于不同的原因,这个 cron 应该每小时和每 24 小时执行一次。我的第一个想法是创建一个独立的 pthread 并在每次 1h 内休眠。这
我需要向同一场景几何添加多个体素(立方体等于),但每个体素具有不同的纹理。 我的体素超过 500 个,导致性能出现严重错误。 这是我的代码: texture = crearTextura(voxel.
对于 MySQL 数据库,我有 2 个场景,我不确定该选择哪一个,并且对于一些表我也遇到了同样的困境。 我正在制作一个仅供成员(member)访问的网络应用程序。每个成员都有自己的交易、费用和“列表”
我想知道一个简单的事情: 当设置一个被所有 child 继承的样式时,是否建议最具体? Structure: html > body > parent_content > wrapper > p 我想
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visit the help center . 关闭 1
这些天我正在阅读有关 JPA 的内容。我了解到可以在 JPQL 中使用 explicit 或 implicit JOIN。 显式加入 em.createQuery(“SELECT b.title, p
我有一种情况需要连接几个字符串以形成一个类的 id。基本上,我只是在列表中循环以获取对象的 ToString 值,然后将它们连接起来。 foreach (MyObject o in myList)
我正在检查我的游戏在拖尾效果下的性能会降低多少。但我注意到每秒的操作次数更多了。这怎么可能? 这是怎么回事... context.fillRect(0, 0, 500, 500); // cl
如果我可以选择使用全局变量或传递变量,哪个选项在速度和内存使用方面更好? // global variable function func(){ global $var; echo $var;
我有一个类似这样的表“tbl”:ID bigint(20) - 主键,自增字段1字段2字段3 该表有 60 万多行。 查询:SELECT * from tbl ORDER by ID LIMIT 60
谁能告诉我,我如何比较 TSP 最优和启发式算法?我已经实现了 TSP,但不知道如何比较它们。事实上,我怎样才能找到 TSP 的最优成本?有什么方法或猜测吗? 谢谢 最佳答案 用众所周知的基准实例检查
我有一个 NSTextStorage里面有长文本(比如一本书有 500 页,当前字体在设备上超过 9000 页)。我以这种方式为 textcontainer 分发此文本: let textStorag
我有一个根据邮政编码搜索项目的应用程序。 在搜索邮政编码时,我返回了来自该城市/社区的所有产品(通过解析邮政编码完成)。 我现在需要根据与原始邮政编码的距离对这些产品进行分类。 我将纬度/经度存储在数
我有许多进程(大约100到1000个进程),每个进程都必须向其他进程(例如大约10个)发送一些数据。 (通常,但不一定总是这样,如果A发送给B,B也发送给A。)每个进程都知道必须从哪个进程接收多少数据
我知道无状态组件使用起来更舒服(在特定场景下),但是既然你不能使用shouldComponentUpdate,这是否意味着组件将在每次props更改时重新渲染?我的问题是,使用带有智能 shouldC
我正在研究 Google Pagespeed 的加速页面加载时间指南列表。其中之一是缩小 CSS 和 JS 文件。 由于这些文件经常更改,我正在考虑使用 PHP 脚本根据请求(来自浏览器)即时缩小此脚
我正在尝试从下表构建 SQL 查询(示例): Example of table with name "performances" 这是带有运动表现的表格。我想从这个表中选择每个学科和一组一个或多个类别
假设我们有一个字符串 var "sA",我想检查字符串 "123"是否在 sA 的末尾。 什么更好,为什么: if(sA.length() > 2) sA.substr(sA.length()-3)
关于受这篇文章启发的可参数化查询 LINQ group by property as a parameter我获得了一个很好的参数化查询,但在性能上有一个缺点。 public static void
| 和| 之间有什么主要区别吗?和 + 从长远来看会影响代码的性能吗?或者都是 O(1)?我正在使用的代码是这样的: uint64_t dostuff(uint64_t a,uint64_t b){
我是一名优秀的程序员,十分优秀!