gpt4 book ai didi

c++ - AI Player 表现不佳?为什么?

转载 作者:行者123 更新时间:2023-11-28 05:39:41 26 4
gpt4 key购买 nike

我正在尝试实现一个使用 Q-learning 来玩的代理 Ludo .我用一个 e-greedy Action 选择器训练它,epsilon 为 0.1,学习率为 0.6,折扣因子为 0.8。

我跑了大约 50K 步的游戏,还没有赢过一场比赛。这令人费解,因为 Q 表似乎与我想要的非常准确。为什么我会输给随机玩家这么多?如果 Q 表变化不大,系统难道不能获胜吗?一般来说,我需要多少次迭代来训练我的代理?

我不确定需要多少信息,如果需要我会用相关信息更新帖子。

可能的状态,表示为 Q 表中的行:

  1. 在家里
  2. 在地球上
  3. 在星星上
  4. 进球
  5. 致胜之路
  6. 与相同颜色的球员安全
  7. 关于可用空间

可能的操作,表示为每个状态的列:

  1. 从家里搬出去
  2. 进入目标
  3. 移动到全局
  4. 移至星标
  5. 通过星标移动到目标
  6. 使用相同颜色的 token 进入安全地带
  7. 进入赢家之路
  8. 如果对手在地球上则自杀
  9. 杀死对手
  10. 只是移动
  11. 不可能移动

我首先使用随机值初始化我的 Q 表,并以经过 5000 次迭代后看起来像这样的表结束:

-21.9241  345.35 169.189 462.934 308.445 842.939 256.074  712.23 283.328 137.078   -32.8
398.895 968.8 574.977 488.216 468.481 948.541 904.77 159.578 237.928 29.7712 417.599
1314.25 756.426 333.321 589.25 616.682 583.632 481.84 457.585 683.22 329.132 227.329
1127.58 1457.92 1365.58 1429.26 1482.69 1574.66 1434.77 1195.64 1231.01 1232.07 1068
807.592 1070.17 544.13 1385.63 883.123 1662.97 524.08 966.205 1649.67 509.825 909.006
225.453 1141.34 536.544 242.647 1522.26 1484.47 297.704 993.186 589.984 689.73 1340.89
1295.03 310.461 361.776 399.866 663.152 334.657 497.956 229.94 294.462 311.505 1428.26

我的即时奖励是基于每个标记在游戏中的距离乘以常量 10,即执行一个 Action 后。起始位置的位置为 -1,目标位置的位置为 99。中间的所有位置的位置都在 0 - 55 之间。如果目标中有 token ,目标中每个 token 的即时奖励是否会增加额外奖励 +100 .

通常,我的玩家总是将一个标记移动到球门……仅此而已。

最佳答案

Why I am losing so much to random players? Shouldn't the system be able to win if the Q-table isn't changing that much?

这可能是您的 Q-learning 实现中的错误。您说学习的 Q 表中的值与您的预期非常接近。如果值正在收敛,那么我认为它不太可能是错误,而更有可能是...

您的代理正在尽其所能给出状态表示。

Q 表条目会收敛到在给定状态下采取行动的最佳值。为了让这个“最优策略”真正转化为我们称之为好的 Ludo 游戏,代理学习的状态需要直接对应于棋盘游戏的状态。查看您的状态,您可以看到棋盘上的多个棋子排列映射到同一状态。例如,如果您允许玩家拥有多个 token ,则状态空间并不代表所有 token 的位置( Action 空间也不代表)。这可能就是为什么您观察到代理只移动一个 token 然后停止:它看不到它有任何其他操作要采取,因为它相信它已经完成了!举另一个例子来说明这是一个怎样的问题,请注意代理可能希望根据对手棋子的位置采取不同的行动,因此为了发挥最佳效果,代理也需要此信息。此信息需要包含在您的州代表中。

您可以开始向 Q 表添加行,但您会遇到以下问题:Ludo 中有太多可能的状态,无法以表格形式(使用 Q 表)进行学习。 大小类似于您当前的所有状态,乘以棋盘上所有其他标记的每个可能位置。

所以回答这个问题:

in general how many iterations would I have to train my agent?

如果状态空间能够准确表示棋盘的所有排列,则迭代次数过多是不可行的。您需要考虑定义 features 要学习的状态。这些特征将突出显示状态之间的重要差异并丢弃其他特征,因此您可以将其视为压缩代理正在学习的状态空间。然后,您还可以考虑使用函数逼近器 而不是 Q 表来处理可能仍然有大量特征的问题。您可以在 强化学习:简介 中阅读更多相关信息,特别是在 3.9 附近。 .

关于c++ - AI Player 表现不佳?为什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37409528/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com