machine-learning - Q 值无限增加，在 Q-Learning 中重复相同操作后循环奖励的结果-6ren

machine-learning - Q 值无限增加，在 Q-Learning 中重复相同操作后循环奖励的结果

转载作者：行者123 更新时间：2023-11-30 08:26:13

25

4

我正在通过一个简单的应用程序开发一个简单的 Q-Learning 实现，但有一些事情一直让我困惑。

让我们考虑一下Q-Learning的标准制定

Q(S, A) = Q(S, A) + alpha * [R +  MaxQ(S', A') - Q(S, A)]

假设状态 K 有两个可能的操作，均通过 A 授予我们的代理奖励 R 和 R' 和A'。

如果我们遵循几乎完全贪婪的方法(假设我们假设 0.1 epsilon)，我将首先随机选择一个操作，例如 A。下一次，我可能(90％的时间)再次选择A，这将导致 Q(K, A) 不断增长，事实是这样的，即使是偶然的我尝试 A'，因为它的奖励可能与 A 的奖励大小相同，我们将陷入这样一种情况:在剩下的时间里，几乎不可能从我们的第一次猜测中“恢复”学习的内容。

我想这一定不是这样，否则代理基本上不会学习 - 它只是遵循一个简单的秘诀:像第一次一样做所有事情。

我错过了什么吗？我知道我可以调整 alpha 值(通常是随着时间的推移而减小它)，但这绝不会改善我们的情况。

最佳答案

来自this ，我们知道:

The convergence of Q-learning holds using any exploration policy, and only requires that each state action pair (s,a) is executed infinitely often.

epsilon-greedy policy是探索和利用之间的平衡，既保证了收敛性，又保证了良好的性能。但在实际问题中，我们常常需要一些启发式的方法来改变学习速度alpha代表更好的返回。否则，infinite often要求很难满足。

我在下面列出了一个例子。这是一个经典问题，其中您有一个网格，并且每个单元格中可能有不同的奖励金额。例如，如下所示的 4x4 网格，其中每个单元格都包含 1 的奖励，除了左上角的单元格(您将获得更大的奖励，金额为 10 )。一个机器人正在网格中移动。法律行动正在动LEFT , RIGHT , UP和DOWN ，但机器人无法移出网格。

所以我们的状态空间包含 16 个不同的状态，对应于 16 个单元。由于边界限制，每个州的法律诉讼数量不同。我们的目标是计算最优策略(给定任何状态 s ，输出最优操作 a )。

+++++++++++++++++++++
+ 10 +  1 +  1 + 1  +
+++++++++++++++++++++
+ 1  +  1 +  1 + 1  +
+++++++++++++++++++++
+ 1  +  1 +  1 + 1  +
+++++++++++++++++++++
+ 1  +  1 +  1 + 1  +
+++++++++++++++++++++

假设我们使用 epsilon-greedy policy与 epsilon=0.1 ，恒定的学习率alpha=0.1 。我们从网格上的随机位置开始。每当我们到达左上角时，我们都会再次以随机位置重新开始。

下面是运行 200,000 步模拟的结果。最左边的 block 直观地显示了每个单元格当前的贪婪策略。

-->向右移动
<--向左移动
^向上移动
v向下移动

所以你会发现这远非最佳政策。显然，在最优策略中，每个单元格都应该指向左或上，因为我们在位置 (0,0) 处有更大的奖励.

 v   v   v   v   |      2      9      5      4   
 v   v   v   v   |     14     98     75     14   
-->  v   v  <--  |    258   3430   3312    245  
--> --> <-- <--  |   3270  93143  92978   3191

右侧的 block 显示了到目前为止我们访问每个单元格的次数。您会看到，我们大部分访问都在底部，但很少访问顶行。这就是为什么我们还没有达到最优策略的原因。

如果我们将学习率更改为 alpha=1/(number of times you visited (s,a) so far) ，我们能够在 20,000 步内达到最优策略(如下所示)。此外，我们访问每个单元格的次数分布更加均匀，尽管并不完美。

 --> <-- <-- <--  |     34   7997   7697    294 
  ^   ^   ^  <--  |    731    898    524    132 
  ^   ^   ^   ^   |    709    176     88     94 
  ^   ^   ^   ^   |    245    256     96     77

对于具有更多状态的更大问题，例如 10x10 网格，我发现最好使用更大的 epsilon 。例如，下面是在 10x10 网格上进行 80,000 次移动后的模拟结果 epsilon=0.5 。除了右下角之外，它几乎是最佳的。还有idea关于使用模拟退火来帮助提高 Q 学习的收敛速度。

 v  <-- <-- <-- <-- <-- <-- <-- <-- <--  |     19   2500   1464    716    386    274    216    159    121     71 
 ^  <-- <-- <-- <--  v  <-- <-- <-- <--  |   9617  11914   3665   1071    580    410    319    225    207    131 
 ^   ^   ^  <-- <-- <-- <--  v  <-- <--  |   5355   5716   2662   1675   1465    611    302    183    162    101 
 ^   ^   ^   ^   ^  <-- <-- <-- <-- <--  |   1604   1887   1192    621   1056    882    693    403    206    100 
 ^   ^   ^   ^   ^   ^   ^  <-- <-- <--  |    639    735    731    333    412    399    480    294    172    114 
 ^   ^   ^  <--  ^   ^   ^  <-- <--  ^   |    373    496    640    454    272    266    415    219    107     98 
 ^   ^   ^   ^   ^   ^   ^   ^  <--  ^   |    251    311    402    428    214    161    343    176    114     99 
 ^   ^   ^   ^  <-- -->  ^  <-- <-- <--  |    186    185    271    420    365    209    359    200    113     70 
 ^   ^   ^   ^   ^   ^   ^   ^   v   v   |    129    204    324    426    434    282    235    131     99     74 
 ^   ^   ^   ^   ^  <--  ^  <-- <-- <--  |    100    356   1020   1233    703    396    301    216    152     78

顺便说一句，我的玩具问题的 Python 代码(约 100 行)是 here 。

关于machine-learning - Q 值无限增加，在 Q-Learning 中重复相同操作后循环奖励的结果，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13148934/

25

4

0

文章推荐： java - 重写我的世界服务器(获取/编辑源代码并重新编译)

文章推荐： Java readLine() 无法正常工作

javascript - 如何使列表项滚动动画看起来连续/无限
我有 3 个列表项，每 3 秒向上旋转一次。我正在使用 transformY 属性来做这件事。问题是，当它到达最后一个元素时，它会循环返回，从而产生重新开始的效果。如何通过在最后一项之后继续向上旋转
无限/重复世界的数学/计算与旋转
我如何制作一个处理旋转的无限/重复世界，就像在这个游戏中一样: http://bloodfromastone.co.uk/retaliation.html 我通过具有这样的层次结构对我的旋转移动世界进
javascript - 是否可以不限制字符重复的正则表达式范围的上限值(无限)？
这个问题已经有答案了: Using explicitly numbered repetition instead of question mark, star and plus (4 个回答) 已关闭
java - 无限 while 循环以及读取文件时出现问题
程序说明: I have this program of mine which is intended to read every word from a file (large one) and t
java - 无限 While 循环
while 循环应该比较这两个对象的 ibsn。正在比较的对象: list[0] = new ReadingMatter ("Words and Stuff", "9-082-1090-1");
JavaScript 无限 For 循环
已关闭。这个问题是 not reproducible or was caused by typos 。目前不接受答案。这个问题是由拼写错误或无法再重现的问题引起的。虽然类似的问题可能是 on-top
c - 无限 while 循环中的信号
我完全被屏蔽了。我尝试修改 C 中的“警报”信号，以便在秒数到期时读取一个简单的变量。我的代码如下: 在主要部分: int semnal; signal(SIGALRM, alarmHandle
Java 无限 While 循环
我正在接受多行信息(字符串，直到我稍后解析它们)。例如: 1 5 0 2 9 6 2 9 1 我编写这段代码来分隔行，因为我将不得不以某种方式操作每一行。 Scanner scan = new Sca
javascript - 如何制作动态名称选择器(无限)
我不熟悉 jQuery，并且我有多余的 jQuery 调用，我想将它们放入循环中。 $('.class1').on('click', function () { ... $('.class2').on
php - 广度优先搜索方式的一般树遍历(无限)
我有一个树结构，其中每个节点都有 5 个子节点，并且不允许超过 5 个。我希望以广度优先搜索的方式遍历这棵树。现在我想使用广度优先搜索方式从选定的父节点计算空节点。例如如果给定的父节点为 1，则
PHP 无限 while 循环阻止对脚本的其他调用
目标/动机我想写一个服务，它应该一直运行。但是当服务已经运行时，应该不可能再次启动该服务。用例用户 X 打开页面 myService.php 并通过单击页面上的按钮启动服务。之后关闭浏览器。一段
c++ - “无限”未在此范围内声明
我正在尝试编译 shogun 工具箱，但遇到了这个错误 C:/shogun-3.0.0/shogun-3.0.0/src/shogun/../shogun/mathematics/Math.h
javascript - 无限 6 面骰子滚轮
需要学校的 JavaScript 作业帮助，但不知道该怎么做，希望得到一些提示？我们应该创建一个 6 面掷骰子程序，用户可以选择应该掷多少个骰子，最少 1 个和最多 5 个骰子。所用骰子数量的总和
iphone - 无限 ScrollView 的动画
我在无限 ScrollView 中有 5 张图片。因此，为了使 scrollView 无限/循环，我将图像定位如下: 5 1 2 3 4 5 1含义:最后一张图片第一张图片第二张图片.....最后一
elixir - 如何中断(无限)流？
我正在使用 ExTwitter库，并希望能够偶尔终止对流式 API 的调用以更改参数。我当前的代码看起来像这样: for tweet #finished end 关于elixir - 如何中断(无
Javascript/jQuery - 动画背景随着淡入淡出而变化(无限)
我想每 3 秒更改一次 div 的背景。这需要循环，因此一旦最后一个背景图像显示，它就会循环回到第一个背景图像，依此类推。我在这样做时遇到了麻烦。我之前发过一篇文章，内容非常模糊，没有得到帮助。
javascript - AngularJS:无限$digest循环错误？
我在做this教程，无法让我的页面正确加载。我不断在控制台中收到错误:[$rootScope:infdig]。我对 Angular 很陌生，但从我读到的内容来看，我在某个地方有一个无限循环。我预计它
javascript - 无限 asyncIterator 未按预期工作
所以我试图创建一个无限的 asyncIterator/生成器。该代码应该为“for wait of”循环生成“Hello”和“Hi”，然后永远等待下一个值。问题是它不等待第三个值，也不在循环后打印 2
javascript - 无限 Canvas 背景滚动无卡顿
下图显示了我如何在 HTML5/JS 中制作无限背景滚动。我的连续背景由 X block Canvas 组成。我将在到达下一个 Canvas 之前立即渲染它，并释放上一个 Canvas。这里的问题是动
storage - 无限(或非常高)长度的整数存储
作为一个业余项目，我正在研究一些自制的素数生成问题，尝试编写一些不同的实现作为自学 C 和 C++ 的方法。当然，生成低素数的最快方法是已经拥有它们，所以我想着手建立一个硬盘素数列表数据文件。我想编写

首页

博学

6Ren·AI

商城

machine-learning - Q 值无限增加，在 Q-Learning 中重复相同操作后循环奖励的结果