artificial-intelligence - QLearning中的负奖励-6ren

artificial-intelligence - QLearning中的负奖励

转载作者：行者123 更新时间：2023-12-04 08:43:42

26

4

假设我们在一个代理可以沿着xx和yy轴移动的房间里。在每个点上，他都可以上下左右移动。因此，我们的状态空间可以由(x，y)定义，而我们在每个点上的 Action 都可以由(上，下，右，左)给出。假设我们的特工在任何执行使他撞墙的行动中，都会给他-1的负返回，并使他回到以前的状态。如果他在房间中央发现一个木偶，他将获得+10奖励。

当我们更新给定状态/ Action 对的QValue时，我们会看到在新状态下可以执行哪些 Action ，并计算出可能到达该状态的最大QValue，因此我们可以更新Q(s，a)当前状态/操作的值。这意味着，如果我们在点(10，10)中有一个目标状态，则它周围的所有状态的QValue会随着距离的变远而越来越小。现在，在与墙壁的关系中，在我看来这是不正确的。

当业务代表撞墙时(假设他处于位置(0，0)并进行了 Action UP)，他将为该状态/ Action 获得-1的奖励，从而获得-1的QValue。

现在，如果稍后我处于状态(0，1)，并假设状态(0,0 0)的所有其他 Action 均为零，则在为 Action LEFT计算(0，1)的QValue时，它将计算它可以通过以下方式:

Q([0,1], LEFT) = 0 + gamma * (max { 0, 0, 0, -1 } ) = 0 + 0 = 0

这就是说，碰壁不会传播到附近的状态，这与当您拥有积极的奖励状态时发生的情况相反。

在我看来，这似乎很奇怪。起初，我认为找到给予负面奖励的状态/ Action 对与正面奖励一样是学习上的明智之举，但是从我上面显示的示例来看，这种说法似乎并不成立。在算法中似乎存在偏见，其要更多地考虑正向奖励而不是负向奖励。

这是QLearning的预期行为吗？不好的奖励不应该和积极的奖励一样重要吗？什么是“解决方法”？

最佳答案

您可以通过将默认奖励从0增加到1，将目标奖励从10增加到11，将惩罚从-1增加到0来避免负面奖励。

有大量关于Q学习的科学出版物，所以我敢肯定，还有其他一些可以带来负面反馈的表述。

编辑:
我的立场是正确的，这不会改变我之前所说的行为。
我的思考过程是，可以将带有负反馈的表述替换为没有该表述的表述。

进行观察的原因是您对操作结果或操作状态没有不确定性，因此您的代理人始终可以选择其认为具有最佳返回的操作(因此，所有 future 操作的最大Q值) 。这就是为什么您的负面反馈不会传播的原因:代理人将来只会避免采取这种行动。

但是，如果您的模型将包括行动结果的不确定性(例如，总是有10％的概率朝随机方向移动)，则您的学习规则应整合所有 future 可能的返回(基本上是将最大 yield 替换为加权 yield )和)。在那种情况下，负面反馈也可以传播(这就是为什么我认为应该有可能:p)。此类模型的示例为POMDPs。

关于artificial-intelligence - QLearning中的负奖励，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1844178/

26

4

0

文章推荐： asp.net - 401 向 web api 发送 ajax 请求时未经授权

文章推荐： restkit - 我可以使用 RestKit 和 Realm.io 吗？

文章推荐： artificial-intelligence - A* 搜索算法启发式函数

badge - 如何以最少的系统命中率处理您的应用程序的成就/徽章/奖励？
我喜欢我正在设计的网站的徽章和成就的概念。它们已被证明可以提高使用率/利用率，我认为这可能是我想要开发的应用程序的一大动力。在高层次上，我可以想到 3 种方法来做到这一点。检查满足作为 cron
ios - 使用ARKit作为“奖励”的普通应用程序？
我正在用ARKit做一些实验，并试图在iPhone 5S中运行，只是想看看会发生什么: 我在Xcode 9.0 beta 6中收到此错误: “ARDemo”需要iPhone不支持的“ARKit”功能
java - 如何在Optaplanner的coursecourse XML文件中设置积极的软约束(奖励)
我们在 OptaPlanner 的 XML 文件中为类(class)问题添加负软约束，例如 0 但是
android - 为什么缩小会导致错误 "JSONObject["奖励“] 不是字符串”？
不知何故，从一个应用程序发布到另一个，org.json 库的内部结构崩溃了。它无法再将键的内容作为字符串读取。下面是一个代码示例，该代码在启用 minify/R8/proguard 时可以正常工作并且
asp.net 图像上传控件(奖励 - 允许用户在保存之前裁剪图像)
我们有一个场景，我们希望允许用户将图像上传到网站。我们在 ASP.Net 上运行。快速搜索并没有找到任何好的结果。如果该控件是免费/开源的，那就太好了，但我们不介意支付一点费用。最佳答案我强烈推
javascript - Electron 通知在 macOS 上不起作用(奖励 mdn 语音 api)
我正在尝试使用 Electron 框架在 macOS 上创建通知。我已经从 GitHub 克隆了开源快速入门，我的 renderer.js 进程中的唯一代码如下: var myNoti
java - 如何 Google Pay 在“奖励”页面的 GridView 中显示不同类型的卡
我想知道 Google Pay 如何在“您的奖励”页面的 GridView 中显示不同类型的卡片。我正在尝试开发像 Google Pay 这样的卡最佳答案有许多库可用于开发 Google Pay
asp.net-mvc - 通过示例学习ASP MVC。奖励: an example that uses MVVM in microsoft's MVC framework
我觉得是时候从Webforms升级到MVC了。我已经编写了Webforms和jquery很长时间了。你们都可以建议您喜欢的资源来学习这项技术吗？奖励:我对使用ViewModel(不一定是MVVM框

首页

博学

6Ren·AI

商城

artificial-intelligence - QLearning中的负奖励