- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在设计一个强化学习代理来引导道路有限区域内的个别汽车。该政策决定了汽车应该走哪条路线。
每辆车都可以看到其 10 英里范围内的车辆、它们的速度以及整个边界区域的道路图。基于 RL 的代理的策略必须确定汽车的行为,以便最大限度地提高交通流量,假设通过减少拥堵来定义。
我们如何设计奖励来激励每辆汽车不要贪婪地行动并最大限度地提高自己的速度,而是尽量减少整个边界区域内的拥堵?
我尝试编写一种基于 Q-learning 的方法来为每辆车安排路线,但这最终迫使每辆车贪婪地选择最短路线,将车辆挤在一起造成了很多拥堵。
最佳答案
很高兴看到更多人致力于合作 MARL。 Shameless plug for my research effort ,随时联系我们讨论。
我认为您需要退后一步来回答您的问题。您询问如何设计奖励以使代理人受益于环境而不是他们自己。现在,如果你愿意,你可以根据人口的总福利给每个代理人一个奖励。这可能会奏效,但您可能不希望这样,因为它违背了多代理环境的目的,对吧?
如果您希望智能体自私但又以某种方式收敛到合作解决方案,这是一个非常困难的问题(这正是我正在研究的问题。)
如果您同意妥协,您可以使用内在动机,就像在这些论文中那样:
所有这些论文的共同点是它们为每个代理人的奖励添加了另一个组成部分。该组件是亲社会的,例如激励代理人增加其对其他代理人行为的影响。与直接将奖励作为社会福利相比,这仍然是一个不太极端的解决方案。
关于reinforcement-learning - 我们如何为 RL 算法设计奖励以激励组指标?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/74228827/
注意:我对“qu/estion”表示歉意,但是 stackoverflow 阻止我在标题中添加“问题”。 如何用一个可以解决的新问题临时覆盖之前提出的 rl.question ,并且旧问题可以返回?这
对不起,如果这是一个“nooby”问题,但我真的不知道如何解决它。我已经使用 Ananconda 安装了 keras 和许多其他用于深度学习的东西,但现在我想尝试用强化学习来做一些事情。所以我读到我需
目录 一个总述 摘要 1 intro 2 related work 3 preliminaries
当我为各种问题实现代理时......我发现我的 Actor 损失正在按预期减少。但是我的 critic loss 一直在增加,尽管学到的策略非常多。这发生在 DDPG 、 PPO 等。 关于我的评论家
关闭。这个问题是off-topic .它目前不接受答案。 想改善这个问题吗? Update the question所以它是 on-topic对于堆栈溢出。 8年前关闭。 Improve this q
我知道这是个愚蠢的问题,但我找不到合适的表达方式。 我曾使用过 TensorFlow 和 TFAgents,现在正转向 Ray RLlib。查看所有 RL 框架/库,我对以下两者之间的区别感到困惑:
我正在设计一个强化学习代理来引导道路有限区域内的个别汽车。该政策决定了汽车应该走哪条路线。 每辆车都可以看到其 10 英里范围内的车辆、它们的速度以及整个边界区域的道路图。基于 RL 的代理的策略必须
我目前正在尝试通过 Rete 算法实现 OWL2 RL。我遇到了以下问题:How to implement lists needed for example in this rule: eq-diff
我正在尝试在 OR-TOOLS RL VRPTW 问题中强制执行位移长度约束。类次时长是车辆在服务中的总时间(运输 + 等待 + 服务),从到达第一个位置到离开最后一个位置。 它看起来像一个 Time
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 这个问题似乎与 help center 中定义的范围内的编程无关。 . 关闭 7 年前。 Improve
我正在尝试在 OR-TOOLS RL VRPTW 问题中强制执行位移长度约束。类次时长是车辆在服务中的总时间(运输 + 等待 + 服务),从到达第一个位置到离开最后一个位置。 它看起来像一个 Time
我是强化学习的新手。我有一个关于 keras-rl 代理的输出层激活函数选择的问题。在 keras-rl ( https://github.com/matthiasplappert/keras-rl/
这看起来应该很容易做到,但我在文档中找不到任何内容。 我有一系列问题想问,其中一个我想重新问,直到我得到有效答案。像这样: rl.question('Author: ', function(answe
我们必须在我们的项目中使用 RL-RTX (RTOS)。我们必须制作一些网页。我们有使用“go-ahead webserver”在 Linux 中构建网页的经验。 我们可以用 C 语言编码并将可执行文
我正在尝试解析一个文件,并将“foobar”的行替换为“bazbar”的行。它只是返回一个空文件。我不知道我做错了什么,文档也不是特别有用。 var readline = require('readl
在 Sutton's book on RL ,在蒙特卡罗政策评估下,他在第 111 页提到注意估计单个状态值的计算费用与状态数量无关。然而,对于蒙特卡洛来说: 状态的平均返回是从第一次遇到该状态时到该
我对具有正向和负向奖励的环境中的适当激活函数有疑问。 在强化学习中,我相信我们的输出应该是所有可能行动的预期奖励。由于某些选项具有负奖励,因此我们希望输出范围包含负数。 这让我相信唯一合适的激活函数要
我知道强化学习的基础知识,但是需要了解哪些术语才能读取 arxiv PPO paper ? 学习和使用 PPO 的路线图是什么? 最佳答案 为了更好地理解 PPO,看一下论文的主要贡献是有帮助的,它们
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。 想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。 6年前关闭。 Improve thi
根据这些人 (https://nihit.github.io/resources/spaceinvaders.pdf) 的说法,可以通过深度强化学习来执行早期停止。我之前在 Keras 上的深度学习中
我是一名优秀的程序员,十分优秀!