gpt4 book ai didi

reinforcement-learning - 我们如何为 RL 算法设计奖励以激励组指标?

转载 作者:行者123 更新时间:2023-12-05 04:21:23 27 4
gpt4 key购买 nike

我正在设计一个强化学习代理来引导道路有限区域内的个别汽车。该政策决定了汽车应该走哪条路线。

每辆车都可以看到其 10 英里范围内的车辆、它们的速度以及整个边界区域的道路图。基于 RL 的代理的策略必须确定汽车的行为,以便最大限度地提高交通流量,假设通过减少拥堵来定义。

我们如何设计奖励来激励每辆汽车不要贪婪地行动并最大限度地提高自己的速度,而是尽量减少整个边界区域内的拥堵?

我尝试编写一种基于 Q-learning 的方法来为每辆车安排路线,但这最终迫使每辆车贪婪地选择最短路线,将车辆挤在一起造成了很多拥堵。

最佳答案

很高兴看到更多人致力于合作 MARL。 Shameless plug for my research effort ,随时联系我们讨论。

我认为您需要退后一步来回答您的问题。您询问如何设计奖励以使代理人受益于环境而不是他们自己。现在,如果你愿意,你可以根据人口的总福利给每个代理人一个奖励。这可能会奏效,但您可能不希望这样,因为它违背了多代理环境的目的,对吧?

如果您希望智能体自私但又以某种方式收敛到合作解决方案,这是一个非常困难的问题(这正是我正在研究的问题。)

如果您同意妥协,您可以使用内在动机,就像在这些论文中那样:

所有这些论文的共同点是它们为每个代理人的奖励添加了另一个组成部分。该组件是亲社会的,例如激励代理人增加其对其他代理人行为的影响。与直接将奖励作为社会福利相比,这仍然是一个不太极端的解决方案。

关于reinforcement-learning - 我们如何为 RL 算法设计奖励以激励组指标?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/74228827/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com