gpt4 book ai didi

machine-learning - 深度强化学习——如何处理 Action 空间的边界

转载 作者:行者123 更新时间:2023-11-30 09:06:25 25 4
gpt4 key购买 nike

我构建了一个自定义强化学习环境代理,类似于迷宫游戏。

在迷宫中有 5 种可能的 Action :上、下、左、右和停留。而如果被阻止,例如agent 上不去,那么如何设计 envagent 来模拟呢?

具体来说,代理处于当前状态 s0,根据定义,采取下、左、右操作会将状态更改为其他一些值,并立即获得奖励(如果在导出处)。一种可能的方法是当采取行动up时,状态将保持在s0并且奖励将是一个大的负数。理想情况下,代理会了解这一点,并且在这种状态下永远不会再次上升

但是,我的经纪人似乎没有学到这一点。相反,它仍然上升。另一种方法是对代理和环境进行硬编码,使代理在s0时无法执行操作up,我能想到的是:

  1. 当在某​​些状态下不允许up时,我们会查看不同操作的 Q 值
  2. 选择除向上之外Q值最大的 Action
  3. 因此,代理永远不会执行无效操作

请问上面的方法可行吗?会不会有相关的问题?或者有更好的设计来处理边界和无效 Action 吗?

最佳答案

我已经多次看到这个问题,代理会坚持单一操作。我在以下情况中看到过这种情况:

  1. 输入图像未标准化,因此梯度变得巨大,整个网络对单个 Action 饱和。
  2. 我没有使用熵加成来增加初始搜索的随机性。有关这项工作的更多详细信息请查找here .

希望对您有所帮助。

关于machine-learning - 深度强化学习——如何处理 Action 空间的边界,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51127979/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com