- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在查看FrozenLake environments在露天健身房。在这两种方法中,在智能体达到目标之前,都没有奖励,甚至没有负奖励。即使特工掉进冰里,也没有负面奖励——尽管情节结束了。没有奖励,就没有什么可学的!每集都从头开始,没有从之前的剧集中受益。
这应该是一个简单的广度优先搜索。它不需要RL。但假设您使用 RL,一种方法是,如果迈入卡住方 block (这不是目标),则奖励 -1;如果迈入洞,则奖励 -10。 -1 可以让智能体学会不重复方 block 。 -10 可以让智能体学会避开漏洞。所以我很想在代理方面创造自己的负面奖励。这会让它更像悬崖行者。
我错过了什么?在没有奖励的情况下,强化学习将如何解决这个问题(除了通过随机搜索)?
最佳答案
您所描述的问题通常用 Reward Shaping 来回答.
喜欢结冰的湖泊环境或Montazuma's Revenge ,有些问题的奖励非常稀疏。这意味着任何 RL 智能体都必须花费很长时间来探索环境才能看到这些奖励。对于为代理设计任务的人来说,这可能会非常令人沮丧。因此,就像在冰冻的湖泊环境中一样,人们经常像您建议的那样添加额外的信息。这使得奖励函数更加密集,并且(有时)允许更快的学习(如果修改后的奖励函数实际上遵循人类希望代理执行的操作)。
为了使代理能够比随机搜索更快地解决此类问题,并且无需人工干预(例如奖励塑造或向代理提供专家玩游戏的视频),代理需要某种机制来探索空间智能方式[citation needed ].
该主题当前的一些研究领域是 Intrinsic Motivation , Curiosity ,和 Options和 Option discovery .
尽管前景光明,但这些研究领域仍处于起步阶段,有时说起来更容易:
if agent_is_in_a_hole:
return -10
关于openai-gym - FrozenLake OpenAI-Gym 环境如何在没有中间奖励的情况下解决?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51236984/
我是一名优秀的程序员,十分优秀!