gpt4 book ai didi

openai-gym - FrozenLake OpenAI-Gym 环境如何在没有中间奖励的情况下解决?

转载 作者:行者123 更新时间:2023-12-01 22:08:33 25 4
gpt4 key购买 nike

我正在查看FrozenLake environments在露天健身房。在这两种方法中,在智能体达到目标之前,都没有奖励,甚至没有负奖励。即使特工掉进冰里,也没有负面奖励——尽管情节结束了。没有奖励,就没有什么可学的!每集都从头开始,没有从之前的剧集中受益。

这应该是一个简单的广度优先搜索。它不需要RL。但假设您使用 RL,一种方法是,如果迈入卡住方 block (这不是目标),则奖励 -1;如果迈入洞,则奖励 -10。 -1 可以让智能体学会不重复方 block 。 -10 可以让智能体学会避开漏洞。所以我很想在代理方面创造自己的负面奖励。这会让它更像悬崖行者。

我错过了什么?在没有奖励的情况下,强化学习将如何解决这个问题(除了通过随机搜索)?

最佳答案

您所描述的问题通常用 Reward Shaping 来回答.

喜欢结冰的湖泊环境或Montazuma's Revenge ,有些问题的奖励非常稀疏。这意味着任何 RL 智能体都必须花费很长时间来探索环境才能看到这些奖励。对于为代理设计任务的人来说,这可能会非常令人沮丧。因此,就像在冰冻的湖泊环境中一样,人们经常像您建议的那样添加额外的信息。这使得奖励函数更加密集,并且(有时)允许更快的学习(如果修改后的奖励函数实际上遵循人类希望代理执行的操作)。

为了使代理能够比随机搜索更快地解决此类问题,并且无需人工干预(例如奖励塑造或向代理提供专家玩游戏的视频),代理需要某种机制来探索空间智能方式[citation needed ].

该主题当前的一些研究领域是 Intrinsic Motivation , Curiosity ,和 OptionsOption discovery .

尽管前景光明,但这些研究领域仍处于起步阶段,有时说起来更容易:

if agent_is_in_a_hole:
return -10

关于openai-gym - FrozenLake OpenAI-Gym 环境如何在没有中间奖励的情况下解决?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51236984/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com