python - 【强化学习】为什么我的reward变成0就结束了？我在健身房环境方面遇到了一些麻烦-6ren

python - 【强化学习】为什么我的reward变成0就结束了？我在健身房环境方面遇到了一些麻烦

转载作者：行者123 更新时间：2023-12-02 22:45:14

24

4

各位!

我在使用 openAI 健身房的自定义环境方面几乎没有遇到任何问题。

我想创造一个环境，每次“抽”气球时都会积累奖励，

如果气球爆了，所有奖励都变成0

我制作了一个环境功能“step”和“reward”，如下所示

def step(self, action):
    assert self.action_space.contains(action)
    reward = self.reward
    if action: # pump a balloon or stop ( 1 / 0 )
        self.npumps += 1
        if burst(self.max_pump, self.npumps):
            self.balloon=1
            terminated = True
            reward = 0
        else:
            terminated = False
            reward =self.npumps
    else: # stop to pump balloon and withdraw rewards
        terminated = True
    
    if self.render_mode == "human":
        self.render()
    
    return self._get_obs(), reward, terminated, False, {}

def _get_obs(self):
    return ({"kth pump": self.npumps, "balloon": self.balloon})

def reset(self, seed=None, options=None):
    super().reset(seed=seed)
    self.npumps = 0
    self.balloon = 0 # pop = 1, else = 0
    self.reward = 0
    return self._get_obs(), {}

但是，当我使用这个函数来模拟代理的行为时，似乎出了点问题。

done = False
obs = env.reset()
while not done:
    action = env.action_space.sample()
    obs, reward, done, _, info = env.step(action)
    env.render()
    print(obs, action, reward)
env.close()

然后

{'第 k 个泵': 1, '气球': 0} 1 1

{'第 k 个泵':2，'气球':0}1 2

{'第 k 个泵':3，'气球':0} 1 3

{'第 k 个泵':3，'气球':0} 0 0

为什么会这样？这是正确的功能吗？或者我做错了什么？我是否误解了 gym.env.step 的机制？

请给这个领域的新手一些提示!

非常感谢。

最佳答案

在您的reset 方法中，您设置类变量self.reward = 0。然后在每个 step 调用的开始，您分配 reward = self.reward，同时从不更改右侧，它自实例化以来始终为 0，因此您的 reward 也是 0。那么如果你的 action 是 0，你只是将你的 terminated 标志更改为 True 并且永远不会分配任何其他内容给 reward，因此它当然保持为 0。

关于python - 【强化学习】为什么我的reward变成0就结束了？我在健身房环境方面遇到了一些麻烦，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/74725659/

24

4

0

文章推荐： node.js - 如何从 nodejs 中的远程 url 创建可读流？

文章推荐： python - 将openai导入python时出错

文章推荐： python - 用openai图表txt文件编码到midi转换器

python - 方面，并根据方面进行一些过滤
我对构面有疑问，并根据构面进行了一些过滤。我知道这是一个重复的问题，但我找不到答案。我想知道如何在 flex 搜索中实现相同的功能。假设我有一个有关汽车和某些方面的索引-例如模型和颜色。颜色
具有子方面的 Solr 方面
我正在尝试找到一种解决方案来为某些方面创建子方面列表。我有一些产品的衣服尺码，它们存储在 solr 中 "Size_both":"W30L30","尺寸宽度":"W30","Size_length"
具有子方面的 Solr 方面
我正在尝试找到一种解决方案来为某些方面创建子方面列表。我有一些产品的衣服尺码，它们存储在 solr 中 "Size_both":"W30L30","尺寸宽度":"W30","Size_length"
Spring 4+方面
我对方面有疑问。他们不开火。我有小方面: @Aspect @Component public class SynchronizingAspect { @Pointcut("execution(
ruby 散列自动生成(方面)
这是在 ruby 中启用散列自动生成的巧妙技巧(取自 facets): # File lib/core/facets/hash/autonew.rb, line 19 def self.a
r - 用每个方面的观察数量注释 ggplot2 方面
这个问题在这里已经有了答案: 8年前关闭。 Possible Duplicate: Creating a facet_wrap plot with ggplot2 with different ann
ajax - 同一台服务器的不同端口是否算跨域？ (Ajax 方面)
XMLHttpRequest 能否从 http://mydomain.example/ 向 http://mydomain.example:81/ 发送请求？最佳答案要使两个文档被视为具有相同的来
elasticsearch - Elasticsearch 的统计数据/方面
我对 Elasticsearch 中的方面有一点问题。我有一个表格视频，一个表格 channel ，一个 channel 有很多视频。我只想在 X 个最新视频上显示每个 channel 的 %vi
r - 用图像注释 ggplot2 方面
假设我正在为 4 个人绘制数据图表:Alice、Bob、Chuck 和 Dana。我正在使用 ggplot2 制作一个多面图，每个人一个方面。我的磁盘上还有 4 张图像:Alice.png、Bob.p
search - 何时使用Hadoop，何时使用ElasticSearch进行分组依据/方面？
我已经下载了收件箱，并且正在使用Pig和Hadoop处理电子邮件。我已经使用Pig和Wonderdog在ElasticSearch中为这些电子邮件编制了索引。现在，我为收件箱中的每个电子邮件地址创建
javascript - 是否可以在没有目标的方法上使用 dojo 方面？
我有一个模块如下: define([...], function(...){ function anothermethod() {...} function request() {....}
Clojure、方面、Defprotocol、Defrecord
(defprotocol IAnimal "IAnimal" (report [o] (println (type o) " reporting.\n") (inner-repor
java - 田野的 Spring 方面
我有一个 Bean 需要向 InfluxDB 报告。数据库在表 INFLUX_DB_SERVER 中注册了 InfluxDB。如果你看一下代码，你会发现方法reportMemory做了很多工作，它构造
r - 如何将按组绘图元素叠加到 ggplot2 方面？
我的问题与分面有关。在下面的示例代码中，我查看了一些分面散点图，然后尝试在每个分面的基础上叠加信息(在本例中为平均线)。 tl;dr 版本是我的尝试失败了。要么我添加的平均线计算所有数据(不尊重方面变
r - 用图像注释 ggplot2 方面
假设我正在为 4 个人绘制数据图表:Alice、Bob、Chuck 和 Dana。我正在使用 ggplot2 制作一个多面图，每个人一个方面。我的磁盘上还有 4 张图像:Alice.png、Bob.p
java - 跨多个线程的 Spring 方面
尝试用两个方面包装服务类来获取此调用链: javanica..HystrixCommandAspect -> MyCustomAroundAspect -> MyService 遇到两个问题: Hys
java - 如何运行我的项目以便他们使用我的 AspectJ 方面
我是 AspectJ 的初学者。我用它在我的网络驱动程序中截取屏幕截图。以下是我的包结构。我想知道如何在 Browser 类中运行我的程序，以便它使用 Screenshots 类中定义的 Aspec
java - 表达式执行 Spring 方面
我在使用 spring aop 时遇到问题 (编辑:如果我的方法不是静态的，则代码可以正常工作) 我的包中有这个结构: aaa.bbb.ccc.Clase1.java aaa.bbb.ddd.Clas
c# - 在派生类中覆盖基类 PostSharp 方面
我有一个通用存储库类，其中包含各种标记有 PostSharp 方面 (SecuredOperation) 的方法... public class Repository : IRepository, I
java - 如何同步围绕方法定义的 Java 方面？
我有一个运行多线程的 Hibernate 事务方法“doImportImpl”。而某些记录需要依次导入，所以代码结构大致是这样的: public RecordResult doImportImpl(S

首页

博学

6Ren·AI

商城

python - 【强化学习】为什么我的reward变成0就结束了？我在健身房环境方面遇到了一些麻烦