- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
各位!
我在使用 openAI 健身房的自定义环境方面几乎没有遇到任何问题。
我想创造一个环境,每次“抽”气球时都会积累奖励,
如果气球爆了,所有奖励都变成0
我制作了一个环境功能“step”和“reward”,如下所示
def step(self, action):
assert self.action_space.contains(action)
reward = self.reward
if action: # pump a balloon or stop ( 1 / 0 )
self.npumps += 1
if burst(self.max_pump, self.npumps):
self.balloon=1
terminated = True
reward = 0
else:
terminated = False
reward =self.npumps
else: # stop to pump balloon and withdraw rewards
terminated = True
if self.render_mode == "human":
self.render()
return self._get_obs(), reward, terminated, False, {}
def _get_obs(self):
return ({"kth pump": self.npumps, "balloon": self.balloon})
def reset(self, seed=None, options=None):
super().reset(seed=seed)
self.npumps = 0
self.balloon = 0 # pop = 1, else = 0
self.reward = 0
return self._get_obs(), {}
但是,当我使用这个函数来模拟代理的行为时,似乎出了点问题。
done = False
obs = env.reset()
while not done:
action = env.action_space.sample()
obs, reward, done, _, info = env.step(action)
env.render()
print(obs, action, reward)
env.close()
然后
{'第 k 个泵': 1, '气球': 0} 1 1
{'第 k 个泵':2,'气球':0}1 2
{'第 k 个泵':3,'气球':0} 1 3
{'第 k 个泵':3,'气球':0} 0 0
为什么会这样?这是正确的功能吗?或者我做错了什么?我是否误解了 gym.env.step 的机制?
请给这个领域的新手一些提示!
非常感谢。
最佳答案
在您的reset
方法中,您设置类变量self.reward = 0
。然后在每个 step
调用的开始,您分配 reward = self.reward
,同时从不更改右侧,它自实例化以来始终为 0,因此您的 reward
也是 0。那么如果你的 action 是 0,你只是将你的 terminated
标志更改为 True
并且永远不会分配任何其他内容给 reward
,因此它当然保持为 0。
关于python - 【强化学习】为什么我的reward变成0就结束了?我在健身房环境方面遇到了一些麻烦,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/74725659/
我对构面有疑问,并根据构面进行了一些过滤。 我知道这是一个重复的问题,但我找不到答案。 我想知道如何在 flex 搜索中实现相同的功能。 假设我有一个有关汽车和某些方面的索引-例如模型和 颜色。 颜色
我正在尝试找到一种解决方案来为某些方面创建子方面列表。 我有一些产品的衣服尺码,它们存储在 solr 中 "Size_both":"W30L30","尺寸宽度":"W30","Size_length"
我正在尝试找到一种解决方案来为某些方面创建子方面列表。 我有一些产品的衣服尺码,它们存储在 solr 中 "Size_both":"W30L30","尺寸宽度":"W30","Size_length"
我对方面有疑问。他们不开火。我有小方面: @Aspect @Component public class SynchronizingAspect { @Pointcut("execution(
这是在 ruby 中启用散列自动生成的巧妙技巧(取自 facets): # File lib/core/facets/hash/autonew.rb, line 19 def self.a
这个问题在这里已经有了答案: 8年前关闭。 Possible Duplicate: Creating a facet_wrap plot with ggplot2 with different ann
XMLHttpRequest 能否从 http://mydomain.example/ 向 http://mydomain.example:81/ 发送请求? 最佳答案 要使两个文档被视为具有相同的来
我对 Elasticsearch 中的方面有一点问题。 我有一个表格视频,一个表格 channel ,一个 channel 有很多视频。 我只想在 X 个最新视频上显示每个 channel 的 %vi
假设我正在为 4 个人绘制数据图表:Alice、Bob、Chuck 和 Dana。我正在使用 ggplot2 制作一个多面图,每个人一个方面。我的磁盘上还有 4 张图像:Alice.png、Bob.p
我已经下载了收件箱,并且正在使用Pig和Hadoop处理电子邮件。我已经使用Pig和Wonderdog在ElasticSearch中为这些电子邮件编制了索引。 现在,我为收件箱中的每个电子邮件地址创建
我有一个模块如下: define([...], function(...){ function anothermethod() {...} function request() {....}
(defprotocol IAnimal "IAnimal" (report [o] (println (type o) " reporting.\n") (inner-repor
我有一个 Bean 需要向 InfluxDB 报告。数据库在表 INFLUX_DB_SERVER 中注册了 InfluxDB。如果你看一下代码,你会发现方法reportMemory做了很多工作,它构造
我的问题与分面有关。在下面的示例代码中,我查看了一些分面散点图,然后尝试在每个分面的基础上叠加信息(在本例中为平均线)。 tl;dr 版本是我的尝试失败了。要么我添加的平均线计算所有数据(不尊重方面变
假设我正在为 4 个人绘制数据图表:Alice、Bob、Chuck 和 Dana。我正在使用 ggplot2 制作一个多面图,每个人一个方面。我的磁盘上还有 4 张图像:Alice.png、Bob.p
尝试用两个方面包装服务类来获取此调用链: javanica..HystrixCommandAspect -> MyCustomAroundAspect -> MyService 遇到两个问题: Hys
我是 AspectJ 的初学者。我用它在我的网络驱动程序中截取屏幕截图。以下是我的包结构。 我想知道如何在 Browser 类中运行我的程序,以便它使用 Screenshots 类中定义的 Aspec
我在使用 spring aop 时遇到问题 (编辑:如果我的方法不是静态的,则代码可以正常工作) 我的包中有这个结构: aaa.bbb.ccc.Clase1.java aaa.bbb.ddd.Clas
我有一个通用存储库类,其中包含各种标记有 PostSharp 方面 (SecuredOperation) 的方法... public class Repository : IRepository, I
我有一个运行多线程的 Hibernate 事务方法“doImportImpl”。而某些记录需要依次导入,所以代码结构大致是这样的: public RecordResult doImportImpl(S
我是一名优秀的程序员,十分优秀!