deep-learning - 在 OpenAI Gym 中使用跳帧包装器时，np.max 行的用途是什么？-6ren

deep-learning - 在 OpenAI Gym 中使用跳帧包装器时，np.max 行的用途是什么？

转载作者：行者123 更新时间：2023-12-02 05:47:11

25

4

我正在实现以下在 OpenAI 的 Gym 中常用于跳帧的包装器。它可以在 dqn/atari_wrappers.py 中找到

我对下面一行感到很困惑:

max_frame = np.max(np.stack(self._obs_buffer), axis=0)

我在整个代码中为我理解的部分添加了注释，以帮助任何可能提供帮助的人。

np.stack(self._obs_buffer) 将两种状态叠加在_obs_buffer中。

np.max 返回沿轴 0 的最大值。

但我不明白的是我们为什么要这样做，或者它到底在做什么。

class MaxAndSkipEnv(gym.Wrapper):
    """Return only every 4th frame"""
    def __init__(self, env=None, skip=4):
        super(MaxAndSkipEnv, self).__init__(env)
        # Initialise a double ended queue that can store a maximum of two states
        self._obs_buffer = deque(maxlen=2)
        # _skip = 4
        self._skip       = skip

    def _step(self, action):
        total_reward = 0.0
        done = None
        for _ in range(self._skip):
            # Take a step 
            obs, reward, done, info = self.env.step(action)
            # Append the new state to the double ended queue buffer 
            self._obs_buffer.append(obs)
            # Update the total reward by summing the (reward obtained from the step taken) + (the current 
            # total reward)
            total_reward += reward
            # If the game ends, break the for loop 
            if done:
                break

        max_frame = np.max(np.stack(self._obs_buffer), axis=0)

        return max_frame, total_reward, done, info

最佳答案

在 for 循环结束时，self._obs_buffer 保存最后两帧。然后对这两帧进行最大池化处理，得到一个包含一些时间信息的观察结果。

关于deep-learning - 在 OpenAI Gym 中使用跳帧包装器时，np.max 行的用途是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/63285569/

25

4

0

文章推荐： nlp - 为 GPT-3 选择一个好的提示

c# - Lambda Max 和 Max 和 Max
快速且可能简单的 Lambda 问题: 我有一家有评论的餐厅。我想查询具有以下内容的那个: 最大(平均评分) 和 Max(ReviewCount) 和 Max(NewestReviewDate) 和
c++ - 我可以使用折叠表达式实现 max(A, max(B, max(C, D))) 吗？
在尝试使用 C++17 折叠表达式时，我尝试实现 max sizeof ，其中结果是类型 sizeof 的最大值。我有一个使用变量和 lambda 的丑陋折叠版本，但我想不出一种使用折叠表达式和 st
c - 在C中，为什么 "int MAX = 10^6...int arr[MAX]"不会崩溃，但 "int MAX = 1000000...int arr[MAX]"会崩溃？
我目前正在使用 C 并遇到了一些我觉得有趣的东西，但似乎在这里找不到任何类似的东西。我正在为数组(大小 1000000)静态分配内存。我知道这相当大并且有可能引起问题。但是，使用 10^6 不会出现
css - firefox css max-width 和 max-height 内 max-height div
我有一个具有 max-height 的 div 和其中的图像，应该使用 max-width:100% 和 max-height:100%。在 Chromium 中，这是可行的，但 Firefox 仅使
css - firefox css max-width 和 max-height 里面的 max-height div
我有一个最大高度的 div 和里面的一个图像，它应该使用最大宽度:100% 和最大高度:100%。在 Chromium 中，这是可行的，但 Firefox 仅使用最大宽度而忽略最大高度。 div#ov
awk - 解释 awk 命令 `awk ' { if (NF > max) max = NF } END { print max }'
在一本在线 awk 手册中我找到了例子awk '{ if (NF > max) max = NF } END { print max }' 该程序打印任何输入行上的最大字段数。但我不明白 awk 如何
sql - 使用 VARCHAR(max)、NVARCHAR(max) 和 VARBINARY(max) 代替 TEXT、NTEXT 和 IMAGE 有什么好处？
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
mysql - MYSQL 上的 Max of Max
我正在制作一个非循环图数据库。表 Material (id_item，id_collection，...)主键(id_item，id_collection) (item可以是collection本身
MYSQL、Max、Group by 和 Max
我有以下两个表。 1.电影详情(电影ID、电影名称、评分、票数、年份) 2.电影类型(Movie-ID,Genre) 我正在使用以下查询来执行连接并获得每个评分最高的电影流派。 select Movi
MySQL max() - 不返回 max() 值
我有一个查询，我想返回 idevent 中给定传感器 ID (sensorID) 范围内的最高 ID 值，但是查询没有返回最高值。我运行查询时减去 max() 语句的结果: mysql> SELEC
mysql - SUM(MAX( ) + MAX( )) 怎么做？
SUM(MAX() + MAX()) 有正确的方法吗？这是我一直在努力做的事情 SELECT SUM(MAX(account.BALANCE1) + MAX(account.BALANCE2))
css - 多个媒体查询 : max-width or max-height
这个问题类似于CSS media queries: max-width OR max-height , 但由于我的代表不够高，我无法在回复中添加评论(问题)，我想在原始问题中添加。与其他主题中的发帖
.net - Math.Max 与 Enumerable.Max
Jon Skeet今天报告(source): Math.Max(1f, float.NaN) == NaN new[] { 1f, float.NaN }.Max() == 1f 为什么？编辑:双倍
java - Stream.max(Integer::max) :意外结果
这个问题已经有答案了: Java 8 stream's .min() and .max(): why does this compile? (5 个回答) 已关闭 7 年前。我正在学习1z0-809
mysql - 以准确的 MAX 顺序在特定时间戳之间获取具有 MAX 值的记录
我在处理一些数据库记录时遇到了一些挑战。我需要为特定列获取具有 MAX 值的行，并且这些记录必须介于两个时间戳值之间。这是SQL查询 SELECT id, MAX(amount), created
CSS 媒体查询 : max-width And max-height
我想在媒体查询中使用 AND 条件。我使用了下面的代码，但是没有用 @media screen and (max-width: 995px AND max-height: 700px) { } 最佳答
CSS 媒体查询 : max-width OR max-height
在编写 CSS 媒体查询时，有什么方法可以用“或”逻辑指定多个条件吗？我正在尝试做这样的事情: /* This doesn't work */ @media screen and (max-widt
python - max 和 np.max 的区别
我对仅使用 max(list array) 和 np.max(list array) 之间的区别有疑问。这里唯一的区别是 Python 返回代码所需的时间吗？最佳答案它们在边缘情况下可能不同，例
python 为什么 max(max(float_2d_array)) 给出错误的答案？
例如: a = [[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0], [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.
java - Stream.max(Integer::max) :意外结果
这个问题在这里已经有了答案: Java 8 stream's .min() and .max(): why does this compile? (5 个答案) 关闭 6 年前。我正在学习 1z0

首页

博学

6Ren·AI

商城

deep-learning - 在 OpenAI Gym 中使用跳帧包装器时，np.max 行的用途是什么？