reinforcement-learning - CartPole-v0 的得分恰好为 200-6ren

reinforcement-learning - CartPole-v0 的得分恰好为 200

转载作者：行者123 更新时间：2023-12-03 16:24:43

25

4

关闭。这个问题需要debugging details .它目前不接受答案。

想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。

3年前关闭。

Improve this question

我正在研究 openai 健身房提供的 CartPole-v0。我注意到我的程序从来没有超过 200。在某些时候它停留在 200 并且不会更多。我想知道 openai 健身房是否有我可能遗漏的任何配置。有没有人发现这个问题？

最佳答案

CartPole-v0给予 1.0 的奖励对于每一步，您的代理都“活着”。

使用以下代码行注册环境:

register(
    id='CartPole-v0',
    entry_point='gym.envs.classic_control:CartPoleEnv',
    max_episode_steps=200,
    reward_threshold=195.0,
)

在当前版本的存储库中，可以找到 here .

那个 max_episode_steps=200意味着剧集在 200 之后自动终止脚步。所以，你能得到的最高分是 200 .

关于reinforcement-learning - CartPole-v0 的得分恰好为 200，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50675555/

25

4

0

文章推荐： r - 将 system() 输出流式传输到 Shiny 前端(连续)

文章推荐： Powershell 和网络路径

文章推荐： optimization - 汉明距离和

文章推荐： r - 合并不同范围的栅格，对R中重叠的单元格值求和

reinforcement-learning - 威廉姆斯提出的 REINFORCE 算法的任何示例代码？
有谁知道算法的任何示例代码Ronald J. Williams提出于 A class of gradient-estimating algorithms for reinforcement learn
reinforcement-learning - 深度强化学习中的有效奖励范围
在DQN、Actor-Critic或A3C中选择奖励值时，是否有选择奖励值的通用规则？正如我简单听到的那样，(-1 ~ +1) 奖励是一种非常有效的选择。你能告诉我什么建议和原因吗？？最佳答案
reinforcement-learning - 如何在OpenAI的体育馆中注册自定义环境？
根据OpenAI Gym框架，我已经创建了一个自定义环境；包含step，reset，action和reward函数。我的目标是在此自定义环境上运行OpenAI基准。但是在此之前，必须在OpenAI G
reinforcement-learning - 贝尔曼方程的版本
在我浏览关于强化学习的各种资料时，我发现了两个版本的 V和 Q方程式: 这对: V(s) = maxa (sums' P(s'|s,a) (R(s,a,s') + lambda V(s'))) Q(s
reinforcement-learning - 确定性策略梯度相对于随机策略梯度的优势是什么？
Deep Deterministic Policy Gradient (DDPG) 是在 Action 空间连续时进行强化学习的最先进方法。其核心算法是Deterministic Policy Gra
reinforcement-learning - A3C和PPO在强化学习策略梯度方法上有什么相似之处？
是否有任何简单的方法可以将 PPO 的属性与 A3C 方法合并？ A3C 方法运行多个并行角色并优化参数。我正在尝试将 PPO 与 A3C 合并。最佳答案 PPO 有一个内置机制(代理剪切目标函数)
reinforcement-learning - 理解pytorch中正态分布的log_prob
我目前正在尝试从具有连续 Action 空间的 openAi 健身房环境中解决 Pendulum-v0。因此，我需要使用正态分布来对我的行为进行采样。我不明白的是 log_prob 使用时的维度: i
reinforcement-learning - 选择用于近似策略预测的函数
我目前正在阅读萨顿关于强化学习的介绍。到了第 10 章(On-Policy prediction with approximation)后，我现在想知道如何选择函数的形式 q最佳权重 w应近似。我指
reinforcement-learning - 如何处理强化学习中的同时 Action
我正在尝试使用强化学习来解决涉及大量同步操作的问题。例如，智能体将能够采取可导致单一 Action 的 Action ，如射击，或可导致多个 Action 的 Action ，如跳跃时射击、右转、空手
reinforcement-learning - 深度强化学习背景下的batch size是什么意思？
batch size在监督学习中是神经工作训练的样本数量，但是在强化学习的背景下batch size是什么意思呢？它也指 sample 吗？如果是，样本在强化学习背景下的意义是什么？最佳答案与监督
reinforcement-learning - 在强化学习中实现损失函数(MSVE)
我正在尝试为 Othello 构建一个时间差异学习代理。虽然我的其余实现似乎按预期运行，但我想知道用于训练网络的损失函数。在 Sutton 的书《强化学习:简介》中，均方值误差(MSVE)被提出为标准
reinforcement-learning - 如何在非平稳环境中求解确定性 MDP
我正在寻找一种解决马尔可夫决策过程 (MDP) 的方法。我知道从一种状态到另一种状态的转变是确定性的，但环境是不稳定的。这意味着当再次访问同一状态时，代理获得的奖励可能会有所不同。是否有一种算法，如
c# - Reinforced.Typings 无法处理属性的属性
我有一个使用 ASP.NET Identity 的 ASP.NET Core 项目。某些类无法导出，因为它们的属性包含来自 System.ComponentModel.DataAnnotations
reinforcement-learning - 一步多 Action ，强化学习
我正在尝试编写一个自定义的 openAI Gym 环境，其中代理在每个步骤中执行 2 个 Action ，其中一个是离散 Action ，另一个是连续 Action 。我正在使用 Ray RLLib
reinforcement-learning - 我们如何为 RL 算法设计奖励以激励组指标？
我正在设计一个强化学习代理来引导道路有限区域内的个别汽车。该政策决定了汽车应该走哪条路线。每辆车都可以看到其 10 英里范围内的车辆、它们的速度以及整个边界区域的道路图。基于 RL 的代理的策略必须
reinforcement-learning - 获取OpenAI Gym环境的名称/ID
鉴于: import gym env = gym.make('CartPole-v0') 如何以适用于任何Gym env的方式获取CartPole-v0？最佳答案拆开环境并从规范中获取ID nam
reinforcement-learning - 是否可以修改 OpenAI 环境？
我想在 OpenAI 环境中修改一些内容。如果我们使用 Cartpole例如，然后我们可以编辑类初始化函数中的内容，但是对于使用 Box2D 的环境，它似乎并不那么简单。例如，考虑 BipedalW
reinforcement-learning - 在任意初始状态下启动 OpenAI 健身房
有人知道我们可以设置游戏初始状态的任何 OpenAI Gym 环境吗？例如，我发现 MountainCarContinuous-v0 可以做这样的事情，以便我们可以选择汽车启动的时间点。但是，我正在寻
reinforcement-learning - OpenAI Gymnasium，是否有支持算法的库？
OpenAI 发布了一个名为 Gymnasium 的新库，该库将取代 Gym 库。有许多库具有支持健身房环境的 RL 算法实现，但是界面随着 Gymnasium 发生了一些变化。是否有支持 Gymna
reinforcement-learning - OpenAI Gymnasium，是否有支持算法的库？
OpenAI 发布了一个名为 Gymnasium 的新库，该库将取代 Gym 库。有许多库具有支持健身房环境的 RL 算法实现，但是界面随着 Gymnasium 发生了一些变化。是否有支持 Gymna

首页

博学

6Ren·AI

商城

reinforcement-learning - CartPole-v0 的得分恰好为 200