gpt4 book ai didi

python - 观察意义 - OpenAI Gym

转载 作者:太空狗 更新时间:2023-10-30 02:17:44 25 4
gpt4 key购买 nike

我想知道在 OpenAI Gym( https://gym.openai.com/ ) 中观察 CartPole-v0 的规范。

例如,在下面的代码中输出observation。一种观察结果类似于 [-0.061586 -0.75893141 0.05793238 1.15547541] 我想知道这些数字的含义。我想通过任何方式了解其他 Environments 的规范,例如 MountainCar-v0MsPacman-v0 等等。

我尝试阅读 https://github.com/openai/gym ,但我不知道。你能告诉我如何了解规​​格吗?

import gym
env = gym.make('CartPole-v0')
for i_episode in range(20):
observation = env.reset()
for t in range(100):
env.render()
print(observation)
action = env.action_space.sample()
observation, reward, done, info = env.step(action)
if done:
print("Episode finished after {} timesteps".format(t+1))
break

(来自 https://gym.openai.com/docs)

输出如下

[-0.061586   -0.75893141  0.05793238  1.15547541]
[-0.07676463 -0.95475889 0.08104189 1.46574644]
[-0.0958598 -1.15077434 0.11035682 1.78260485]
[-0.11887529 -0.95705275 0.14600892 1.5261692 ]
[-0.13801635 -0.7639636 0.1765323 1.28239155]
[-0.15329562 -0.57147373 0.20218013 1.04977545]
Episode finished after 14 timesteps
[-0.02786724 0.00361763 -0.03938967 -0.01611184]
[-0.02779488 -0.19091794 -0.03971191 0.26388759]
[-0.03161324 0.00474768 -0.03443415 -0.04105167]

最佳答案

OpenAI Gym中使用的观察空间与原论文并不完全相同。看OpenAI的wiki找到答案。观察空间为4维空间,各维度如下:


Num Observation 最小值最大值
0 推车位置 -2.4 2.4
1 购物车速度 -Inf Inf
2 极角 ~ -41.8° ~ 41.8°
尖端处的 3 极速度 -Inf Inf

关于python - 观察意义 - OpenAI Gym,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39341397/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com