gpt4 book ai didi

deep-learning - gym.spaces.box 观察状态理解

转载 作者:行者123 更新时间:2023-12-02 00:07:39 25 4
gpt4 key购买 nike

所以我正在尝试使用 gym 在自定义环境中执行一些强化学习,但是我对 spaces.box 的工作原理感到非常困惑。每个参数是什么意思?如果我有一个游戏状态涉及很多信息,例如角色的生命值、他们的统计数据和能力,我不太确定像这样的东西会在 Box 中表示为观察状态。同样在具有很多能力的游戏中,对它们进行单热编码还是将它们保留为常规增量 ID 会更好,因为我想使用神经网络来查找预期的 Q 值。

最佳答案

spaces.Box 表示您正在处理实数值。

例如:

action_space = spaces.Box(np.array([-1,0,1]), np.array([1,1,2]))

这里的 Action 是三维的。此外,[-1,0,1] 是可接受的最低值,[1,1,2] 是可接受的最高值。

本质上,a=[a1,a2,a3],

a1在[-1,1]范围内,a2在[0,1]范围内,a3在范围 [1,2]。

如果有很多种类繁多的“能力”,那么如果使用 one-hot 编码,状态向量可能会变得非常大。因此,建议使用常规增量 ID。但是将它们归一化到 [0,1] 范围内,这样神经网络激活就不会饱和。

关于deep-learning - gym.spaces.box 观察状态理解,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60129007/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com