gpt4 book ai didi

machine-learning - 近端策略优化中的状态可以包含历史吗?

转载 作者:行者123 更新时间:2023-11-30 09:07:53 24 4
gpt4 key购买 nike

例如,时间步 t 的状态实际上可以由 t 和 t-1 的状态组成。

S_t = [s_t, s_t-1]

即近端策略优化是否已经包含状态历史,或者它可以隐含在状态中(或两者都不是)。

最佳答案

您可以连接您的观察结果。这对于RL来说是很常见的事情。通常在 atari 域中,最后四帧被连接到单个观察中。这使得智能体能够了解环境的变化。

默认情况下,基本 PPO 算法不会隐式跟踪状态历史记录。您可以通过添加循环层来实现这一点。

关于machine-learning - 近端策略优化中的状态可以包含历史吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47287033/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com