gpt4 book ai didi

python - 在 Open AI Gym 中实现策略迭代方法

转载 作者:太空宇宙 更新时间:2023-11-03 15:52:54 25 4
gpt4 key购买 nike

我目前正在阅读 Sutton & Barto 的“强化学习”,我正在尝试自己编写一些方法。

政策迭代是我目前正在研究的。我正在尝试使用 OpenAI Gym 解决一个简单的问题,例如 CartPole 或连续山地车。

但是,对于策略迭代,我需要状态之间的转换矩阵和奖励矩阵。

这些是否可从您在 OpenAI Gym 中构建的“环境”中获得。

我正在使用 python。

如果不是,我如何计算这些值,并使用环境?

最佳答案

不,OpenAI Gym 环境不会以这种形式为您提供信息。为了收集这些信息,您需要通过抽样探索环境:即选择行动并接收观察结果和奖励。使用这些样本,您可以估算它们。

近似这些值的一种基本方法是使用 LSPI(最小二乘策略迭代),据我所知,您也可以在 Sutton 中找到更多相关信息。

关于python - 在 Open AI Gym 中实现策略迭代方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45437357/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com