gpt4 book ai didi

machine-learning - 蒙特卡罗 RL - 为什么估计单个状态值的计算费用与状态数量无关?

转载 作者:行者123 更新时间:2023-11-30 09:51:45 27 4
gpt4 key购买 nike

Sutton's book on RL ,在蒙特卡罗政策评估下,他在第 111 页提到注意估计单个状态值的计算费用与状态数量无关。然而,对于蒙特卡洛来说:

  • 状态的平均返回是从第一次遇到该状态时到该事件结束时计算的

  • 状态越多,剧集结束所需的时间就越长

那么我对这个声明缺少什么?

最佳答案

关于蒙特卡罗方法的一个重要事实是,估计
每个州都是独立的。

如果每个状态都是独立计算的,那么很明显,当您确定单个状态的状态值估计时,可能有多少种不同的状态并不重要。正是由于这种独立的性质,MC 系统才有用。

我相信你混淆了这样一个事实:大型州系统将花费更长的时间来计算(整个系统),但由于以 17 获胜的概率不会影响以 18 获胜,因此这些州不会不互相依赖。

编辑:我认为有一个统计数据或 ML stackoverflow 页面也可能更好地针对此问题。

关于machine-learning - 蒙特卡罗 RL - 为什么估计单个状态值的计算费用与状态数量无关?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43878717/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com