gpt4 book ai didi

machine-learning - 首次访问与每次访问 Monte Carlo

转载 作者:行者123 更新时间:2023-12-05 07:29:22 24 4
gpt4 key购买 nike

我最近一直在研究强化学习。为此,我一直在阅读萨顿的名著,但还有一些我还没有完全理解的地方。

对于蒙特卡洛学习,我们可以在首次访问和每次访问算法之间进行选择,并且可以证明两者都渐进地收敛到正确的解决方案。但我想两者之间是有区别的(我理解定义上的区别,但我不明白每种方法的缺点是什么)。我是否应该在某些情况下使用首次访问,有时使用最后一次访问?

非常感谢,贾兹

最佳答案

根据我的个人经验,我注意到首次访问蒙特卡洛收敛得更快,并且对于控制问题在更少的迭代中获得最优策略。

我不确定是否存在对两者收敛速度的数学分析,但由于大数定律,它们都会收敛到真实均值。

关于machine-learning - 首次访问与每次访问 Monte Carlo,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52832180/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com