gpt4 book ai didi

machine-learning - 策略迭代与值迭代

转载 作者:行者123 更新时间:2023-11-30 08:30:18 29 4
gpt4 key购买 nike

在强化学习中,我试图理解策略迭代和值迭代之间的区别。对此有一些一般性的答案,但我有两个具体的问题,我找不到答案。

1) 我听说策略迭代“向前工作”,而值迭代“向后工作”。这是什么意思?我认为这两种方法都只是采用每个状态,然后查看它可以到达的所有其他状态,并从中计算值 - 通过边缘化策略的 Action 分布(策略迭代)或通过采用与行动值(值迭代)。那么为什么有每个方法“移动”的“方向”的概念呢?

2)策略迭代需要在策略评估过程中进行迭代过程,以找到值(value)函数——通过 然而,值(value)迭代只需要一步。为什么会有所不同?为什么值(value)迭代一步就收敛了?

谢谢!

最佳答案

@Nick Walker 提供的答案是正确且相当完整的,但是我想添加一个关于值迭代和策略迭代之间差异的图形解释,这可能有助于回答您问题的第二部分。

PI 和 VI 两种方法都遵循基于 Generalized Policy Iteration 的相同工作原理。 。这基本上意味着他们在改进策略(这需要了解其值(value)函数)和计算新的、改进的策略的值(value)函数之间交替。

enter image description here

在此迭代过程结束时,值和策略都收敛到最优值。

但是,值得注意的是,没有必要精确计算完整的值函数,相反,需要一个步骤来允许收敛。下图中,(b) 表示策略迭代执行的操作,其中计算完整的值函数。而 (d) 显示了值迭代的工作原理。

enter image description here

显然,这两种方法的表示都很简单,但它突出了每种算法背后的关键思想之间的差异。

关于machine-learning - 策略迭代与值迭代,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43728781/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com