gpt4 book ai didi

machine-learning - 时间差分学习和反向传播

转载 作者:行者123 更新时间:2023-11-30 08:40:00 25 4
gpt4 key购买 nike

我已阅读斯坦福大学的这一页 - https://web.stanford.edu/group/pdplab/pdphandbook/handbookch10.html 。我无法理解 TD 学习如何在神经网络中使用。我正在尝试制作一个使用 TD 学习的西洋跳棋人工智能,类似于他们在双陆棋中实现的那样。请解释 TD 反向传播的工作原理。

我已经提到过这个问题 - Neural Network and Temporal Difference Learning但我无法理解接受的答案。如果可能,请用不同的方法进行解释。

最佳答案

TD 学习不用于神经网络。相反,TD 学习中使用神经网络来存储值(或 q 值)函数。

我认为您将反向传播(神经网络的概念)与强化学习中的引导混淆了。 Bootstrapping 结合使用最近的信息和之前的估计来生成新的估计。

当状态空间很大,不易将值函数存储在表中时,可以使用神经网络作为近似方案来存储值函数。

关于前向/后向 View 的讨论更多的是关于资格跟踪等。RL 引导 serval 及时前进的情况。然而,这是不切实际的,并且有一些方法(例如资格跟踪)可以留下痕迹并更新过去的状态。

这不应该与神经网络中的反向传播联系或混淆。与此无关。

关于machine-learning - 时间差分学习和反向传播,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35389068/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com