gpt4 book ai didi

algorithm - 使用强化学习训练神经网络

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:12:24 25 4
gpt4 key购买 nike

我知道前馈神经网络的基础知识,以及如何使用反向传播算法训练它们,但我正在寻找一种算法,而不是我可以用来通过强化学习在线训练人工神经网络的算法。

例如,cart pole swing up问题是我想用 ANN 解决的问题。那样的话,我不知道应该怎么做才能控制钟摆,我只知道我离理想位置有多近。我需要让 ANN 基于奖励和惩罚进行学习。因此,监督学习不是一种选择。

另一种情况类似于 snake game ,其中反馈被延迟,并且仅限于目标和反目标,而不是奖励。

对于第一种情况,我可以想到一些算法,例如爬山算法或遗传算法,但我猜它们都会很慢。它们可能也适用于第二种情况,但速度非常慢,而且不利于在线学习。

我的问题很简单:是否有一个简单的算法来训练带有强化学习的人工神经网络?我主要对实时奖励情况感兴趣,但是如果一个算法用于基于目标的情况可用,甚至更好。

最佳答案

有一些关于该主题的研究论文:

还有一些代码:

这些只是有关该主题的部分热门 Google 搜索结果。前几篇论文看起来还不错,虽然我没有亲自阅读过。如果您在 Google 学术搜索上进行快速搜索,我认为您会找到更多关于强化学习神经网络的信息。

关于algorithm - 使用强化学习训练神经网络,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10722064/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com