gpt4 book ai didi

algorithm - 具有离散 Action 的连续状态空间的强化学习(在 NetLogo 中)

转载 作者:塔克拉玛干 更新时间:2023-11-03 04:08:01 25 4
gpt4 key购买 nike

对于不熟悉的人来说,NetLogo 是一种基于代理的建模语言。在这种情况下,智能体在动态环境中模拟生物体,并在其中寻找能量。能量移动不可预测,但会随着时间的推移而扩散,以便觅食者可以通过“上坡”找到源头。 (我稍微简化了一点,智能体也进行社交和繁殖,但如果我们能找到一个好的进食和移动算法,那么它应该可以泛化)

目标是让智能体通过两个 Action 最大化他们的能量:移动 N/S/E/W 和进食。智能体可以访问一些信息:周围位置的能量水平和他们自己的能量,所有这些都是连续变量。代理无法完全明确地了解他们的过去或世界,这限制了大多数传统 RL 算法的使用。他们可以拥有隐性知识(例如,权重随时间调整的神经网络是可以的)。

我的直觉是神经网络可以解决这个问题,我成功地实现了一个……但我只是简单地运行了数千次模拟来优化权重。这 (1) 不能保证收敛,并且 (2) 可能远非最优/高效。

对于如何在这个世界上学习有什么想法吗?无论是更好的强化学习方法还是学习神经网络权重的算法都会很棒。我最近查阅了很多文献试图找到一个解决方案,但我发现的每个算法最终都会有一个或两个问题妨碍它们的使用。在此先感谢您的帮助!

最佳答案

由于您的环境是连续的,标准算法如 Q-learningSARSA不直接适用——他们期望一个离散的环境状态。但是,您的操作是离散的,这可能会有用。

一种可能性是使用一些贝叶斯方法来估计世界状态并将其应用于Reinforcement Learning with function approximation。 .事实上,这就是我在本科论文中所做的,其中状态是通过Bayesian Programming估计的。 .

关于algorithm - 具有离散 Action 的连续状态空间的强化学习(在 NetLogo 中),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23422679/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com