gpt4 book ai didi

algorithm - 如何将强化学习应用于连续 Action 空间?

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:16:05 25 4
gpt4 key购买 nike

我试图让代理学习在强化学习环境中最好地执行某些任务所需的鼠标移动(即奖励信号是学习的唯一反馈)。

我希望使用 Q 学习技术,但是当我找到 a way to extend this method to continuous state spaces ,我似乎无法弄清楚如何解决具有连续 Action 空间的问题。

我可以强制所有鼠标移动都具有一定的幅度,并且只在一定数量的不同方向上移动,但是任何使 Action 离散的合理方法都会产生巨大的 Action 空间。由于标准 Q 学习要求代理评估所有 可能的操作,因此这种近似在任何实际意义上都不能解决问题。

最佳答案

处理此问题的常用方法是使用 actor-critic methods .这些自然延伸到连续的 Action 空间。基本 Q 学习在使用近似值时可能会有所不同,但是,如果您仍想使用它,您可以尝试将它与自组织映射结合起来,如 "Applications of the self-organising map to reinforcement learning" 中所做的那样。 .该论文还包含一些您可能会觉得有用的引用资料。

关于algorithm - 如何将强化学习应用于连续 Action 空间?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7098625/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com