gpt4 book ai didi

machine-learning - 强化学习玩具项目

转载 作者:行者123 更新时间:2023-11-30 08:33:07 26 4
gpt4 key购买 nike

我学习和应用强化学习的玩具项目是:
- 代理试图“安全”且“快速”达到目标状态....
- 但是有射弹和火箭会向特工发射。
- 代理可以确定火箭的位置 - 带有一些噪音 - 仅当火箭“靠近”时
- 然后代理必须学会避免撞上这些火箭。
- 代理具有 - 可随时间充电 - 燃料,在代理运动中消耗
- 连续 Action :向前加速 - 有角度转动


我需要一些适合这种情况的 RL 算法的提示和名称..
- 我认为它是 POMDP ,但我可以将其建模为 MDP 并忽略噪声吗?
- 如果是 POMDP,评估概率的推荐方法是什么?
- 在这种情况下使用哪个更好:值(value)函数或策略迭代?
- 我可以使用神经网络来模拟环境动力学而不是使用显式方程吗?
- 如果是,是否有特定类型/型号的神经网络值得推荐?
- 我认为 Actions 必须是离散化的,对吧?

我知道学习这样的主题需要时间和精力,但我很渴望..
如果您无法回答全部问题,您可以回答部分问题...
谢谢

最佳答案

如果这是您第一次进行强化学习实验,我建议您从比这简单得多的事情开始。您可以从简单的项目开始,掌握窍门,然后再转向像这样的更复杂的项目。我在 POMDP 方面遇到了麻烦,而且我已经在 RL 领域工作了一段时间了。现在我将尝试回答我能回答的问题。

我认为它是 POMDP ,但是我可以将其建模为 MDP 并忽略噪声吗?

是的。 POMDP 代表部分可观察马尔可夫决策过程。部分可观察部分是指智能体无法完全知道其状态,但可以根据观察来估计它。在你的情况下,你将把火箭的位置作为可能有一些噪音的观察,并且根据特工之前的知识,你可以更新它对导弹所在位置的信念。这增加了很多复杂性。将导弹位置作为绝对位置使用会容易得多,而不必处理不确定性。那么您就不必使用 POMDP。

对于 POMDP,评估概率的推荐方法是什么?

我不明白你的问题。您将使用某种形式的贝叶斯规则。也就是说,您将拥有某种分布,即您的信念状态(处于任何给定状态的概率),这将是您的先验分布,并且根据观察,您将调整它并获得后验分布。如果您需要更多信息,请查看贝叶斯规则。

在这种情况下使用哪个更好:值(value)函数还是策略迭代?

我的大部分经验都是使用值(value)函数,并发现它们相对容易使用/理解。但我不知道还能告诉你什么。我想这可能是你的选择,我必须花时间做这个项目才能做出更好的选择。

我可以使用神经网络来模拟环境动力学而不是使用显式方程吗?如果是,有推荐的特定类型/型号的神经网络吗?

抱歉,我对使用神经网络建模环境一无所知。

我认为 Actions 必须是离散化的,对吧?

是的。您必须有一个离散的操作列表和一个离散的状态列表。一般来说,算法会为任何给定状态选择最佳操作,而对于最简单的算法(例如 QLearning),您只需跟踪每个给定状态-操作对的值即可。

如果您刚刚学习所有这些内容,我会推荐 Sutton and Barto文本。另外,如果您想查看 RL 算法的简单示例,我有一个非常简单的基类和一个使用它的示例,地址为 github (用Python编写)。 Abstract_rl 类旨在针对 RL 任务进行扩展,但非常简单。 simple_rl.py 是一个简单任务的示例(它是一个简单的网格,以一个位置为目标,它使用 QLearning 作为算法),使用可以运行的 base_rl 并打印一些显示随时间变化的奖励的图表。两者都不是很复杂,但如果您刚刚开始,可能会帮助您提供一些想法。我希望这有帮助。如果您有更多或更具体的问题,请告诉我。

关于machine-learning - 强化学习玩具项目,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2846038/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com