gpt4 book ai didi

machine-learning - 在函数逼近的 Q 学习中,是否可以避免手工制作特征?

转载 作者:行者123 更新时间:2023-11-30 08:31:07 25 4
gpt4 key购买 nike

我对机器学习的背景知识很少,所以如果我的问题看起来很愚蠢,请原谅我。

根据我所读到的内容,迄今为止最好的无模型强化学习算法是 Q-Learning,其中代理世界中的每个状态、 Action 对都被赋予一个 q 值,并且在每个状态下的 Action 选择具有最高 q 值的。然后 q 值更新如下:

Q(s,a) = (1-α)Q(s,a) + α(R(s,a,s') + (max_a' * Q(s',a'))) 其中 α是学习率。

显然,对于高维问题,状态数量会变得非常大,使得 q 值表存储变得不可行。

因此,Q-Learning 的实际实现需要通过状态(又名特征)的泛化来使用 Q 值近似。例如,如果代理是 Pacman,那么特征将是:

  • 到最近点的距离
  • 到最近鬼魂的距离
  • 吃 bean 人在隧道里吗?

然后,您只需要每个特征的 q 值,而不是每个状态的 q 值。

所以我的问题是:

强化学习代理是否可以创建或生成额外的特征?

我所做的一些研究:

This post提到了 A Geramifard 的 iFDD 方法

这是一种“发现功能依赖性”的方法,但我不确定这是否是功能生成,因为本文假设您从一组二进制功能开始。

我发现的另一篇论文是 Playing Atari with Deep Reinforcement Learning ,“使用一系列神经网络架构提取高级特征”。

我已经阅读了这篇论文,但仍然需要充实/完全理解他们的算法。这就是我要找的吗?

谢谢

最佳答案

看来您已经回答了自己的问题:)

特征生成不是 Q-learning(和 SARSA)算法的一部分。然而,在称为预处理的过程中,您可以使用多种算法(您展示了其中一些)来从数据中生成/提取特征。组合不同的机器学习算法会产生混合架构,这是您在研究最适合您的问题时可能会考虑的术语。

这是一个example of using features with SARSA (这与 Q-learning 非常相似)。您引用的论文是否对您的场景有帮助,您必须自己决定。与机器学习一样,您的方法高度依赖于问题。如果您从事机器人技术并且很难手动定义离散状态,那么神经网络可能会有所帮助。如果您可以自己想到启发式方法(如 pacman 示例),那么您可能不需要它。

关于machine-learning - 在函数逼近的 Q 学习中,是否可以避免手工制作特征?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27370495/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com