gpt4 book ai didi

machine-learning - 使用梯度下降实现 SARSA

转载 作者:行者123 更新时间:2023-11-30 09:01:40 25 4
gpt4 key购买 nike

我已经使用表查找成功实现了 SARSA 算法(一步法和使用资格跟踪)。本质上,我有一个 q 值矩阵,其中每行对应一个状态,每列对应一个操作。

类似于:

[Q(s1,a1), Q(s1,a2), Q(s1,a3), Q(s1,a4)]
[Q(s2,a1), (Q(s2,a2), Q(s2a3), Q(s2, a2]
.
.
.
[Q(sn,a1), Q(sn,a2), Q(sn,a3), Q(sn,a4)]

在每个时间步长,都会从矩阵中选择一行,并根据策略,根据 SARSA 规则选择和更新操作。

我现在正在尝试使用梯度下降将其实现为神经网络。

我的第一个假设是创建一个两层网络,输入层具有与状态一样多的输入神经元,输出层具有与 Action 一样多的输出神经元。每个输入都将完全连接到每个输出。 (所以,事实上,它看起来就像上面的矩阵)

我的输入向量将是 1xn 行向量,其中 n 是输入神经元的数量。输入向量中的所有值都将为 0,除了与当前状态对应的索引为 1 之外。即:

[0 0 0 1 0 0]

将是处于状态 4 的代理的输入向量。

所以,这个过程会是这样的:

[0 0 0 1 0 0] X [ 4 7 9 3]
[ 5 3 2 9]
[ 3 5 6 9]
[ 9 3 2 6]
[ 2 5 7 8]
[ 8 2 3 5]

我创建了一个随机的样本权重矩阵。

结果将是:

[9 3 2 6]

这意味着,如果选择了贪婪策略,则应选择 Action 1,并且第四个输入神经元和第一个输出神经元之间的连接应通过以下方式变得更强:

dw = dw_old + learning_rate*(reward + discount*network_output - dw_old)

(来自 SARSA 算法的方程)

然而 - 这个实现并不能说服我。根据我读到的内容,网络权重应该用于计算状态- Action 对的 Q 值,但我不确定它们应该代表这样的值。 (特别是因为我通常看到权重值仅包含在 0 到 1 之间。)

有什么建议吗?

最佳答案

摘要:您当前的方法是正确的,只是您不应将输出值限制在 0 到 1 之间。

This page有一个很好的解释,我将在这里总结一下。它没有专门讨论 SARSA,但我认为它所说的一切都应该翻译。

结果向量中的值确实应该代表神经网络对与每个状态相关的 Q 值的估计。因此,通常建议您不要将允许值的范围限制在 0 到 1 之间(因此只需将值乘以连接权重求和,而不是使用某种 sigmoid 激活函数)。

至于如何表示状态,一种选择是用代理拥有或理论上可能拥有的传感器来表示它们。例如,在下面的示例中,机器人具有三个“触角”传感器,每个传感器都可以处于三种条件之一。它们共同为机器人提供了它将获得的有关其所处状态的所有信息。

enter image description here

但是,如果您想为代理提供完美的信息,您可以想象它有一个传感器可以准确地告诉它所处的状态,如 this page 末尾附近所示。 。这将与您的网络当前设置的方式完全相同,一个输入代表每个状态。

关于machine-learning - 使用梯度下降实现 SARSA,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29978406/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com