gpt4 book ai didi

machine-learning - Q-learning更新频率

转载 作者:行者123 更新时间:2023-11-30 09:36:33 27 4
gpt4 key购买 nike

在 Q 学习中,从当前状态开始,智能体在每个离散时间步采取行动,并且在执行操作后,智能体会立即收到奖励以了解所执行操作的成功或失败。假设我们想要使用 Q 学习来控制车辆速度,其中 Action 是目标速度,智能体的目标是尽快到达 parking 线(距起点 1 公里)。

1) 所以在这个例子中,智能体是否需要在每个离散时间步长(1秒)采取行动,或者智能体可以在每 100m 而不是每个离散时间步长采取行动。是否必须在每个离散时间步采取行动?

2)Q-learning中的延迟奖励是什么意思?是在代理达到目标后更新奖励,而不是在每个时间步骤采取每个操作后更新奖励?预先感谢:)

最佳答案

1) does agent need to take action at every discrete time step (1sec) or agent can get an action at every 100m instead of every discrete time step. Is that a must to take action at every discrete time step?

我认为您可能将 Q-learning 中的时间步长概念与我们对时间的物理实现混淆了。在 Q 学习中,每个时间步都是轮到智能体采取行动/采取行动的时间。因此,如果游戏是国际象棋,那么每个时间步都是玩家下棋的时间。因此,你的智能体采取行动的频率是由游戏规则决定的。在你的例子中,我不太清楚“游戏”的规则是什么?如果规则规定代理每 1“秒”选择一个操作,那么代理将需要遵循该规则。如果您认为这种情况太频繁,您可以查看“无”是否是代理可以采取的操作选项。

what is mean by delayed reward in Q-learning? is that updating reward once agent reaches to the target instead of updating reward after taking each action at every time step?

要了解延迟奖励,也许可以看看 formula有助于。 Q-learning formula正如您所看到的,时间步 t 处的 Q 值不仅受到旧 Q 值和即时奖励的影响,还受到“估计的最佳 future 值”的影响。这个估计的最佳值(带有待调整的超参数折扣因子)被设置为捕获“延迟奖励”。

延迟奖励背后的直觉是,有时一个 Action 在当时可能看起来是一个不好的 Action (从数学上讲,通过采取这个 Action ,代理会收到较低的即时奖励甚至惩罚),但不知何故,这个 Action 会导致长期效益。放在你的例子中,假设代理在位置 P,有两条路线可以到达 parking 线。一条路线直线距离为 1 公里,另一条路线有一点绕道,距离为 1.5 公里。代理选择 1.5 公里的路线,它可能会比选择 1 公里的路线获得更少的直接奖励。我们进一步假设 1.5 公里路线的速度限制比 1 公里路线更高,这实际上导致代理比走 1 公里路线更快地到达 parking 线。这个“ future 奖励”是计算时间步t(位置P的状态,采取1.5公里路线的 Action )的Q值时需要考虑的延迟奖励。

该公式实现起来可能有点困惑,因为它涉及 future 的 Q 值。我曾经这样做的方法是简单地计算时间步 t 的 Q 值,而不用担心延迟奖励。

# @ time step t
Q(st, at) = Q(st, at) + alpha * immedate_reward - alpha*Q(st, at)

然后在达到时间步 t+1 后,我返回以延迟奖励更新时间步 t 处的先前 Q 值。

# @ time step t+1
Q(st+1, at+1) = Q(st+1, at+1) + alpha * immedate_reward - alpha*Q(st+1, at+t)
Q(st, at) = Q(st, at) + alpha * gama * max(Q(st+1, a))

我希望这有助于澄清并回答您的问题......

关于machine-learning - Q-learning更新频率,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40121969/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com