tensorflow - DQN - Q-Loss 不收敛-6ren

tensorflow - DQN - Q-Loss 不收敛

转载作者：行者123 更新时间：2023-12-04 11:15:49

117

4

我正在使用 DQN 算法在我的环境中训练代理，如下所示:

代理通过选择离散 Action (左、右、上、下)来控制汽车

目标是以理想的速度行驶而不会撞到其他汽车

状态包含代理的汽车和周围汽车的速度和位置

奖励:-100 撞到其他汽车，根据与所需速度的绝对差异获得正奖励(如果以所需速度行驶，则为 +50)

我已经调整了一些超参数(网络架构、探索、学习率)，这给了我一些下降结果，但仍然没有应该/可能的那么好。在训练期间，每个阶段的奖励会增加。 Q 值也在收敛(见图 1)。然而，对于超参数的所有不同设置，Q-loss 并不收敛(见图 2)。我认为，Q-loss 缺乏收敛性可能是获得更好结果的限制因素。

Q-value of one discrete action durnig training

Q-loss during training

我正在使用每 20k 时间步更新一次的目标网络。 Q-loss 计算为 MSE。

你知道为什么 Q-loss 不收敛吗？
DQN 算法的 Q-Loss 是否必须收敛？我想知道，为什么大多数论文中都没有讨论 Q-loss。

最佳答案

是的，损失必须覆盖，因为损失值意味着预期 Q 值和当前 Q 值之间的差异。只有当损失值收敛时，电流才接近最优 Q 值。如果它发散，这意味着您的近似值越来越不准确。

也许您可以尝试调整目标网络的更新频率或检查每次更新的梯度(添加梯度裁剪)。目标网络的加入增加了Q-learning的稳定性。

在 Deepmind 的 2015 年 Nature 论文中，它指出:

The second modification to online Q-learning aimed at further improving the stability of our method with neural networks is to use a separate network for generating the traget yj in the Q-learning update. More precisely, every C updates we clone the network Q to obtain a target network Q' and use Q' for generating the Q-learning targets y_j for the following C updates to Q. This modification makes the algorithm more stable compared to standard online Q-learning, where an update that increases Q(s_t,a_t) often also increases Q(s_t+1, a) for all a and hence also increases the target y_j, possibly leading to oscillations or divergence of the policy. Generating the targets using the older set of parameters adds a delay between the time an update to Q is made and the time the update affects the targets y_j, making divergence or oscillations much more unlikely.

Human-level control through deep reinforcementlearning, Mnih et al., 2015

我给别人在Cartpole环境下问过类似问题做了一个实验，100的更新频率解决了问题(最大达到200步)。

当 C(更新频率)=2 时，绘制平均损失:

C = 10

C = 100

C = 1000

C = 10000

如果损失值的发散是由梯度爆炸引起的，您可以剪裁梯度。在 Deepmind 的 2015 DQN 中，作者通过将值限制在 [-1, 1] 内来裁剪梯度。在另一种情况下，作者 Prioritized Experience Replay通过将范数限制在 10 以内来剪辑梯度。以下是示例:

DQN 渐变裁剪:

    optimizer.zero_grad()
    loss.backward()
    for param in model.parameters():
        param.grad.data.clamp_(-1, 1)
    optimizer.step()

PER 渐变剪裁:

    optimizer.zero_grad()
    loss.backward()
    if self.grad_norm_clipping:
       torch.nn.utils.clip_grad.clip_grad_norm_(self.model.parameters(), 10)
   optimizer.step()

关于tensorflow - DQN - Q-Loss 不收敛，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47036246/

117

4

0

文章推荐： Firebase 规则自行重置

文章推荐： java - Swagger:你如何为 3rd 方代码添加 ApiModelProperty？

文章推荐： resharper - 是否可以为 resharper 定义自定义命名约定？

文章推荐： sharepoint - 覆盖 webpart 中的 Sharepoint CSS 类名称

python - DQN 无法正常工作
我正在尝试使用 keras 在 Python 中编写自己的 DQN。我认为我的逻辑是正确的。我正在 CartPole 环境中尝试，但奖励在 50,000 集后并没有增加。任何帮助将不胜感激。目前我不关
python - 训练速度较慢的简单 DQN
我一直在尝试使用本文中的 DQN 解决 OpenAI 登月游戏 https://arxiv.org/pdf/2006.04938v2.pdf 问题是训练 50 集需要 12 个小时，所以一定是出了什么
python - DQN 在不同的计算机上表现不同
我有一个或多或少标准的 DQN 实现来解决 Atari“Breakout”(来自 Coursera 强化学习类(class))，它在不同的计算机上表现完全不同: 在我的笔记本电脑上它收敛每次我运行它
基于深度强化学习(DQN)的迷宫寻路算法
QLearning方法有着明显的局限性，当状态和动作空间是离散的且维数不高时可使用Q-Table存储每个状态动作的Q值，而当状态和动作时高维连续时，该方法便不太适用。可以将Q-Table的更新问题变
tensorflow - 使用带有 DQN 算法的张量板
对于强化学习，我读到张量板并不理想，因为它提供了每集和/或步骤的输入。由于强化学习有数千个步骤，因此它并没有给我们内容的概述。我在这里看到了这个修改后的张量板类:https://pythonprogr
tensorflow - 使用带有 DQN 算法的张量板
对于强化学习，我读到张量板并不理想，因为它提供了每集和/或步骤的输入。由于强化学习有数千个步骤，因此它并没有给我们内容的概述。我在这里看到了这个修改后的张量板类:https://pythonprogr
python - 如何提高 DQN 的性能？
我创建了一个深度 Q 网络来玩贪吃蛇。该代码运行良好，但在训练周期中性能并未真正提高。最后，它与采取随机操作的代理几乎没有区别。这是训练代码: def train(self): sel
python - 为什么我的 DQN 代理无法在非确定性环境中找到最优策略？
编辑:以下似乎也是 FrozenLake-v0 的情况.请注意，我对简单的 Q 学习不感兴趣，因为我想看到适用于连续观察空间的解决方案。我最近创建了 banana_gym OpenAI 环境。场景如
tensorflow - DQN - Q-Loss 不收敛
我正在使用 DQN 算法在我的环境中训练代理，如下所示: 代理通过选择离散 Action (左、右、上、下)来控制汽车目标是以理想的速度行驶而不会撞到其他汽车状态包含代理的汽车和周围汽车的速度和位
python - DQN Pytorch Loss 不断增加
我正在实现简单的 DQN算法使用 pytorch , 解决来自 gym 的 CartPole 环境.我已经调试了一段时间，我无法弄清楚为什么模型没有学习。观察: 使用 SmoothL1Loss性能比
python - 深度Q-网络(DQN)学习游戏2048没有提高
我正在尝试构建一个可以学习玩游戏的深度 Q 网络 (DQN) 代理 2048 。我正在关注基于蛇游戏的其他程序和文章，并且效果很好( specifically this one )。作为输入状态，我
machine-learning - 大型网格世界环境的 DQN 探索策略
我的任务涉及大型网格世界类型的环境(网格大小可能为 30x30、50x50、100x100，最大为 200x200)。该网格中的每个元素包含 0 或 1，它们在每个情节中随机初始化。我的目标是训练一个
reinforcement-learning - DQN:在将观察空间转换为 Box 环境后访问原始观察结果？
我正在改编 Tabor 的 DQN 类(class) (https://github.com/philtabor/Deep-Q-Learning-Paper-To-Code) 中的 Pytorch 代
python - 用于 DQN 强化学习的 Keras Tensorboard
我正在使用 keras 构建 DQN，并使用具有经验回放内存的经典 DQN 算法对其进行训练。由于在 dqn 中，您需要多次调用 model.fit，这意味着每次从重播内存中采样批量数据时，使用 ke
reinforcement-learning - DQN:在将观察空间转换为 Box 环境后访问原始观察结果？
我正在改编 Tabor 的 DQN 类(class) (https://github.com/philtabor/Deep-Q-Learning-Paper-To-Code) 中的 Pytorch 代
machine-learning - DQN 如何在奖励始终为 -1 的环境中工作
鉴于 OpenAI Gym 环境 MountainCar-v0总是返回 -1.0 作为奖励(即使目标实现了)，我不明白 DQN 与经验回放如何收敛，但我知道它会收敛，因为我有 working code
python - 训练 DQN 时 Q 值爆炸
我正在训练 DQN 来玩 OpenAI 的 Atari 环境，但我的网络的 Q 值迅速爆炸，远高于现实水平。这是代码的相关部分: for state, action, reward, next_st
python - 让 DQN 解决 A 是否大于 B
我最近开始研究神经网络。我目前正在试验 DQN。我已经能够让他们使用大量的 Atari 教程，但发现我无法理解整个问题，所以我为 DQN 编写了一个简单的模式来处理它只是 A 比 B 大，如果不是，则
python - 使用 DQN 增加 Cartpole-v0 损失
您好，我正在尝试训练 DQN 来解决健身房的 Cartpole 问题。出于某种原因 Loss看起来像这样(橙色线)。你们能看看我的代码并帮助解决这个问题吗？我对超参数进行了一些尝试，所以我认为它们不是
python - 自定义环境的 Tensorflow 2.0 DQN 代理问题
所以我一直在关注 DQN 代理示例/教程，并按照示例中的方式进行设置，唯一的区别是我构建了自己的自定义 python 环境，然后将其包装在 TensorFlow 中。然而，无论我如何塑造我的观察和行动

首页

博学

6Ren·AI

商城

tensorflow - DQN - Q-Loss 不收敛