gpt4 book ai didi

artificial-intelligence - RL 代理的严重损失

转载 作者:行者123 更新时间:2023-12-05 09:12:31 25 4
gpt4 key购买 nike

当我为各种问题实现代理时......我发现我的 Actor 损失正在按预期减少。但是我的 critic loss 一直在增加,尽管学到的策略非常多。这发生在 DDPG 、 PPO 等。

关于我的评论家损失增加的任何想法。

我尝试使用超参数,它实际上让我的政策变得更糟。

最佳答案

在强化学习中,您实际上通常不应该关注损失值的精确值。它们不像在监督学习中那样提供信息。损失值应该只用于为您的 RL 方法计算正确的更新,但它们实际上并没有给您任何关于您做得好坏的真实指示。

这是因为在 RL 中,您的学习目标通常是非固定的;它们通常是您正在修改的策略的函数(希望有所改进!)。很有可能,随着 RL 代理性能的提高,您的损失实际上会增加。由于其改进,它可能会发现其搜索空间的新部分,从而导致您的代理以前完全没有注意到的新目标值。

您唯一真正可靠的指标是您的代理在评估运行中收集的返回。

关于artificial-intelligence - RL 代理的严重损失,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58004237/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com