gpt4 book ai didi

algorithm - Actor 评论家强化学习中的行动约束

转载 作者:塔克拉玛干 更新时间:2023-11-03 03:52:10 25 4
gpt4 key购买 nike

我已经实现了 natural actor-critic RL 算法在一个简单的网格世界上有四种可能的 Action (上、下、左、右),我注意到在某些情况下它往往会卡在上下或左右之间摆动。

现在,在这个领域上下和左右是相反的,我觉得如果我能以某种方式让代理意识到这一事实,学习可能会得到改善。我想在计算 Action 激活后简单地添加一个步骤(例如,从右激活中减去左激活,反之亦然)。但是,我担心这会在一般情况下导致收敛问题。

添加约束似乎是该领域的普遍愿望,所以我想知道是否有人知道我应该为此目的使用的标准方法。如果不是,那么我的临时方法是否合理。

提前致谢!

最佳答案

如果可能的话,我会避免在选择 Action 时使用启发式方法。如果您想在训练中添加启发式方法,我会在奖励函数的计算中进行。这样,代理将学习启发式并将其体现为它正在逼近的值(value)函数的一部分。

关于振荡行为,是否允许不动的 Action (即保持在同一位置)?

最后,我不会太担心违反一般情况和收敛保证。它们只是进行应用工作时的指南。

关于algorithm - Actor 评论家强化学习中的行动约束,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14616576/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com