gpt4 book ai didi

tensorflow - 如何在 TensorBoard 中解释 "Value Loss"图表?

转载 作者:行者123 更新时间:2023-11-30 09:30:25 26 4
gpt4 key购买 nike

我在 Unity 机器学习代理中拥有一架寻找目标、避障的直升机。查看 TensorBoard 进行训练,我试图了解如何解释“损失/值(value)损失”。

enter image description here

我在 google 上搜索了很多关于 ML Loss 的文章,例如 this one ,但我似乎还无法直观地理解这对我的小直升机意味着什么,以及我应该实现的可能的改变(如果有的话)。 (直升机因一次又一次接近目标而受到奖励,并因进一步或碰撞而受到惩罚。它测量各种参数,如相对速度、相对目标位置、射线传感器等,并且它基本上在目标中工作- 寻找,而更复杂的迷宫类型障碍尚未经过测试或训练。它使用 3 层。)谢谢!

最佳答案

在强化学习中,特别是在参与者/批评者算法中,值(value)损失是学习算法对状态值的期望之间的差异(或许多此类差异的平均值) > 以及该状态的经验观察值

国家的值(value)是什么?简而言之,一个状态的值(value)就是你从该状态开始可以期待多少奖励。即时奖励完全占此金额。可能发生但不会立即发生的奖励贡献会越来越少,而且越遥远的事件贡献也会越来越少。我们将这种值(value)贡献的减少称为“折扣”,或者我们说这些奖励是“打折的”。

期望值是算法的关键部分预测值的大小。对于作为神经网络实现的批评家来说,它是神经网络的输出,状态作为其输入。

经验观察值是将您离开该状态时实际获得的奖励加上您在某些时间内立即获得的任何奖励(打折一定金额)后获得的金额。步骤数(我们会说在这些步骤之后您最终进入状态 X),以及(可能取决于实现)加上基于状态 X 的值的一些折扣金额。

简而言之,它越小,它就越能更好地预测其性能。这并不意味着它在玩游戏方面会变得更好 - 毕竟,如果一个人学会选择会让他们很快输掉的行动,那么他可能在一场游戏中很糟糕,但能够准确预测他们会输以及何时会输!

关于tensorflow - 如何在 TensorBoard 中解释 "Value Loss"图表?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60042639/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com