gpt4 book ai didi

reinforcement-learning - 在强化学习中实现损失函数(MSVE)

转载 作者:行者123 更新时间:2023-12-02 18:06:01 26 4
gpt4 key购买 nike

我正在尝试为 Othello 构建一个时间差异学习代理。虽然我的其余实现似乎按预期运行,但我想知道用于训练网络的损失函数。在 Sutton 的书《强化学习:简介》中,均方值误差(MSVE)被提出为标准损失函数。它基本上是均方误差乘以 on 策略分布。(对所有状态 s 求和 ( onPolicyDistribution(s ) * [V(s) - V'(s,w)]² ) )

我现在的问题是:当我的策略是学习值(value)函数的电子贪婪函数时,如何在策略分布上获得此值?是否有必要?如果我只使用 MSELoss 会出现什么问题?

我正在 pytorch 中实现所有这些,因此可以轻松实现这里的奖励积分:)

最佳答案

正如您所提到的,就您的情况而言,听起来您正在进行 Q 学习,因此您不需要按照 Sutton 书中所述进行策略梯度。当你学习政策时,这是需要的。你不是在学习一项政策,而是在学习一个值(value)函数并用它来行动。

关于reinforcement-learning - 在强化学习中实现损失函数(MSVE),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46685506/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com