gpt4 book ai didi

reinforcement-learning - 深度强化学习背景下的batch size是什么意思?

转载 作者:行者123 更新时间:2023-12-04 02:50:02 27 4
gpt4 key购买 nike

batch size在监督学习中是神经工作训练的样本数量,但是在强化学习的背景下batch size是什么意思呢?它也指 sample 吗?如果是,样本在强化学习背景下的意义是什么?

最佳答案

与监督学习相比,批量大小在强化学习中确实意味着同样的事情。 “批量学习”(通常是小批量)的直觉有两方面:

  1. 由于硬件的内存限制,可能很难对超过 1,000,000 个数据点进行批量梯度下降。
  2. 计算代表整个数据的整个数据子集的损失梯度。如果您在每一步训练的批处理不能代表整个数据,那么您的更新步骤就会有偏差。

在监督学习中,例如神经网络,您可以进行小批量梯度下降来更新您的神经网络。在深度强化学习中,您正在训练相同的神经网络,因此它以相同的方式工作。

在监督学习中,您的批处理将包含一组特征及其各自的标签。在深度强化学习中,也是类似的。它是一个元组(状态、 Action 、奖励、t + 1 时的状态,有时完成)。

状态:描述你的环境的原始状态

Action:你在那个环境状态下执行的 Action

奖励:在该状态下执行该 Action 后获得的奖励信号

状态 t+1:您的操作使您进入的新状态。

完成:一个 bool 值,表示您的任务结束。例如,如果你训练 RL 下象棋,完成的将是赢得或输掉棋局。

您将对这些 (s, a, r, s(t+1), done) 元组中的一批进行采样。然后将其输入到 TD 更新规则中,通常采用以下形式:

enter image description here

两个 Q 是 Action 值,通过将 s、s(t+1) 和 a 传递到您的神经网络来计算。

然后,您将使用 Q 作为标签更新您的神经网络。

关于reinforcement-learning - 深度强化学习背景下的batch size是什么意思?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55473950/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com