gpt4 book ai didi

tensorflow - 理解openAI 5的模型(1024单元LSTM强化学习)

转载 作者:行者123 更新时间:2023-12-02 05:46:22 25 4
gpt4 key购买 nike

我最近接触到 openAI 5。我很想看看他们的模型是如何构建的并了解它。我读了 wikipedia它“包含一个带有 1024 单元 LSTM 的单层”。然后我找到this包含架构方案的 pdf。

我的问题

从这一切我不明白一些事情:

  1. 拥有 1024 个单元的 LSTM 层意味着什么?这是否意味着我们有 1024 个时间步长和一个 LSTM 单元,或者这是否意味着我们有 1024 个单元。你能给我看一些可视化的图表吗?我尤其难以在一层中可视化 1024 个单元格。 (我尝试查看几个 SO 问题,例如 12openAI 5 blog ,但它们并没有多大帮助)。

  2. 如何在这种模型上进行强化学习?我习惯了 RL 与 Q-Tables 一起使用,并且它们在训练期间被更新。这是否仅仅意味着他们的损失函数就是奖励?

  3. 这么大的模型怎么没有梯度消失之类的问题?在 pdf 中没有看到任何类型的规范化。

  4. 在 pdf 中,您可以看到一个蓝色矩形,它看起来像是一个单位,并且有 N 个。这是什么意思?如果我弄错了请纠正我,粉红色的框是用来选择最好的移动/项目(?)


总的来说,所有这些都可以概括为“openAI 5 模型是如何工作的?

最佳答案

  1. 这意味着隐藏状态的大小为 1024 个单位,这实质上就是您的 LSTM 在每个时间步长中有 1024 个单元。我们事先不知道我们将有多少个时间步。

  2. LSTM 的状态(隐藏状态)表示代理观察到的当前状态。它使用收到的输入在每个时间步更新。此隐藏状态可用于预测 Q 函数(如在深度 Q 学习中)。您没有(state, action) -> q_value 的显式表,而是有一个 1024 大小的向量表示状态并馈送到另一个密集层,它将输出所有的 q_values可能的行动。

  3. LSTM 是一种有助于阻止梯度消失的机制,因为长程内存还允许梯度更容易地回流。

  4. 如果您指的是蓝色和粉红色的大框,那么粉红色的框看起来像是通过网络放置并汇集在每个拾取器或修饰符上的输入值。每个单元上的蓝色空间似乎都是一样的。拾取、修改器、单位等术语在他们玩的游戏的上下文中应该有意义。

这是 LSTM 的图像 - 每一步的黄色节点是 n: LSTM visualization

向量 h 是 LSTM 的隐藏状态,它被传递到下一个时间步并用作该时间步的输出。

关于tensorflow - 理解openAI 5的模型(1024单元LSTM强化学习),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64640843/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com