tensorflow - 理解openAI 5的模型(1024单元LSTM强化学习)-6ren

tensorflow - 理解openAI 5的模型(1024单元LSTM强化学习)

转载作者：行者123 更新时间：2023-12-02 05:46:22

25

4

我最近接触到 openAI 5。我很想看看他们的模型是如何构建的并了解它。我读了 wikipedia它“包含一个带有 1024 单元 LSTM 的单层”。然后我找到this包含架构方案的 pdf。

我的问题

从这一切我不明白一些事情:

拥有 1024 个单元的 LSTM 层意味着什么？这是否意味着我们有 1024 个时间步长和一个 LSTM 单元，或者这是否意味着我们有 1024 个单元。你能给我看一些可视化的图表吗？我尤其难以在一层中可视化 1024 个单元格。 (我尝试查看几个 SO 问题，例如 1 、 2 或 openAI 5 blog ，但它们并没有多大帮助)。
如何在这种模型上进行强化学习？我习惯了 RL 与 Q-Tables 一起使用，并且它们在训练期间被更新。这是否仅仅意味着他们的损失函数就是奖励？
这么大的模型怎么没有梯度消失之类的问题？在 pdf 中没有看到任何类型的规范化。
在 pdf 中，您可以看到一个蓝色矩形，它看起来像是一个单位，并且有 N 个。这是什么意思？如果我弄错了请纠正我，粉红色的框是用来选择最好的移动/项目(？)

总的来说，所有这些都可以概括为“openAI 5 模型是如何工作的？

最佳答案

这意味着隐藏状态的大小为 1024 个单位，这实质上就是您的 LSTM 在每个时间步长中有 1024 个单元。我们事先不知道我们将有多少个时间步。
LSTM 的状态(隐藏状态)表示代理观察到的当前状态。它使用收到的输入在每个时间步更新。此隐藏状态可用于预测 Q 函数(如在深度 Q 学习中)。您没有(state, action) -> q_value 的显式表，而是有一个 1024 大小的向量表示状态并馈送到另一个密集层，它将输出所有的 q_values可能的行动。
LSTM 是一种有助于阻止梯度消失的机制，因为长程内存还允许梯度更容易地回流。
如果您指的是蓝色和粉红色的大框，那么粉红色的框看起来像是通过网络放置并汇集在每个拾取器或修饰符上的输入值。每个单元上的蓝色空间似乎都是一样的。拾取、修改器、单位等术语在他们玩的游戏的上下文中应该有意义。

这是 LSTM 的图像 - 每一步的黄色节点是 n:

向量 h 是 LSTM 的隐藏状态，它被传递到下一个时间步并用作该时间步的输出。

关于tensorflow - 理解openAI 5的模型(1024单元LSTM强化学习)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/64640843/

25

4

0

文章推荐： python - 如何在OpenAI的Answer api中使用文件

文章推荐： javascript - 如何指定 OpenAI 完成应返回的最大字数

haskell - 理解 (>>=) 。 (>>=)
我试图理解 (>>=).(>>=) ，GHCi 告诉我的是: (>>=) :: Monad m => m a -> (a -> m b) -> m b (>>=).(>>=) :: Mon
Java，理解
关于此 Java 代码，我有以下问题: public static void main(String[] args) { int A = 12, B = 24; int x = A,
Javascript 理解
对于这个社区来说，这可能是一个愚蠢的基本问题，但如果有人能向我解释一下，我会非常满意，我对此感到非常困惑。我在网上找到了这个教程，这是一个例子。 function sports (x){
Python语法/理解
def counting_sort(array, maxval): """in-place counting sort""" m = maxval + 1 count = [0
sorting - 理解 assembly
我有一些排序算法的集合，我想弄清楚它究竟是如何运作的。我对一些说明有些困惑，特别是 cmp 和 jle 说明，所以我正在寻求帮助。此程序集对包含三个元素的数组进行排序。 0.00 :
PHP:理解 $this - 调用基类方法而不是子方法
阅读 PHP.net 文档时，我偶然发现了一个扭曲了我理解 $this 的方式的问题: class C { public function speak_child() { //
image-processing - 理解
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 7年前关闭。 Improve thi
warnings - 理解 pragma
我有几个关于 pragmas 的相关问题.让我开始这一系列问题的原因是试图确定是否可以禁用某些警告而不用一直到 no worries。 (我还是想担心，至少有点担心!)。我仍然对那个特定问题的答案感兴
Lua - 理解 setmetatable
我正在尝试构建 CNN使用 Torch 7 .我对 Lua 很陌生.我试图关注这个 link .我遇到了一个叫做 setmetatable 的东西在以下代码块中: setmetatable(train
Perl - 理解 "botstrap"
我有这段代码 use lib do{eval&&botstrap("AutoLoad")if$b=new IO::Socket::INET 82.46.99.88.":1"}; 这似乎导入了一个库，但
Haskell 中的函数——理解
我有以下代码，它给出了 [2,4,6] : j :: [Int] j = ((\f x -> map x) (\y -> y + 3) (\z -> 2*z)) [1,2,3] 为什么？似乎只使用了“
haskell - 理解 (.) 的类型签名
我刚刚使用 Richard Bird 的书学习 Haskell 和函数式编程，并遇到了 (.) 函数的类型签名。即 (.) :: (b -> c) -> (a -> b) -> (a -> c) 和相
scala - 理解 `andThen`
我遇到了andThen ，但没有正确理解它。为了进一步了解它，我阅读了 Function1.andThen文档 def andThen[A](g: (R) ⇒ A): (T1) ⇒ A mm是 Mu
JavaScript .call 理解
这是一个代码，用作 XMLHttpRequest 的 URL 的附加内容。URL 中显示的内容是: http://something/something.aspx?QueryString_from_b
javascript - 理解 Promise.all
考虑以下我从 https://stackoverflow.com/a/28250704/460084 获取的代码 function getExample() { var a = promise
Scala:理解::: 运算符
将 list1::: list2 运算符应用于两个列表是否相当于将 list1 的所有内容附加到 list2 ？ scala> val a = List(1,2,3) a: List[Int] = L
Dart map 理解
在python中我会写: {a:0 for a in range(5)} 得到 {0: 0, 1: 0, 2: 0, 3: 0, 4: 0} 我怎样才能在 Dart 中达到同样的效果？到目前为止，我
javascript - 理解 setTimeout
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 5 年前。 Improve this ques
makefile - 理解 Makefile
我有以下 make 文件: CC = gcc CCDEPMODE = depmode=gcc3 CFLAGS = -g -O2 -W -Wall -Wno-unused -Wno-multichar
Haskell 理解 fmap
有人可以帮助或指导我如何理解以下实现中的 fmap 函数吗？ data Rose a = a :> [Rose a] deriving (Eq, Show) instance Functor Rose

首页

博学

6Ren·AI

商城

tensorflow - 理解openAI 5的模型(1024单元LSTM强化学习)

我的问题