java - 如何实现深度Q学习梯度下降-6ren

java - 如何实现深度Q学习梯度下降

转载作者：塔克拉玛干更新时间：2023-11-03 03:41:25

25

4

因此，我正在尝试实现由 Google DeepMind 创建的深度 Q 学习算法，我认为我现在已经掌握了它。然而，还有一件事(非常重要)我不太明白，我希望你能帮忙。

yj 不会产生 double (Java)，而后一部分不会产生包含当前状态下每个 Action 的 Q 值的矩阵，如下一行(算法中的倒数第 4 行):

那么我怎样才能将它们相互减去呢？

我是否应该将 yj 设为包含来自此处的所有数据的矩阵？除了将当前选定的操作替换为

这似乎不是正确的答案，如您所见，我在这里有点迷路。

最佳答案

其实是自己找的。 (从一开始就做对了 :D)

对当前状态 s 进行前馈传递，以获得所有操作的预测 Q 值。
对下一个状态 s' 进行前馈传递并计算最大整体网络输出 max a' Q(s', a')。
将 Action 的 Q 值目标设置为 r + γmax a’ Q(s’, a’)(使用在步骤 2 中计算的最大值)。 对于所有其他操作，将 Q 值目标设置为与最初从步骤 1 返回的相同，使这些输出的错误为 0。
使用反向传播更新权重。

关于java - 如何实现深度Q学习梯度下降，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39932611/

25

4

0

文章推荐： java - Linq C# 中 Java 的 Stream#Peek 方法的等价物是什么？

文章推荐： java - Stream reduce() 要求到底包含什么？

javascript - Q.fcall 和 (Q.defer + Q.resolve + Q.promise)/Q 库的区别
例子一 function first(a, b) { return a + b; } function second() { return Math.floor(Math.sqrt(a
equality - 如何或可能在 Coq 中证明或伪造 `forall (P Q : Prop), (P -> Q) -> (Q -> P) -> P = Q.` ？
我想证明或证伪forall (P Q : Prop), (P -> Q) -> (Q -> P) -> P = Q.在柯克。这是我的方法。 Inductive True2 : Prop := | O
java - 程序需要一直循环直到键入键 "Q"/"q"
程序提取数字，我希望它继续循环，直到用户键入“Q”/“q”键。例如，当用户按下“O”键时，程序应打印他们输入的数字的个位数，对于用户输入的任何 3 位数字，依此类推。当我现在运行代码时，没有输出，但也
javascript - Q 未处理的拒绝原因与 Q.all
我收到以下代码的警告，我不明白为什么。类似于这个问题:Unhandled rejection reasons (should be empty) 但是…… 我很确定我正在处理所有错误，那么为什么会出
javascript - Q 库 (javascript) - 在与 Q.all() 的 promise 中处理 q.reject()
我正在使用 Express 构建一个博客站点，并且是第一次使用 Q，我希望能够利用资深 Q 用户的知识。我向我的数据库发出一个请求以加载帖子数据，另一个请求命中 Instagram API(除非它已
tomcat - 用 q=* :* && q={keyword} && q=field:{keyword} in solr 4. 9 查询
我刚刚找到有关 apache solr 的信息，并且在我成功安装了带有 Tomcat 的 apache Solr 之后。然后我开始使用 Apache Solr 进行搜索。但我对 Apache Sol
mysql - 混淆 "p OR q"， "p AND q"，其中 "p"等于 "false"， "q"等于 "unknown"
我在 Stack Overflow post 上看到了下图但是，我对“p OR q”、“p AND q”的结果感到困惑，其中“p”等于“false”，“q”等于“unknown”。在图中，“p O
java - 当 p 和 q 是素数时，找到 n=p*q 的 'p' 和 'q'
有人向我提出了这个问题。 n = 77 n = p*q p and q is a prime number 用蛮力找到p和q。到目前为止我的代码: public class If { pub
algorithm - 如何找到两个素数 p 和 q，其中 p 和 q 足够大并且 q 整除 p − 1？
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎与 help center 中定义的范围内的编程无关。 . 关闭 4 年前。 Improve
q - 如何在 Q promise 中显示未处理错误的异常
我注意到如果 .then()回调由于任何错误(例如对 undefined variable 的操作)而失败，并且没有 .catch()相关联，该错误将被静默忽略。这在开发过程中很不舒服。例如，此代
perl - 为什么 q/\\a/等于 q/\a/？
以下示例打印“SAME”: if (q/\\a/ eq q/\a/) { print "SAME\n"; } else { print "DIFFERENT\n"; } 我理解这与 d
Python:如何处理回归 Q-Q 图中的异常值？
我画了 qq 图多元回归，得到了下面的图。谁能告诉我为什么红线下面有两个点？这些点对我的模型有影响吗？我使用下面的代码来绘制图表。 from sklearn.linear_model import
c - "void foo(int q[][4]){}"中的 q 是什么类型？使用 "void foo(int q[6][4]){}"与前者有何不同？
我确定 int q[6][4] 中的 q 的类型为 (**q)[4]，即, 指向大小为 4 的整数数组的指针。但是我的书(我发现它很可疑!!)说函数定义中的 int q[][4] 部分 void fo
coq - 如何证明coq中的引理 "(P\/Q)/\~P -> Q."？
我试图用 tatics [intros]、[apply]、[assumption]、[destruct]、[left]、[right]、[split] 来证明这个引理，但失败了。谁能教教我怎么证明？
javascript - 使用 q.js，q.all 是否执行立即函数？
使用 q.all 时，我的数组中的立即函数似乎没有执行。每个函数都应该创建一个已解决的 promise ，将其打印到控制台，然后返回它。我没有看到控制台输出，但 Q.all 似乎很满意，并用 2 个空
python - 在 Q 学习的开放式环境中，Q 矩阵维度应该是多少
我想在 OpenAI 的 Bipedal Walker v2 中实现 Q 学习，但在寻找教程后，它们似乎总是有限环境，这使得 Q 矩阵和奖励矩阵易于初始化。例如:http://mnemstudio.
C - 为什么这个表达式 *q = *(q + 1) 在处理字符串时产生错误？
已关闭。此问题需要 debugging details 。目前不接受答案。编辑问题以包含 desired behavior, a specific problem or error, and the
javascript - angularjs和requirejs中 "Q"和 "q"的区别
我正在创建一个基于 AngularJS、Breeze 和 RequireJS 的单页应用程序。在使用 requirejs 设置 AMD 以使用 Angular 和 Breeze 时，我遇到了 Bree
javascript - Angular : $q. defer() 与 $q()
这个问题在这里已经有了答案: Difference between defer().promise and Promise (1 个回答) 关闭 6 年前。在 Angular 中，以下代码片段似乎
c++ - Recv-Q+Send-Q>写入字节
我写了一个 tcp 服务器和一个 tcp 客户端，客户端只向服务器发送数据并打印它写入了多少字节，服务器只接受连接，然后我使用 netstat 显示套接字的 Recv-Q 和 Send-问，我发现 R

首页

博学

6Ren·AI

商城

java - 如何实现深度Q学习梯度下降