machine-learning - OpenAI 基线 : Why simultaneously use `tf.stop_gradient` and specify `var

machine-learning - OpenAI 基线 : Why simultaneously use `tf.stop_gradient` and specify `var_list` ?

转载作者：行者123 更新时间：2023-11-30 08:43:40

在 OpenAI 基线代码 DQN 上, tf.stop_gradient 是在构建操作图时对目标网络的 q 值使用的，以防止目标 q 值对损失最小化的贡献。 (第 213 行)

但是，在调用 minimize 时，var_list 仅指定为 tf.Variable，其范围属于正在优化的 q 网络，排除目标 q 网络下作用域的变量。 (第223行)

我不知道他们为什么要同时做这两件事。这两种方法似乎达到了相同的结果。

最佳答案

这是多余的。 IMO 代码读起来更好 - 您知道梯度不会流经该表达式，并且您还确切知道哪些变量将受到影响。

确实足以达到同等效果。

关于machine-learning - OpenAI 基线 : Why simultaneously use `tf.stop_gradient` and specify `var_list` ?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44252741/

文章推荐： javascript 函数 onclick 必须点击两次 -_- 为什么会这样？

文章推荐： java - 我在 Java Swing 中遇到 crush 事件的一些问题

文章推荐： javascript - Highcharts 面积图用一个数据点隐藏图表

文章推荐： python - 使用 Pandas 和 Scatter_Matrix 将不会显示

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

machine-learning - OpenAI 基线 : Why simultaneously use `tf.stop_gradient` and specify `var_list` ?