作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
在 OpenAI 基线代码 DQN 上, tf.stop_gradient 是在构建操作图时对目标网络的 q 值使用的,以防止目标 q 值对损失最小化的贡献。 (第 213 行)
但是,在调用 minimize
时,var_list
仅指定为 tf.Variable
,其范围属于正在优化的 q 网络,排除目标 q 网络下作用域的变量。 (第223行)
我不知道他们为什么要同时做这两件事。这两种方法似乎达到了相同的结果。
最佳答案
这是多余的。 IMO 代码读起来更好 - 您知道梯度不会流经该表达式,并且您还确切知道哪些变量将受到影响。
确实足以达到同等效果。
关于machine-learning - OpenAI 基线 : Why simultaneously use `tf.stop_gradient` and specify `var_list` ?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44252741/
我是一名优秀的程序员,十分优秀!