gpt4 book ai didi

machine-learning - OpenAI 基线 : Why simultaneously use `tf.stop_gradient` and specify `var_list` ?

转载 作者:行者123 更新时间:2023-11-30 08:43:40 31 4
gpt4 key购买 nike

在 OpenAI 基线代码 DQN 上, tf.stop_gradient 是在构建操作图时对目标网络的 q 值使用的,以防止目标 q 值对损失最小化的贡献。 (第 213 行)

但是,在调用 minimize 时,var_list 仅指定为 tf.Variable,其范围属于正在优化的 q 网络,排除目标 q 网络下作用域的变量。 (第223行)

我不知道他们为什么要同时做这两件事。这两种方法似乎达到了相同的结果。

最佳答案

这是多余的。 IMO 代码读起来更好 - 您知道梯度不会流经该表达式,并且您还确切知道哪些变量将受到影响。

确实足以达到同等效果。

关于machine-learning - OpenAI 基线 : Why simultaneously use `tf.stop_gradient` and specify `var_list` ?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44252741/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com