gpt4 book ai didi

tensorflow - TensorFlow 中的资格跟踪

转载 作者:行者123 更新时间:2023-12-04 07:40:43 30 4
gpt4 key购买 nike

根据 Sutton 的书 - Reinforcement Learning: An Introduction,网络权重的更新方程为:

theta = theta + alpha * delta * e

其中 et 是资格轨迹。
这类似于带有额外 et 的梯度下降更新。
此资格跟踪可以包含在 tf.train.GradientDescentOptimizer 中吗?在 TensorFlow 中?

最佳答案

这是一个使用 tf.contrib.layers.scale_gradient 的简单示例做梯度的元素乘法。在前向传递中,它只是一个身份操作,在向后传递中,它将梯度乘以它的第二个参数。

import tensorflow as tf

with tf.Graph().as_default():
some_value = tf.constant([0.,0.,0.])
scaled = tf.contrib.layers.scale_gradient(some_value, [0.1, 0.2, 0.3])
(some_value_gradient,) = tf.gradients(tf.reduce_sum(scaled), some_value)
with tf.Session():
print(scaled.eval())
print(some_value_gradient.eval())

打印:
[ 0.  0.  0.]
[ 0.1 0.2 0.30000001]

关于tensorflow - TensorFlow 中的资格跟踪,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44381198/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com