python - tensorflow 中的 apply_gradients() 函数不会更新权重和偏差变量-6ren

python - tensorflow 中的 apply_gradients() 函数不会更新权重和偏差变量

转载作者：行者123 更新时间：2023-11-30 08:37:51

24

4

我使用 Tensorflow 的 compute_gradients() 和 apply_gradients() 函数进行反向传播。通过打印梯度值，我确实看到梯度正在计算，但在调用 apply_gradients() 函数后，我没有看到权重有任何变化。我也没有看到 global_step 变量的值发生变化。

我做错了什么吗？

我在 session 中运行以下代码，并且确实看到从 compute_gradients() 函数返回的梯度值被打印。但是，当我将(梯度，权重变量)元组列表传递给 apply_gradients() 函数时，我没有看到权重值发生变化，并且 global_step 值没有更新。

global_step = tf.Variable(0, trainable=False, dtype=tf.int32)
images = tf.placeholder(dtype=tf.float32, shape=[batch_size, None, None, 3])
out_locs = tf.placeholder(dtype=tf.float32, shape=[None, 2])
org_gt_coords = tf.placeholder(dtype=tf.float32, shape=[batch_size, 2])   

res_aux = inference(images,out_locs,org_gt_coords)

ret_dict = train(res_aux, global_step)

init = tf.global_variables_initializer()
with tf.Session() as sess:
  writer = tf.summary.FileWriter('./graphs', sess.graph)
  sess.run(init)

  for epoch in xrange(max_steps):
    start_time = time.time()
    anno_file_batch_rows = getImageMetaRecords() 
    print('epoch: ', epoch)

    for batch in xrange(len(anno_file_batch_rows)/batch_size):
      distorted_images, meta = cdhd_input.distorted_inputs(stats_dict, batch_size, \
              anno_file_batch_rows[batch * batch_size : (batch * batch_size) + batch_size])

      out_dict = sess.run(ret_dict, feed_dict=
                            {images: distorted_images, 
                            out_locs: meta['out_locs'],
                            org_gt_coords: meta['org_gt_coords']})

def inference(images,out_locs,org_gt_coords):
  # conv1
  with tf.variable_scope('conv1') as scope:
    kernel = _variable_with_weight_decay('weights',
                                         shape=[3, 3, 3, 32],
                                         stddev=1,  #check if this is right
                                         wd=0.0)
    kernel = tf.multiply(kernel, 0.2722)        #line 321-325 in warpTrainCNNCDHDCentroidChainGridPredSharedRevFastExp3
    conv = tf.nn.conv2d(images, kernel, [1, 2, 2, 1], padding='VALID')
    biases = _variable_on_cpu('biases', [32], tf.constant_initializer(1.0))
    pre_activation = tf.nn.bias_add(conv, biases)
    conv1 = tf.nn.relu(pre_activation, name=scope.name)

  # conv2
  with tf.variable_scope('conv2') as scope:
    kernel = _variable_with_weight_decay('weights',
                                         shape=[3, 3, 32, 64],
                                         stddev=1,
                                         wd=0.0)
    kernel = tf.multiply(kernel, 0.0833)        #line 321-325 in warpTrainCNNCDHDCentroidChainGridPredSharedRevFastExp3
    conv = tf.nn.conv2d(conv1, kernel, [1, 2, 2, 1], padding='VALID')
    biases = _variable_on_cpu('biases', [64], tf.constant_initializer(1.0))
    pre_activation = tf.nn.bias_add(conv, biases)
    conv2 = tf.nn.relu(pre_activation, name=scope.name)

    ...
    ...
    more layers
    ...
    ...

    return res_aux

def train(res_aux, global_step):
    ...
    ...
    code here to process res_aux and calculate loss
    ...
    ...

    opt = tf.train.GradientDescentOptimizer(learning_rate=0.01) 
    grads_and_vars = opt.compute_gradients(loss, tf.get_collection('weights'))
    #printing shows real valued gradient and weight values
    apply_gradients(grads_and_vars, global_step=global_step)
    #printing same weight values shows no change in weight values. Gradients are not applied to the weights

最佳答案

此行仅定义应用渐变的操作:

a_optimizer_col_2.apply_gradients(grad_var_2, global_step=global_step)

为了应用它，您应该在 session 中运行此操作，如下所示:

...
train_step = a_optimizer_col_2.apply_gradients(grad_var_2, global_step=global_step)
...
with tf.Session() as sess:
  sess.run(train_step, feed_dict={...})

关于python - tensorflow 中的 apply_gradients() 函数不会更新权重和偏差变量，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47708375/

24

4

0

文章推荐： machine-learning - 及时保存特定的 TensorFlow 检查点

docker-compose down 不会.. "down"容器
我有几个系统使用 docker-compose 并且没有问题。但是，我在这里有一个“向下”根本不做任何事情的地方。 'up'虽然完美。这是在 MacOS 上。该项目的昵称是“ Storm ”，脚本
PHP 不会 str_replace 数据库中的单引号
解释起来确实很奇怪，所以就这样...... 我正在从 phpmyadmin 获取包含未转义单引号的数据。我正在尝试转换'至'通过使用Content-Type: text/html;在 php
ios - Tableview 不会 reloadData()
伙计们？在这里需要一些帮助。我使用委托(delegate)协议(protocol)将一些字符串从“第二个 View Controller ”传回给它的前一个。我的数组附加了我在委托(delegate
Python 不会 eval() 代码
我有以下 eval() 东西: c = Customer() eval("c.name = row.value('customer', '{c}')".format(c=column_name), {
java - WebApplicationContext 不会 Autowiring
我写了这个测试类: @ContextConfiguration(locations = { "classpath:/test/BeanConfig.xml" }) public class Candi
java - FilterChainProxy 不会 Autowiring
我这样写代码: @ContextConfiguration(locations = { "classpath:/test/BeanConfig.xml" }) @RunWith(SpringJUnit
由于更改了文件，Git 不会 pull
假设我更改了文件，然后进行 pull 。 Git 会报错，因为本地仓库还没有保存，将被覆盖。如果我然后删除该添加并使文件与以前相同(与远程 repo 相同)，那么会发生 pull 吗？最佳答案是的
java - 为什么 Eclipse 不会@Override？
我正在阅读《Java for Dummies》一书，但遇到了问题。我不明白为什么 @Override 不起作用。我确信这与我的代码有关，因为我之前已经获得了一个多态数组来使用覆盖，但它对我来说太简单了
wpf - StopStoryboard 不会...停止 BeginStoryboard
我从我的项目中提取了这段代码，因为我试图找到我犯的一个错误，该错误使我的 BeginStoryboard 无法自行停止。我尽可能地简化了代码，但仍然没有发现问题。你认为它可能是什么？
char* 会导致段错误，但 char[] 不会
这个问题在这里已经有了答案: Difference between char[] and char * in C [duplicate] (3 个答案) 关闭 7 年前。我想我知道自己问题的答案，
Java Scanner 不会 "finish"读取输入
我一直在使用 java 的 Scanner 类时遇到问题。我可以让它很好地读取我的输入，但问题是当我想要输出一些东西时。给定多行输入，我想在完全读取所有输入后只打印一行。这是我用来读取输入的代码:
如果再次单击，javascript 不会 .toggleClass() 吗？
对于这个问题，我已经用最简单的术语表达了这一点。如果元素被点击，'active'类被添加到元素，'active'类从其他元素中移除。但是，如果该元素是“事件的”并且它被第二次单击，则“事件”类不应
c++ - SHFileOperation 不会 move 文件夹的所有内容
这会在桌面上创建一个新文件夹，但不会将文件夹 .pfrom 的内容 move 到文件夹 .pTo。 int main() { SHFILEOPSTRUCT sf = {0}; TCHA
c++ -/MTd 会触发断点但/MDd 不会
我有一个关于多线程调试 DLL (/MDd) 和多线程调试 (/MTd) 设置的问题。它们之间的区别很明显:一个是使用动态库，一个是使用静态库。当我使用/MDd 编译我的程序时，一切都进行得很好。但是
javascript - jQuery 不会 append 在文档就绪时声明的克隆
我的问题是，如果我在页面加载时创建一个克隆变量，jQuery 只会 append 它一次。奇怪! Click to copy This is an element! $(document)
python - heroku postgresql 不会 syncdb
所以...我是一个开发 django 应用程序的新手，但是当我尝试通过 virtualbox heroku 运行 heroku run python manage.py syncdb 时，它一直在下面
java - SpringBootApplication 不会 Autowiring 我的服务
我在 Spring Boot 初始化时遇到了问题。我在一个简单的 Spring Boot 项目中有这个结构。 com.project.name |----App.java (Annoted with
css - div 不会 float ，任何人都可以看到为什么吗？
我在 www.7hermanosmx.com/menu.php 页面上有以下代码 - 一切正常，除了黄色框(类 menuholder)应该每行三个相互 float 。他们坚决拒绝这样做!我知道我做错了
javascript - 单击时我的 div 不会 slideDown()。
我正在尝试在我正在构建的小型网站上添加一个下拉菜单。出于某种原因，我可以获得我想要向下滑动到 fadeOut() 的 div 并执行其他类似的操作，但我无法将它获取到 slideDown()。我不知道
html - Div 不会 float 正确
我有一个不能正确 float 的 div。当您切换可见性时，它会覆盖一些当前文本，但我可以稍后移动它。只是好奇为什么它不能正确 float ! Simple Tabs with CSS &am

首页

博学

6Ren·AI

商城

python - tensorflow 中的 apply_gradients() 函数不会更新权重和偏差变量