- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我使用 Tensorflow 的 compute_gradients()
和 apply_gradients()
函数进行反向传播。通过打印梯度值,我确实看到梯度正在计算,但在调用 apply_gradients()
函数后,我没有看到权重有任何变化。我也没有看到 global_step 变量的值发生变化。
我做错了什么吗?
我在 session 中运行以下代码,并且确实看到从 compute_gradients()
函数返回的梯度值被打印。但是,当我将(梯度,权重变量)元组列表传递给 apply_gradients()
函数时,我没有看到权重值发生变化,并且 global_step
值没有更新。
global_step = tf.Variable(0, trainable=False, dtype=tf.int32)
images = tf.placeholder(dtype=tf.float32, shape=[batch_size, None, None, 3])
out_locs = tf.placeholder(dtype=tf.float32, shape=[None, 2])
org_gt_coords = tf.placeholder(dtype=tf.float32, shape=[batch_size, 2])
res_aux = inference(images,out_locs,org_gt_coords)
ret_dict = train(res_aux, global_step)
init = tf.global_variables_initializer()
with tf.Session() as sess:
writer = tf.summary.FileWriter('./graphs', sess.graph)
sess.run(init)
for epoch in xrange(max_steps):
start_time = time.time()
anno_file_batch_rows = getImageMetaRecords()
print('epoch: ', epoch)
for batch in xrange(len(anno_file_batch_rows)/batch_size):
distorted_images, meta = cdhd_input.distorted_inputs(stats_dict, batch_size, \
anno_file_batch_rows[batch * batch_size : (batch * batch_size) + batch_size])
out_dict = sess.run(ret_dict, feed_dict=
{images: distorted_images,
out_locs: meta['out_locs'],
org_gt_coords: meta['org_gt_coords']})
def inference(images,out_locs,org_gt_coords):
# conv1
with tf.variable_scope('conv1') as scope:
kernel = _variable_with_weight_decay('weights',
shape=[3, 3, 3, 32],
stddev=1, #check if this is right
wd=0.0)
kernel = tf.multiply(kernel, 0.2722) #line 321-325 in warpTrainCNNCDHDCentroidChainGridPredSharedRevFastExp3
conv = tf.nn.conv2d(images, kernel, [1, 2, 2, 1], padding='VALID')
biases = _variable_on_cpu('biases', [32], tf.constant_initializer(1.0))
pre_activation = tf.nn.bias_add(conv, biases)
conv1 = tf.nn.relu(pre_activation, name=scope.name)
# conv2
with tf.variable_scope('conv2') as scope:
kernel = _variable_with_weight_decay('weights',
shape=[3, 3, 32, 64],
stddev=1,
wd=0.0)
kernel = tf.multiply(kernel, 0.0833) #line 321-325 in warpTrainCNNCDHDCentroidChainGridPredSharedRevFastExp3
conv = tf.nn.conv2d(conv1, kernel, [1, 2, 2, 1], padding='VALID')
biases = _variable_on_cpu('biases', [64], tf.constant_initializer(1.0))
pre_activation = tf.nn.bias_add(conv, biases)
conv2 = tf.nn.relu(pre_activation, name=scope.name)
...
...
more layers
...
...
return res_aux
def train(res_aux, global_step):
...
...
code here to process res_aux and calculate loss
...
...
opt = tf.train.GradientDescentOptimizer(learning_rate=0.01)
grads_and_vars = opt.compute_gradients(loss, tf.get_collection('weights'))
#printing shows real valued gradient and weight values
apply_gradients(grads_and_vars, global_step=global_step)
#printing same weight values shows no change in weight values. Gradients are not applied to the weights
最佳答案
此行仅定义应用渐变的操作:
a_optimizer_col_2.apply_gradients(grad_var_2, global_step=global_step)
为了应用它,您应该在 session 中运行此操作,如下所示:
...
train_step = a_optimizer_col_2.apply_gradients(grad_var_2, global_step=global_step)
...
with tf.Session() as sess:
sess.run(train_step, feed_dict={...})
关于python - tensorflow 中的 apply_gradients() 函数不会更新权重和偏差变量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47708375/
我有几个系统使用 docker-compose 并且没有问题。 但是,我在这里有一个“向下”根本不做任何事情的地方。 'up'虽然完美。这是在 MacOS 上。 该项目的昵称是“ Storm ”,脚本
解释起来确实很奇怪,所以就这样...... 我正在从 phpmyadmin 获取包含未转义单引号的数据。我正在尝试转换'至'通过使用Content-Type: text/html;在 php
伙计们?在这里需要一些帮助。我使用委托(delegate)协议(protocol)将一些字符串从“第二个 View Controller ”传回给它的前一个。 我的数组附加了我在委托(delegate
我有以下 eval() 东西: c = Customer() eval("c.name = row.value('customer', '{c}')".format(c=column_name), {
我写了这个测试类: @ContextConfiguration(locations = { "classpath:/test/BeanConfig.xml" }) public class Candi
我这样写代码: @ContextConfiguration(locations = { "classpath:/test/BeanConfig.xml" }) @RunWith(SpringJUnit
假设我更改了文件,然后进行 pull 。 Git 会报错,因为本地仓库还没有保存,将被覆盖。如果我然后删除该添加并使文件与以前相同(与远程 repo 相同),那么会发生 pull 吗? 最佳答案 是的
我正在阅读《Java for Dummies》一书,但遇到了问题。我不明白为什么 @Override 不起作用。我确信这与我的代码有关,因为我之前已经获得了一个多态数组来使用覆盖,但它对我来说太简单了
我从我的项目中提取了这段代码,因为我试图找到我犯的一个错误,该错误使我的 BeginStoryboard 无法自行停止。我尽可能地简化了代码,但仍然没有发现问题。你认为它可能是什么?
这个问题在这里已经有了答案: Difference between char[] and char * in C [duplicate] (3 个答案) 关闭 7 年前。 我想我知道自己问题的答案,
我一直在使用 java 的 Scanner 类时遇到问题。我可以让它很好地读取我的输入,但问题是当我想要输出一些东西时。给定多行输入,我想在完全读取所有输入后只打印一行。这是我用来读取输入的代码:
对于这个问题,我已经用最简单的术语表达了这一点。 如果元素被点击,'active'类被添加到元素,'active'类从其他元素中移除。 但是,如果该元素是“事件的”并且它被第二次单击,则“事件”类不应
这会在桌面上创建一个新文件夹,但不会将文件夹 .pfrom 的内容 move 到文件夹 .pTo。 int main() { SHFILEOPSTRUCT sf = {0}; TCHA
我有一个关于多线程调试 DLL (/MDd) 和多线程调试 (/MTd) 设置的问题。它们之间的区别很明显:一个是使用动态库,一个是使用静态库。当我使用/MDd 编译我的程序时,一切都进行得很好。但是
我的问题是,如果我在页面加载时创建一个克隆变量,jQuery 只会 append 它一次。奇怪! Click to copy This is an element! $(document)
所以...我是一个开发 django 应用程序的新手,但是当我尝试通过 virtualbox heroku 运行 heroku run python manage.py syncdb 时,它一直在下面
我在 Spring Boot 初始化时遇到了问题。我在一个简单的 Spring Boot 项目中有这个结构。 com.project.name |----App.java (Annoted with
我在 www.7hermanosmx.com/menu.php 页面上有以下代码 - 一切正常,除了黄色框(类 menuholder)应该每行三个相互 float 。他们坚决拒绝这样做!我知道我做错了
我正在尝试在我正在构建的小型网站上添加一个下拉菜单。出于某种原因,我可以获得我想要向下滑动到 fadeOut() 的 div 并执行其他类似的操作,但我无法将它获取到 slideDown()。我不知道
我有一个不能正确 float 的 div。当您切换可见性时,它会覆盖一些当前文本,但我可以稍后移动它。只是好奇为什么它不能正确 float ! Simple Tabs with CSS &am
我是一名优秀的程序员,十分优秀!