python - 学习率大于 0.001 会导致错误-6ren

python - 学习率大于 0.001 会导致错误

转载作者：太空宇宙更新时间：2023-11-04 08:49:42

25

4

我尝试将 Udacity 深度学习类(class)(作业 3 - 正则化)和 Tensorflow mnist_with_summaries.py 教程中的代码整合在一起。我的代码似乎运行良好

https://github.com/llevar/udacity_deep_learning/blob/master/multi-layer-net.py

但有些奇怪的事情正在发生。这些作业都使用 0.5 的学习率，并在某些时候引入指数衰减。但是，只有当我将学习率设置为 0.001(有或没有衰减)时，我放在一起的代码才能正常运行。如果我将初始速率设置为 0.1 或更高，我会收到以下错误:

Traceback (most recent call last):
  File "/Users/siakhnin/Documents/workspace/udacity_deep_learning/multi-layer-net.py", line 175, in <module>
    summary, my_accuracy, _ = my_session.run([merged, accuracy, train_step], feed_dict=feed_dict)
  File "/usr/local/lib/python2.7/site-packages/tensorflow/python/client/session.py", line 340, in run
    run_metadata_ptr)
  File "/usr/local/lib/python2.7/site-packages/tensorflow/python/client/session.py", line 564, in _run
    feed_dict_string, options, run_metadata)
  File "/usr/local/lib/python2.7/site-packages/tensorflow/python/client/session.py", line 637, in _do_run
    target_list, options, run_metadata)
  File "/usr/local/lib/python2.7/site-packages/tensorflow/python/client/session.py", line 659, in _do_call
    e.code)
tensorflow.python.framework.errors.InvalidArgumentError: Nan in summary histogram for: layer1/weights/summaries/HistogramSummary
     [[Node: layer1/weights/summaries/HistogramSummary = HistogramSummary[T=DT_FLOAT, _device="/job:localhost/replica:0/task:0/cpu:0"](layer1/weights/summaries/HistogramSummary/tag, layer1/weights/Variable/read)]]
Caused by op u'layer1/weights/summaries/HistogramSummary', defined at:
  File "/Users/siakhnin/Documents/workspace/udacity_deep_learning/multi-layer-net.py", line 106, in <module>
    layer1, weights_1 = nn_layer(x, num_features, 1024, 'layer1')
  File "/Users/siakhnin/Documents/workspace/udacity_deep_learning/multi-layer-net.py", line 79, in nn_layer
    variable_summaries(weights, layer_name + '/weights')
  File "/Users/siakhnin/Documents/workspace/udacity_deep_learning/multi-layer-net.py", line 65, in variable_summaries
    tf.histogram_summary(name, var)
  File "/usr/local/lib/python2.7/site-packages/tensorflow/python/ops/logging_ops.py", line 113, in histogram_summary
    tag=tag, values=values, name=scope)
  File "/usr/local/lib/python2.7/site-packages/tensorflow/python/ops/gen_logging_ops.py", line 55, in _histogram_summary
    name=name)
  File "/usr/local/lib/python2.7/site-packages/tensorflow/python/ops/op_def_library.py", line 655, in apply_op
    op_def=op_def)
  File "/usr/local/lib/python2.7/site-packages/tensorflow/python/framework/ops.py", line 2154, in create_op
    original_op=self._default_original_op, op_def=op_def)
  File "/usr/local/lib/python2.7/site-packages/tensorflow/python/framework/ops.py", line 1154, in __init__
    self._traceback = _extract_stack()

如果我将速率设置为 0.001，则代码运行完成，测试精度为 0.94。

在 Mac OS X 上使用 tensorflow 0.8 RC0。

最佳答案

看起来您的训练发散(这会导致您得到无穷大或 NaN)。对于为什么事物在某些条件下会发散而在其他情况下不会发散，没有简单的解释，但通常较高的学习率会使其更容易发散。

编辑，4 月 17 日您在 Histogram 摘要中得到一个 NaN，这很可能意味着您的权重或激活中有一个 NaN。 NaN 是由不正确的数值计算引起的，即取 0 的对数并将结果乘以 0。直方图中也有可能存在一些错误，要排除这种情况，请关闭汇总，看看是否你仍然能够训练到很好的准确性。

要关闭摘要，请替换此行合并 = tf.merge_all_summaries()

有了这个

merged = tf.constant(1)

并注释掉这一行

test_writer.add_summary(summary)

关于python - 学习率大于 0.001 会导致错误，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36666331/

25

4

0

文章推荐： html - 如何消除两个内容之间的小差距？

文章推荐： java - 何时回滚 jdbc 事务

文章推荐： c - 将 struct 指针的值加 1 会增加多少？

文章推荐： python - 使用 Pygame 制作多个 'game screens'

C++ 字符串。为什么答案显示字符串 "dog"大于 "cat"，然后 "cat"大于 "dog"？
我不太确定为什么较大字符串(“cat”和“dog”)的答案不一致。我正在用链接列表和模板的使用做一些事情。我的好奇心促使我修改模板和函数重载。如果有人能解释发生了什么，我将不胜感激。谢谢你。 #inc
MySQL 大于 IN
目前我必须编写这样的查询 SELECT * FROM table WHERE value1 > 5000 OR value2 > 5000 OR value3 > 5000 OR value4 > 5
SQL 大于、等于和小于
我想创建一个如下所示的查询，但我不确定如何正确编码，我希望它在开始时间的 1 小时内返回所有预订，这是我想出的: SELECT BookingId, StartTime FROM Booking W
JavaScript:小于 + 大于
这个问题已经有答案了: How to check if a number is between two values? (12 个回答) 已关闭 6 年前。我目前正在 Codecademy 上学习
jquery - 大于/小于问题
我想验证用户输入。如果用户输入的数字大于 3，则应抛出错误“Too high”，如果小于 0.15，则应抛出“Too low”错误。如果它在 3 到 0.15 之间，那么它应该显示“好的”。我的代码
jquery 大于/小于只查看第一个数字？
我有一个拖动脚本，我在其中拖动 div.slider，我正在跟踪 div.slider 的“左”值，并在它大于 68 时让它淡出，但问题是它当它达到 6 而不是 68 时淡出。如果我将数字更改为 85
sql - 如何在数据库中存储小于/大于
是否有一种常见的模式如何在数据库(postgresql)中存储这样的条件，然后以简单的方式从数据库中获取这些数据，并在前端将其与我们在前端的值 SE 进行比较(以获得正确的“值” "): condit
java - 大于/小于在内部工作的程度
如何大于/小于内部工作如果我将 5 与 100 与 5 与 2,147,483,647 (Integer.MAX_VALUE) 进行比较，性能会受到多大影响 5 < 100 and 5 < Inte
mysql:条件语句问题，大于
当我运行此查询时它有效 SELECT sum( amount ) AS balance FROM balance WHERE amount >= 100 但是当我想过滤用户 ID 时，它返回 NULL
MySql 大于 group by
我有下表: account(id, balance, bank_branch) 我想选择账户余额大于其 bank_branch 平均余额的所有账户我试过了 Select id from accoun
java - lucene 大于
你们有没有人知道如何搜索所有大于指定数字的数字？例如:所有单据编号>65 我试过这样:documentNumber: [65 TO *] 但我收到异常，因为 lucene 期望解析一个没有 * 的数
Prolog - 大于 x 的数字
我正在使用 Prolog 算法，并且有一个生成抽象语法树的程序，例如 plus(num(1),num(2))这只是 1+2 .这是通过使用 DCG 来完成的。在这个例子中 plus(num(1),nu
trigonometry - 大于 360 度角的三角比
是否使用 Sin(720) 或 Cos(1440)(以度为单位的角度)？无论是在计算机编程中还是在任何其他情况下？一般来说，是否有任何角度的 Sin/Cosine/Tan 使用大于360？在物
bash - awk 大于 float
我发现了一些与此相关的问题，但没有一个真正回答了我的问题。我有一个像这样的表格文件: 2 10610 0 0 0 0.0105292 2 10649 0 0 0
Prolog 大于/2 成功
我是 Prolog 的新手，我正在尝试解决这个练习: Define a predicate greater_than/2 that takes two numerals in the notation
SQL COUNT* GROUP BY 大于，
我想选择具有出现次数的不同键，此查询似乎有效: SELECT ItemMetaData.KEY, ItemMetaData.VALUE, count(*) FROM ItemMetaData GROU
c - 大于 ULLONG_MAX 的数值
我需要存储和使用大于 ULLONG_MAX 的数值。我需要对这些值进行算术运算，所以我认为存储为 char** 不是一个选项。在这些情况下，有没有办法动态创建额外的 long 前缀？谢谢大家。根
Prolog 大于/2 成功
我是 Prolog 的新手，我正在尝试解决这个练习: Define a predicate greater_than/2 that takes two numerals in the notation
java - 大于 64 位的快速位掩码
处理已知大小但大于 64 位的位掩码(即执行所有位操作)的最有效的数据结构是什么？字节[]？大整数？完全是别的东西吗？需要与 Java 7 兼容，并且对于诸如此类的事情应该很快(或者至少与合理预
java - JTable 大于 JFrame
编辑:抱歉进行了许多编辑。我自己都忘记写了什么了。我使用 JPanel，将 BoxLayout 作为 JFrame 的根面板。我向此根面板添加了另外两个面板:带有 FlowLayou 的 Butto

首页

博学

6Ren·AI

商城

python - 学习率大于 0.001 会导致错误