variables - 为什么用小stddev设置tensorflow变量的原因-6ren

variables - 为什么用小stddev设置tensorflow变量的原因

转载作者：行者123 更新时间：2023-12-03 09:11:29

24

4

我有一个关于为何使用较小的 stddev 设置 TensorFlow 变量的问题。我想很多人都会从 TensorFlow 初学者指南中测试 MNIST 测试代码。接下来，第一层的权重是通过使用 truncated_normal 和 stddev 0.1 来启动的。我猜想如果将其设置为更大的值，那么结果将是相同的，这是完全准确的。但是虽然增加了纪元数，但它不起作用。有谁知道这个原因吗？

原文:

W_layer = tf.Variable(tf.truncated_normal([inp.get_shape()[1].value, size],stddev=0.1), name='w_'+name)
#result : (990, 0.93000001, 0.89719999)

修改:

W_layer = tf.Variable(tf.truncated_normal([inp.get_shape()[1].value, size],stddev=200), name='w_'+name)
#result : (99990, 0.1, 0.098000005)

最佳答案

原因是因为您希望保持所有图层的方差(或标准差)大致相同且合理。它与学习过程的误差反向传播步骤和使用的激活函数有关。

为了学习网络的权重，反向传播步骤需要了解网络的梯度，它衡量每个权重对输入影响程度以达到最终输出的程度；层的权重方差直接影响梯度的传播。

例如，假设激活函数是 S 型函数(例如 tf.nn.sigmoid 或 tf.nn.tanh )；这意味着所有输入值都被压缩到固定的输出值范围内。对于 sigmoid 来说，范围是 0..1 ，其中基本上所有值 z大于或小于 +/- 4 的值非常接近 1(对于 z > 4 )或零(对于 z < -4 )，并且只有该范围内的值才会出现一些有意义的“变化”。

现在值 sigmoid(5) 之间的差异和sigmoid(1000)几乎不被注意到。因此，所有非常大或非常小的值都会优化得很慢，因为它们对结果的影响 y = sigmoid(W*x+b)非常小。现在预激活值z = W*x+b (其中 x 是输入)取决于实际输入 x和当前权重W 。如果其中任何一个很大，例如通过用高方差(即标准差)初始化权重，结果必然(相对)大，从而导致上述问题。这也是truncated_normal的原因使用而不是正确的正态分布:后者仅保证大多数值非常接近平均值，而情况并非如此的可能性不到 5%，而 truncated_normal只需剪掉所有太大或太小的值，保证所有权重都在同一范围内，同时仍然呈正态分布。

更糟糕的是，在典型的神经网络中 - 特别是在深度学习中 - 每个网络层后面都有一个或多个其他网络层。如果每一层的输出值范围很大，那么梯度也会越来越大；这被称为梯度爆炸问题(梯度消失的变体，梯度变得越来越小)。这是一个问题的原因是因为学习从最后一层开始，并且每个权重根据它对误差的贡献程度进行调整。如果梯度确实在最后变得非常大，那么最后一层是第一个为此付出高昂代价的层:它的权重调整得非常强烈 - 可能过度校正实际问题 - 然后只有“剩余”误差进一步向后或向上传播网络。在这里，由于最后一层对于测量误差已经“修复了很多”，因此只会进行较小的调整。这可能会导致第一层仅修正一点点或根本不修正的问题，从而有效地阻止了那里的所有学习。如果学习率太大，基本上也会发生同样的情况。

寻找最佳权重初始化本身就是一个主题，并且有一些更复杂的方法，例如 Xavier initialization或层序单位方差，但是小的正态分布值通常只是一个很好的猜测。

关于variables - 为什么用小stddev设置tensorflow变量的原因，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42006089/

24

4

0

文章推荐： Angular2 http 服务替换为自定义服务

文章推荐： javascript - Angular animate 不添加 ng-hide-add 和 ng-hide-add-active

文章推荐： javascript - JQuery 图像上传不适用于 future 的事件

文章推荐： Jquery DataTables - 根据行 ID 更改特定单元格中的数据

hadoop - Cassandra:原因:InvalidRequestException(原因:无效的限制)
我对cassandra并使用1.2.10非常陌生。我有一个时间戳数据类型的主键列。现在，我正在尝试检索日期范围的数据。由于我们知道不能在cassandra中使用，因此我使用的是大于()来获取日期范围。
objective-c - 以编程方式调用 segue 原因 NSInvalidArgumentException，原因 : 'UILabel length' unrecognized selector
我正在尝试进行有条件的转场。但我得到: Terminating app due to uncaught exception 'NSInvalidArgumentException', reas
iphone - 构建用新的应用程序版本替换旧版本的应用程序会导致应用程序崩溃!原因？
我有一个游戏项目，在调试和发布模式下在设备上运行得非常好。我有两个版本。旧版本和新版本具有更多(后来我添加了)功能，并且两者的 bundle ID、版本相同。当我构建旧版本时，之前没有安装“myGam
java - ClassCastException 原因
这个问题已经有答案了: 奥 git _a (2 个回答) 已关闭 5 年前。我正在获取 ClassCastException 。这两个类来自不同的 jar，但是JettyContinuationPr
java - 如何获取外部包中的异常原因/原因
以下代码行抛出异常: HttpResponse response = client.execute(request); // actual HTTP request 我能够捕获它并打印: Log
java - ClassNotFoundException 原因
就目前情况而言，这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放，visit
java - 为什么这里抛出中断异常...原因？
public class TwoThreads { private static Object resource = new Object(); private static void
C程序-段错误，原因
当我输入 6 (int) 作为值时，运行此命令会出现段错误 (gcc filename.c -lm)。请帮助我解决这个问题。预期的功能尚未实现，但我需要知道为什么我已经陷入段错误。谢谢! #incl
c++ - 不良顶点数据的常见陷阱/原因？
所以，过去一周半我一直在研究这个 .OBJ/.MTL 网格解析器。在这段时间里，我一直在追踪/修复很多错误、清理代码、记录代码等等。问题是，每修复一个错误，仍然会出现这个问题，而且一张图片胜过一千个
为什么某些元素以数组和标量形式出现的 Python 原因
我正在运行一个代码，它基本上围绕 3 个维度旋转一个大数据数组(5000 万行)。但是，我遇到了一个奇怪的问题，我已将其缩小到如何评估旋转矩阵。基本上，对于除绕 x 轴以外的任何旋转，python 代
更改包名称大小写约定的 Java 原因
就在你说这是重复之前，我已经看到了其他问题，但我仍然想发布这个。所以我正在阅读 Thinking in Java -Bruce Eckel 这篇文章是关于小写命名约定的: In Java 1.0 a
Android SocketTimeoutException 原因
我想在我的应用程序中使用 REST API。它为我从这个应用程序发出的所有请求抛出 SocketTimeoutException。 Logcat 输出:(您也可以在此处看到带有漂亮格式的输出:http
python - 如何抑制显示后续异常的父异常(原因)
我知道 raise ... from None 并已阅读 How can I more easily suppress previous exceptions when I raise my own
gcc - 生成coreutils时发生MinGW错误(Windows和Linux上均发生一致错误)-原因？
在未能找到各种Unix工具(例如xargs和whatnot)的最新独立二进制文件(this version很好，但需要外部DLL)后，我承担了自己进行编译的挑战。 ...这是痛苦的。最终，尽管如此，
php - stream_socket_accept()失败时如何查找错误代码/原因
我有一个用PHP编写的流套接字服务器。为了查看一次可以处理多少个连接，我用C语言编写了一个模拟器来创建1000个不同的客户端以连接到服务器。 stream_socket_accept几次返回fals
android - 构建失败，原因:读取zip文件时出错
我的Android Studio昨天运行良好，但是今天当我启动Android Studio并想在移动设备上运行应用程序时，发生了以下错误，我在互联网和stackoverflow上进行了搜索，但没有解
grails - Grails Java域类中的toString()原因
默认情况下，grails似乎为Java域对象的toString()返回:。那当然不是我想要的，所以我尝试@Override toString()返回我想要的。当我尝试grails generate-a
spring - 原因:在Spring Security中无法将空值或空值传递给构造函数
尝试通过LDAP通过LDAP对用户进行身份验证时，出现以下错误。 Reason: Cannot pass null or empty values to constructor. 谁能告诉我做错了什么
Python模块无法加载共享库，原因: image not found
我正在尝试使用应用程序附带的 Houdini Python 模块，该模块是 Houdini 安装文件夹的一部分，位于标准 Python 路径之外。按照安装说明操作后，运行 Houdini Termin
c - 在非常小的代码片段中寻找 SEGFAULT 原因
简单地说，我正在为基本数据库编写单链表的原始实现。当用户请求打印索引下列出的元素高于数据库中当前记录数量时，我不断出现段错误，但仅当差值为 1 时。对于更高的数字，它只会触发我在那里编写的错误系统。

首页

博学

6Ren·AI

商城

variables - 为什么用小stddev设置tensorflow变量的原因