TensorFlow神经网络优化策略学习-6ren

TensorFlow神经网络优化策略学习

转载作者：qq735679552 更新时间：2022-09-28 22:32:09

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章TensorFlow神经网络优化策略学习由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

在神经网络模型优化的过程中，会遇到许多问题，比如如何设置学习率的问题，我们可通过指数衰减的方式让模型在训练初期快速接近较优解，在训练后期稳定进入最优解区域；针对过拟合问题，通过正则化的方法加以应对；滑动平均模型可以让最终得到的模型在未知数据上表现的更加健壮.

1、学习率的设置。

学习率设置既不能过大，也不能过小。TensorFlow提供了一种更加灵活的学习率设置方法——指数衰减法。该方法实现了指数衰减学习率，先使用较大的学习率来快速得到一个比较优的解，然后随着迭代的继续逐步减小学习率，使得模型在训练后期更加稳定，缓慢平滑得达到最优值.

tf.train.exponential_decay(learning_rate, global_step, decay_steps, decay_rate,staircase=False, name=None) 。

该函数会指数级减小学习率，实现每轮实际优化时的衰减后的学习率decayed_learning_rate = learning_rate * decay_rate ^ (global_step /decay_steps)，learning_rate为设定的出事学习率，decay_rate为衰减系数，decay_steps为衰减速度。如下图，参数staircase=False时，学习率变化趋势为浅色部分；staircase=True时为深色部分，使得学习率变化为阶梯函数（staircase function），这种设置的常用应用场景是每完整地过完一遍训练数据，学习率就减小一次.

使用示例：learning_rate =tf.train.exponential_decay(starter_learning_rate, global_step, 100000, 0.96,staircase=True).

TensorFlow神经网络优化策略学习

2、过拟合问题。

1. 过拟合问题及其解决方法。

所谓过拟合问题，指的是当一个模型过于复杂后，它可以很好地记忆每一个训练数据中随机噪声的部分而忘记了要去学习训练数据中通用的趋势.

为了避免过拟合问题，常用的方法是正则化（Regularization），思想是在损失函数中加入刻画模型复杂程度的指标，将优化目标定义为J(θ)+λR(w) ，其中R(w)刻画的是模型的复杂程度，包括了权重项w不包括偏置项b，λ表示模型复杂损失在总损失中的比例。一般来说模型复杂度只由权重w决定。常用的刻画模型复杂度的函数R(w)有两种，一种是L1正则化:

TensorFlow神经网络优化策略学习

另一种是L2正则化:

TensorFlow神经网络优化策略学习

无论哪种正则化方式，基本思想都是希望通过限制权重的大小，使得模型不能任意拟合训练数据中的随机噪音。区别：L1正则化会让参数变得更稀疏，L2则不会，所谓参数变得更稀疏是指会有更多的参数变为0，可达到类似特征选取的功能。实践中，也可以将L1正则化和L2正则化同时使用:

TensorFlow神经网络优化策略学习

2. 过拟合问题的TensorFlow解决方案。

loss =tf.reduce_mean(tf.square(y_ - y) + tf.contrib.layers.l2_regularizer(lambda)(w) 。

以上就是一个含L2正则化项的损失函数。第一部分是均方误差损失函数，第二部分就是正则化项。lambda参数表示正则化项的权重，也就是J(θ)+λR(w)中的λ，w为需要计算正则化损失的参数。tf.contrib.layers.l2_regularize()函数可以计算给定参数的L2正则化项，类似地，tf.contrib.layers.l1_regularizer()可以就是那给定参数的L1正则化项.

 
    ? 
   
         # 比较L1正则化和L2正则化函数的作用效果  
        
         w  
         = 
         tf.constant([[ 
         1.0 
         ,  
         - 
         2.0 
         ], [ 
         - 
         3.0 
         ,  
         4.0 
         ]])  
        
         with tf.Session() as sess:  
        
         # 0.5*(|1|+|-2|+|-3|+|4|=5.0)  
        
         print 
         (sess.run(tf.contrib.layers.l1_regularizer( 
         0.5 
         )(w)))  
         # 5.0  
        
         # 0.5*[(1+4+9+16)/2]=7.5 TensorFlow会将L2正则化项除以2使得求导的结果更简洁  
        
         print 
         (sess.run(tf.contrib.layers.l2_regularizer( 
         0.5 
         )(w)))  
         # 7.5

当神经网络的参数增多以后，上面的定义损失函数的方式会导致loss的定义式很长，可读性差，另外当网络结构复杂后定义网络结构的部分和计算损失函数的部分可能不在同一个函数中，通过变量方式计算损失函数就不方便了。为解决此问题，可以使用TensorFlow中提供的集合（collection）。具体实现见代码部分.

tf.add_to_collection()将变量加入至指定集合中；tf.get_collection()返回一个列表，存储着这个集合中的元素.

3、滑动平均模型。

另一个使模型在测试数据上更健壮（robust）滑动平均模型。在采用随机梯度下降算法训练神经网络时，使用滑动平均模型在很多应用中可提高最终模型在测试数据上的表现，GradientDescent和Momentum方式的训练都能够从ExponentialMovingAverage方法中获益.

在TensorFlow中提供的tf.train.ExponentialMovingAverage是一个类class，来实现滑动平均模型。初始化tf.train.ExponentialMovingAverage类对象时，须指定衰减率decay和用于动态控制衰减率的参数num_updates。tf.train.ExponentialMovingAverage对每一个变量维护一个影子变量（shadow variable），该影子变量的初始值就是相应变量的初始值，每次变量更新时，shadow_variable =decay * shadow_variable + (1 - decay) * variable。从公式中可看出，decay决定了模型更新的速度，decay越大模型越趋于稳定，实际应用中decay一般设置为接近1的数。num_updates默认是None，若设置了，则衰减率按min(decay, (1 +num_updates) / (10 + num_updates))计算.

tf.train.ExponentialMovingAverage对象的apply方法返回一个对var_list进行更新滑动平均的操作，var_list必须是list的Variable或Tensor，该操作执行会更新var_list的影子变量shadowvariable。average方法可获取滑动平均后变量的取值.

4、代码呈现。

1. 复杂神经网络结构权重L2正则化方法。

 
    ? 
   
         import 
         tensorflow as tf  
        
         '''''  
        
         # 比较L1正则化和L2正则化函数的作用效果  
        
         w = tf.constant([[1.0, -2.0], [-3.0, 4.0]])  
        
         with tf.Session() as sess:  
        
         # 0.5*(|1|+|-2|+|-3|+|4|=5.0)  
        
         print(sess.run(tf.contrib.layers.l1_regularizer(0.5)(w))) # 5.0  
        
         # 0.5*[(1+4+9+16)/2]=7.5 TensorFlow会将L2正则化项除以2使得求导的结果更简洁  
        
         print(sess.run(tf.contrib.layers.l2_regularizer(0.5)(w))) # 7.5  
        
         ''' 
        
         # 复杂神经网络结构权重L2正则化方法  
        
         # 定义各层的权重，并将该权重的L2正则化项加入至名称为‘losses'的集合  
        
         def 
         get_weight(shape, lambda1):  
        
         var  
         = 
         tf.Variable(tf.random_normal(shape), dtype 
         = 
         tf.float32)  
        
         tf.add_to_collection( 
         'losses' 
         , tf.contrib.layers.l2_regularizer(lambda1)(var))  
        
         return 
         var  
        
         x  
         = 
         tf.placeholder(tf.float32, ( 
         None 
         ,  
         2 
         ))  
        
         y_  
         = 
         tf.placeholder(tf.float32, ( 
         None 
         ,  
         1 
         ))  
        
         layer_dimension  
         = 
         [ 
         2 
         , 
         10 
         , 
         5 
         , 
         3 
         , 
         1 
         ]  
         # 定义了神经网络每层的节点数  
        
         n_layers  
         = 
         len 
         (layer_dimension)  
        
         current_layer  
         = 
         x  
         # 将当前层设置为输入层  
        
         in_dimension  
         = 
         layer_dimension[ 
         0 
         ]  
        
         # 通过循环生成一个5层全连接的神经网络结构  
        
         for 
         i  
         in 
         range 
         ( 
         1 
         ,n_layers):  
        
         out_dimension  
         = 
         layer_dimension[i]  
        
         weight  
         = 
         get_weight([in_dimension,out_dimension],  
         0.003 
         )  
        
         bias  
         = 
         tf.Variable(tf.constant( 
         0.1 
         , shape 
         = 
         [out_dimension]))  
        
         current_layer  
         = 
         tf.nn.relu(tf.matmul(current_layer, weight)  
         + 
         bias)  
        
         in_dimension  
         = 
         layer_dimension[i]  
        
         mse_loss  
         = 
         tf.reduce_mean(tf.square(y_  
         - 
         current_layer))  
        
         tf.add_to_collection( 
         'losses' 
         , mse_loss)  
        
         loss  
         = 
         tf.add_n(tf.get_collection( 
         'losses' 
         ))  
         # 包含所有参数正则化项的损失函数

2. tf.train.ExponentialMovingAverage使用样例。

 
    ? 
   
         import 
         tensorflow as tf  
        
         # tf.train.ExponentialMovingAverage使用样例  
        
         v1  
         = 
         tf.Variable( 
         0 
         , dtype 
         = 
         tf.float32)  
        
         step  
         = 
         tf.Variable( 
         0 
         , trainable 
         = 
         False 
         )  
         # 此处step模拟神经网络迭代的轮数  
        
         # 定义一个滑动平均的类对象，初始化衰减率decay=0.99，用于动态控制衰减率的参数num_updates  
        
         ema  
         = 
         tf.train.ExponentialMovingAverage( 
         0.99 
         , num_updates 
         = 
         step)  
        
         # apply方法返回一个对var_list进行更新滑动平均的操作，var_list必须是list的Variable或Tensor  
        
         # 该操作执行会更新var_list的影子变量shadow variable  
        
         maintain_averages_op  
         = 
         ema. 
         apply 
         (var_list 
         = 
         [v1])  
        
         with tf.Session() as sess:  
        
         init_op  
         = 
         tf.global_variables_initializer()  
        
         sess.run(init_op)  
        
         # average方法可获取滑动平均后变量的取值  
        
         print 
         (sess.run([v1, ema.average(v1)]))  
         # [0.0, 0.0]  
        
         sess.run(tf.assign(v1,  
         5 
         ))  
        
         # min{0.99, (1+step)(10+step)=0.1}=0.1  
        
         # 更新v1的滑动平均值为 0.1*0.0+0.9*5=4.5  
        
         sess.run(maintain_averages_op)  
        
         print 
         (sess.run([v1, ema.average(v1)]))  
         # [5.0, 4.5]  
        
         sess.run(tf.assign(step,  
         10000 
         ))  
        
         sess.run(tf.assign(v1,  
         10 
         ))  
        
         # min{0.99, (1+step)(10+step)=0.999}=0.99  
        
         # 更新v1的滑动平均值为 0.99*4.5+0.01*10=4.555  
        
         sess.run(maintain_averages_op)  
        
         print 
         (sess.run([v1, ema.average(v1)]))  
         # [10.0, 4.5549998]  
        
         # 更新v1的滑动平均值为 0.99*4.555+0.01*10=4.60945  
        
         sess.run(maintain_averages_op)  
        
         print 
         (sess.run([v1, ema.average(v1)]))  
         # [10.0, 4.6094499]

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我.

原文链接：http://blog.csdn.net/marsjhao/article/details/72681791 。

最后此篇关于TensorFlow神经网络优化策略学习的文章就讲到这里了,如果你想了解更多关于TensorFlow神经网络优化策略学习的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐： TensorFlow变量管理详解

文章推荐： Laravel5.1自定义500错误页面示例

文章推荐： dnf手游平民职业推荐地下城与勇士手游平民什么职业好玩

文章推荐： Laravel重写用户登录简单示例

tensorflow - 如何将 tensorflow.js 模型和权重转换为标准 tensorflow？
我想将模型及其各自训练的权重从 tensorflow.js 转换为标准 tensorflow，但无法弄清楚如何做到这一点，tensorflow.js 的文档对此没有任何说明我有一个 manifest
tensorflow - 在没有安装 Tensorflow 的情况下运行 Tensorflow 模型
我有一个运行良好的 TF 模型，它是用 Python 和 TFlearn 构建的。有没有办法在另一个系统上运行这个模型而不安装 Tensorflow？它已经经过预训练，所以我只需要通过它运行数据。我
tensorflow - 如何命名要在 Tensorflow Serving 中使用的 Tensorflow 模型？
当执行 tensorflow_model_server 二进制文件时，它需要一个模型名称命令行参数，model_name。如何在训练期间指定模型名称，以便在运行 tensorflow_model_s
tensorflow - TensorFlow 中的生存分析
我一直在 R 中使用标准包进行生存分析。我知道如何在 TensorFlow 中处理分类问题，例如逻辑回归，但我很难将其映射到生存分析问题。在某种程度上，您有两个输出向量而不是一个输出向量(time_t
tensorflow - Tensorflow 中的高斯核
Torch7 has a library for generating Gaussian Kernels在一个固定的支持。 Tensorflow 中有什么可比的吗？我看到 these distribu
tensorflow - Tensorflow 中的回调
在Keras中我们可以简单的添加回调，如下所示: self.model.fit(X_train,y_train,callbacks=[Custom_callback]) 回调在doc中定义，但我找不到
tensorflow - tensorflow 中的条件打印节点
我正在寻找一种在 tensorflow 中有条件打印节点的方法，使用下面的示例代码行，其中每 10 个循环计数，它应该在控制台中打印一些东西。但这对我不起作用。谁能建议？谢谢，哈米德雷萨， epsi
tensorflow - tensorflow 对象检测训练中的标签文件
我想使用 tensorflow object detection API 创建我自己的 .tfrecord 文件，并将它们用于训练。该记录将是原始数据集的子集，因此模型将仅检测特定类别。我不明白也无法
tensorflow - 为 Tensorflow.js 保存 TensorFlow 模型
我在 TensorFlow 中训练了一个聊天机器人，想保存模型以便使用 TensorFlow.js 将其部署到 Web。我有以下内容 checkpoint = "./chatbot_weights.c
tensorflow - TensorFlow 中图像张量的形状是什么
我最近开始学习 Tensorflow，特别是我想使用卷积神经网络进行图像分类。我一直在看官方仓库中的android demo，特别是这个例子:https://github.com/tensorflow
tensorflow - 为什么 TensorFlow Lite 比桌面版 TensorFlow 慢？
我目前正在研究单图像超分辨率，并且我设法卡住了现有的检查点文件并将其转换为 tensorflow lite。但是，使用 .tflite 文件执行推理时，对一张图像进行上采样所需的时间至少是使用 .ck
tensorflow - tensorflow 中的批量标准化
我注意到 tensorflow 的 api 中已经有批量标准化函数。我不明白的一件事是如何更改训练和测试之间的程序？批量归一化在测试和训练期间的作用不同。具体来说，在训练期间使用固定的均值和方差。
tensorflow - 我转换后的 tensorflow 迁移学习模型总是在 Tensorflow JS 中返回相同的结果
我创建了一个模型，该模型将 Mobilenet V2 应用于 Google colab 中的卷积基础层。然后我使用这个命令转换它: path_to_h5 = working_dir + '/Tenso
tensorflow - TensorFlow 如何知道要更改哪些变量以进行优化？
代码取自:- http://adventuresinmachinelearning.com/python-tensorflow-tutorial/ import tensorflow as tf fr
tensorflow - TensorFlow:我的登录信息是否采用正确的格式以实现交叉熵功能？
好了，所以我准备在Tensorflow中运行 tf.nn.softmax_cross_entropy_with_logits() 函数。据我了解，“logit”应该是概率的张量，每个对应于某个像素的
tensorflow - bazel 使用本地下载的 tensorflow 构建 tensorflow 服务
tensorflow 服务构建依赖于大型 tensorflow ；但我已经成功构建了 tensorflow。所以我想用它。我做这些事情:我更改了 tensorflow 服务 WORKSPACE(org
tensorflow - Tensorflow 嵌入层内部的网络结构是什么？
Tensoflow 嵌入层 ( https://www.tensorflow.org/api_docs/python/tf/keras/layers/Embedding ) 易于使用，并且有大量的文
tensorflow - Tensorflow 是否可以进行增量学习？
我正在尝试使用非常大的数据集(比我的内存大得多)训练 Tensorflow 模型。为了充分利用所有可用的训练数据，我正在考虑将它们分成几个小的“分片”，并一次在一个分片上进行训练。经过一番研究，我
tensorflow - TensorFlow 中的资格跟踪
根据 Sutton 的书 - Reinforcement Learning: An Introduction，网络权重的更新方程为: 其中 et 是资格轨迹。这类似于带有额外 et 的梯度下降更新。
tensorflow - TensorFlow 中的条件执行
如何根据条件选择执行图表的一部分？我的网络有一部分只有在 feed_dict 中提供占位符值时才会执行.如果未提供该值，则采用备用路径。我该如何使用 tensorflow 来实现它？以下是我的代码

qq735679552

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

TensorFlow神经网络优化策略学习