- ubuntu12.04环境下使用kvm ioctl接口实现最简单的虚拟机
- Ubuntu 通过无线网络安装Ubuntu Server启动系统后连接无线网络的方法
- 在Ubuntu上搭建网桥的方法
- ubuntu 虚拟机上网方式及相关配置详解
CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.
这篇CFSDN的博客文章TensorFlow神经网络优化策略学习由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.
在神经网络模型优化的过程中,会遇到许多问题,比如如何设置学习率的问题,我们可通过指数衰减的方式让模型在训练初期快速接近较优解,在训练后期稳定进入最优解区域;针对过拟合问题,通过正则化的方法加以应对;滑动平均模型可以让最终得到的模型在未知数据上表现的更加健壮.
1、学习率的设置 。
学习率设置既不能过大,也不能过小。TensorFlow提供了一种更加灵活的学习率设置方法——指数衰减法。该方法实现了指数衰减学习率,先使用较大的学习率来快速得到一个比较优的解,然后随着迭代的继续逐步减小学习率,使得模型在训练后期更加稳定,缓慢平滑得达到最优值.
tf.train.exponential_decay(learning_rate, global_step, decay_steps, decay_rate,staircase=False, name=None) 。
该函数会指数级减小学习率,实现每轮实际优化时的衰减后的学习率decayed_learning_rate = learning_rate * decay_rate ^ (global_step /decay_steps),learning_rate为设定的出事学习率,decay_rate为衰减系数,decay_steps为衰减速度。如下图,参数staircase=False时,学习率变化趋势为浅色部分;staircase=True时为深色部分,使得学习率变化为阶梯函数(staircase function),这种设置的常用应用场景是每完整地过完一遍训练数据,学习率就减小一次.
使用示例:learning_rate =tf.train.exponential_decay(starter_learning_rate, global_step, 100000, 0.96,staircase=True).
2、过拟合问题 。
1. 过拟合问题及其解决方法 。
所谓过拟合问题,指的是当一个模型过于复杂后,它可以很好地记忆每一个训练数据中随机噪声的部分而忘记了要去学习训练数据中通用的趋势.
为了避免过拟合问题,常用的方法是正则化(Regularization),思想是在损失函数中加入刻画模型复杂程度的指标,将优化目标定义为J(θ)+λR(w) ,其中R(w)刻画的是模型的复杂程度,包括了权重项w不包括偏置项b,λ表示模型复杂损失在总损失中的比例。一般来说模型复杂度只由权重w决定。常用的刻画模型复杂度的函数R(w)有两种,一种是L1正则化:
另一种是L2正则化:
无论哪种正则化方式,基本思想都是希望通过限制权重的大小,使得模型不能任意拟合训练数据中的随机噪音。区别:L1正则化会让参数变得更稀疏,L2则不会,所谓参数变得更稀疏是指会有更多的参数变为0,可达到类似特征选取的功能。实践中,也可以将L1正则化和L2正则化同时使用:
2. 过拟合问题的TensorFlow解决方案 。
loss =tf.reduce_mean(tf.square(y_ - y) + tf.contrib.layers.l2_regularizer(lambda)(w) 。
以上就是一个含L2正则化项的损失函数。第一部分是均方误差损失函数,第二部分就是正则化项。lambda参数表示正则化项的权重,也就是J(θ)+λR(w)中的λ,w为需要计算正则化损失的参数。tf.contrib.layers.l2_regularize()函数可以计算给定参数的L2正则化项,类似地,tf.contrib.layers.l1_regularizer()可以就是那给定参数的L1正则化项.
1
2
3
4
5
6
7
|
# 比较L1正则化和L2正则化函数的作用效果
w
=
tf.constant([[
1.0
,
-
2.0
], [
-
3.0
,
4.0
]])
with tf.Session() as sess:
# 0.5*(|1|+|-2|+|-3|+|4|=5.0)
print
(sess.run(tf.contrib.layers.l1_regularizer(
0.5
)(w)))
# 5.0
# 0.5*[(1+4+9+16)/2]=7.5 TensorFlow会将L2正则化项除以2使得求导的结果更简洁
print
(sess.run(tf.contrib.layers.l2_regularizer(
0.5
)(w)))
# 7.5
|
当神经网络的参数增多以后,上面的定义损失函数的方式会导致loss的定义式很长,可读性差,另外当网络结构复杂后定义网络结构的部分和计算损失函数的部分可能不在同一个函数中,通过变量方式计算损失函数就不方便了。为解决此问题,可以使用TensorFlow中提供的集合(collection)。具体实现见代码部分.
tf.add_to_collection()将变量加入至指定集合中;tf.get_collection()返回一个列表,存储着这个集合中的元素.
3、滑动平均模型 。
另一个使模型在测试数据上更健壮(robust)滑动平均模型。在采用随机梯度下降算法训练神经网络时,使用滑动平均模型在很多应用中可提高最终模型在测试数据上的表现,GradientDescent和Momentum方式的训练都能够从ExponentialMovingAverage方法中获益.
在TensorFlow中提供的tf.train.ExponentialMovingAverage是一个类class,来实现滑动平均模型。初始化tf.train.ExponentialMovingAverage类对象时,须指定衰减率decay和用于动态控制衰减率的参数num_updates。tf.train.ExponentialMovingAverage对每一个变量维护一个影子变量(shadow variable),该影子变量的初始值就是相应变量的初始值,每次变量更新时,shadow_variable =decay * shadow_variable + (1 - decay) * variable。从公式中可看出,decay决定了模型更新的速度,decay越大模型越趋于稳定,实际应用中decay一般设置为接近1的数。num_updates默认是None,若设置了,则衰减率按min(decay, (1 +num_updates) / (10 + num_updates))计算.
tf.train.ExponentialMovingAverage对象的apply方法返回一个对var_list进行更新滑动平均的操作,var_list必须是list的Variable或Tensor,该操作执行会更新var_list的影子变量shadowvariable。average方法可获取滑动平均后变量的取值.
4、代码呈现 。
1. 复杂神经网络结构权重L2正则化方法 。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
|
import
tensorflow as tf
'''''
# 比较L1正则化和L2正则化函数的作用效果
w = tf.constant([[1.0, -2.0], [-3.0, 4.0]])
with tf.Session() as sess:
# 0.5*(|1|+|-2|+|-3|+|4|=5.0)
print(sess.run(tf.contrib.layers.l1_regularizer(0.5)(w))) # 5.0
# 0.5*[(1+4+9+16)/2]=7.5 TensorFlow会将L2正则化项除以2使得求导的结果更简洁
print(sess.run(tf.contrib.layers.l2_regularizer(0.5)(w))) # 7.5
'''
# 复杂神经网络结构权重L2正则化方法
# 定义各层的权重,并将该权重的L2正则化项加入至名称为‘losses'的集合
def
get_weight(shape, lambda1):
var
=
tf.Variable(tf.random_normal(shape), dtype
=
tf.float32)
tf.add_to_collection(
'losses'
, tf.contrib.layers.l2_regularizer(lambda1)(var))
return
var
x
=
tf.placeholder(tf.float32, (
None
,
2
))
y_
=
tf.placeholder(tf.float32, (
None
,
1
))
layer_dimension
=
[
2
,
10
,
5
,
3
,
1
]
# 定义了神经网络每层的节点数
n_layers
=
len
(layer_dimension)
current_layer
=
x
# 将当前层设置为输入层
in_dimension
=
layer_dimension[
0
]
# 通过循环生成一个5层全连接的神经网络结构
for
i
in
range
(
1
,n_layers):
out_dimension
=
layer_dimension[i]
weight
=
get_weight([in_dimension,out_dimension],
0.003
)
bias
=
tf.Variable(tf.constant(
0.1
, shape
=
[out_dimension]))
current_layer
=
tf.nn.relu(tf.matmul(current_layer, weight)
+
bias)
in_dimension
=
layer_dimension[i]
mse_loss
=
tf.reduce_mean(tf.square(y_
-
current_layer))
tf.add_to_collection(
'losses'
, mse_loss)
loss
=
tf.add_n(tf.get_collection(
'losses'
))
# 包含所有参数正则化项的损失函数
|
2. tf.train.ExponentialMovingAverage使用样例 。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
|
import
tensorflow as tf
# tf.train.ExponentialMovingAverage使用样例
v1
=
tf.Variable(
0
, dtype
=
tf.float32)
step
=
tf.Variable(
0
, trainable
=
False
)
# 此处step模拟神经网络迭代的轮数
# 定义一个滑动平均的类对象,初始化衰减率decay=0.99,用于动态控制衰减率的参数num_updates
ema
=
tf.train.ExponentialMovingAverage(
0.99
, num_updates
=
step)
# apply方法返回一个对var_list进行更新滑动平均的操作,var_list必须是list的Variable或Tensor
# 该操作执行会更新var_list的影子变量shadow variable
maintain_averages_op
=
ema.
apply
(var_list
=
[v1])
with tf.Session() as sess:
init_op
=
tf.global_variables_initializer()
sess.run(init_op)
# average方法可获取滑动平均后变量的取值
print
(sess.run([v1, ema.average(v1)]))
# [0.0, 0.0]
sess.run(tf.assign(v1,
5
))
# min{0.99, (1+step)(10+step)=0.1}=0.1
# 更新v1的滑动平均值为 0.1*0.0+0.9*5=4.5
sess.run(maintain_averages_op)
print
(sess.run([v1, ema.average(v1)]))
# [5.0, 4.5]
sess.run(tf.assign(step,
10000
))
sess.run(tf.assign(v1,
10
))
# min{0.99, (1+step)(10+step)=0.999}=0.99
# 更新v1的滑动平均值为 0.99*4.5+0.01*10=4.555
sess.run(maintain_averages_op)
print
(sess.run([v1, ema.average(v1)]))
# [10.0, 4.5549998]
# 更新v1的滑动平均值为 0.99*4.555+0.01*10=4.60945
sess.run(maintain_averages_op)
print
(sess.run([v1, ema.average(v1)]))
# [10.0, 4.6094499]
|
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我.
原文链接:http://blog.csdn.net/marsjhao/article/details/72681791 。
最后此篇关于TensorFlow神经网络优化策略学习的文章就讲到这里了,如果你想了解更多关于TensorFlow神经网络优化策略学习的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
我想将模型及其各自训练的权重从 tensorflow.js 转换为标准 tensorflow,但无法弄清楚如何做到这一点,tensorflow.js 的文档对此没有任何说明 我有一个 manifest
我有一个运行良好的 TF 模型,它是用 Python 和 TFlearn 构建的。有没有办法在另一个系统上运行这个模型而不安装 Tensorflow?它已经经过预训练,所以我只需要通过它运行数据。 我
当执行 tensorflow_model_server 二进制文件时,它需要一个模型名称命令行参数,model_name。 如何在训练期间指定模型名称,以便在运行 tensorflow_model_s
我一直在 R 中使用标准包进行生存分析。我知道如何在 TensorFlow 中处理分类问题,例如逻辑回归,但我很难将其映射到生存分析问题。在某种程度上,您有两个输出向量而不是一个输出向量(time_t
Torch7 has a library for generating Gaussian Kernels在一个固定的支持。 Tensorflow 中有什么可比的吗?我看到 these distribu
在Keras中我们可以简单的添加回调,如下所示: self.model.fit(X_train,y_train,callbacks=[Custom_callback]) 回调在doc中定义,但我找不到
我正在寻找一种在 tensorflow 中有条件打印节点的方法,使用下面的示例代码行,其中每 10 个循环计数,它应该在控制台中打印一些东西。但这对我不起作用。谁能建议? 谢谢,哈米德雷萨, epsi
我想使用 tensorflow object detection API 创建我自己的 .tfrecord 文件,并将它们用于训练。该记录将是原始数据集的子集,因此模型将仅检测特定类别。我不明白也无法
我在 TensorFlow 中训练了一个聊天机器人,想保存模型以便使用 TensorFlow.js 将其部署到 Web。我有以下内容 checkpoint = "./chatbot_weights.c
我最近开始学习 Tensorflow,特别是我想使用卷积神经网络进行图像分类。我一直在看官方仓库中的android demo,特别是这个例子:https://github.com/tensorflow
我目前正在研究单图像超分辨率,并且我设法卡住了现有的检查点文件并将其转换为 tensorflow lite。但是,使用 .tflite 文件执行推理时,对一张图像进行上采样所需的时间至少是使用 .ck
我注意到 tensorflow 的 api 中已经有批量标准化函数。我不明白的一件事是如何更改训练和测试之间的程序? 批量归一化在测试和训练期间的作用不同。具体来说,在训练期间使用固定的均值和方差。
我创建了一个模型,该模型将 Mobilenet V2 应用于 Google colab 中的卷积基础层。然后我使用这个命令转换它: path_to_h5 = working_dir + '/Tenso
代码取自:- http://adventuresinmachinelearning.com/python-tensorflow-tutorial/ import tensorflow as tf fr
好了,所以我准备在Tensorflow中运行 tf.nn.softmax_cross_entropy_with_logits() 函数。 据我了解,“logit”应该是概率的张量,每个对应于某个像素的
tensorflow 服务构建依赖于大型 tensorflow ;但我已经成功构建了 tensorflow。所以我想用它。我做这些事情:我更改了 tensorflow 服务 WORKSPACE(org
Tensoflow 嵌入层 ( https://www.tensorflow.org/api_docs/python/tf/keras/layers/Embedding ) 易于使用, 并且有大量的文
我正在尝试使用非常大的数据集(比我的内存大得多)训练 Tensorflow 模型。 为了充分利用所有可用的训练数据,我正在考虑将它们分成几个小的“分片”,并一次在一个分片上进行训练。 经过一番研究,我
根据 Sutton 的书 - Reinforcement Learning: An Introduction,网络权重的更新方程为: 其中 et 是资格轨迹。 这类似于带有额外 et 的梯度下降更新。
如何根据条件选择执行图表的一部分? 我的网络有一部分只有在 feed_dict 中提供占位符值时才会执行.如果未提供该值,则采用备用路径。我该如何使用 tensorflow 来实现它? 以下是我的代码
我是一名优秀的程序员,十分优秀!