python - 为什么经过多次在线训练后识别率会下降？-6ren

python - 为什么经过多次在线训练后识别率会下降？

转载作者：太空宇宙更新时间：2023-11-03 15:52:53

25

4

我正在使用 tensorflow 在 MNIST 数据集上进行图像识别。在每个训练 epoch 中，我选择了 10,000 张随机图像并进行批量大小为 1 的在线训练。前几个 epoch 的识别率有所提高，但是在几个 epoch 之后识别率开始大幅下降。 (在前 20 个 epoch 中，识别率上升到 ~94%。之后，识别率从 90->50->40->30->20)。这是什么原因？

此外，批量大小为 1 时，性能比使用批量大小 100 时差(最大识别率 94% 对 96%)。我浏览了几篇引用资料，但关于小批量或大批量是否能获得更好的性能似乎存在矛盾的结果。在这种情况下会发生什么情况？

编辑:我还添加了训练数据集和测试数据集识别率的数字。 Recognition rate vs. epoch

我附上了下面代码的副本。感谢您的帮助!

import tensorflow as tf
import numpy as np
from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets("/tmp/data/", one_hot = True)

#parameters
n_nodes_hl1 = 500
n_nodes_hl2 = 500
n_nodes_hl3 = 500
n_classes = 10
batch_size = 1
x = tf.placeholder('float', [None, 784])
y = tf.placeholder('float')

#model of neural network
def neural_network_model(data):
    hidden_1_layer = {'weights':tf.Variable(tf.random_normal([784, n_nodes_hl1])               , name='l1_w'),
                      'biases': tf.Variable(tf.random_normal([n_nodes_hl1])                    , name='l1_b')}

    hidden_2_layer = {'weights':tf.Variable(tf.random_normal([n_nodes_hl1, n_nodes_hl2])       , name='l2_w'),
                      'biases' :tf.Variable(tf.random_normal([n_nodes_hl2])                    , name='l2_b')}

    hidden_3_layer = {'weights':tf.Variable(tf.random_normal([n_nodes_hl2, n_nodes_hl3])       , name='l3_w'),
                      'biases' :tf.Variable(tf.random_normal([n_nodes_hl3])                    , name='l3_b')}

    output_layer   = {'weights':tf.Variable(tf.random_normal([n_nodes_hl3, n_classes])     , name='lo_w'),
                      'biases' :tf.Variable(tf.random_normal([n_classes])                   , name='lo_b')}

    l1 = tf.add(tf.matmul(data,hidden_1_layer['weights']), hidden_1_layer['biases'])
    l1 = tf.nn.relu(l1) 
    l2 = tf.add(tf.matmul(l1,hidden_2_layer['weights']), hidden_2_layer['biases'])
    l2 = tf.nn.relu(l2)     
    l3 = tf.add(tf.matmul(l2,hidden_3_layer['weights']), hidden_3_layer['biases'])
    l3 = tf.nn.relu(l3)
    output = tf.matmul(l3,output_layer['weights']) + output_layer['biases']    
return output

#train neural network
def train_neural_network(x):
    prediction = neural_network_model(x)
    cost = tf.reduce_mean( tf.nn.softmax_cross_entropy_with_logits(logits=prediction, labels=y))
    optimizer = tf.train.AdamOptimizer().minimize(cost)
    hm_epoches = 100
    with tf.Session() as sess:
        sess.run(tf.global_variables_initializer())
        for epoch in range(hm_epoches):
            epoch_loss=0
            for batch in range (10000):
                epoch_x, epoch_y=mnist.train.next_batch(batch_size)                
                _,c =sess.run([optimizer, cost], feed_dict = {x:epoch_x, y:epoch_y})
                epoch_loss += c
            correct = tf.equal(tf.argmax(prediction, 1), tf.argmax(y,1))
            accuracy = tf.reduce_mean(tf.cast(correct, 'float'))
            print(epoch_loss)
            print('Accuracy_test:', accuracy.eval({x:mnist.test.images, y:mnist.test.labels}))
            print('Accuracy_train:', accuracy.eval({x:mnist.train.images, y:mnist.train.labels}))

train_neural_network(x)

最佳答案

下降的准确性

你过拟合了。这是当模型以重要特征为代价学习特定于训练数据中图像伪影的错误特征时。任何应用的主要实验结果之一是确定最佳训练迭代次数。

例如，训练数据中 7 的 80% 发生在靠近词干底部的右侧有一点额外倾斜，而 4 和 1 则没有。经过过多训练后，您的模型“决定”区分 7 和另一个数字的最佳方式是从那个额外的倾斜角度，尽管有任何其他特征。结果，一些 1 和 4 现在被归类为 7。

批量大小

同样，最佳批量大小是实验结果之一。通常，批量大小为 1 太小:这使得前几张输入图像对内核或感知器训练中的早期权重影响太大。这是过度拟合的一个小案例:一个项目对模型产生了不当影响。但是，它足以将您的最佳结果改变 2%。

您需要平衡批量大小与其他超参数，以找到模型的“最佳点”，即最佳性能和最短训练时间。根据我的经验，最好增加批量大小，直到每张图像的时间下降。一旦达到相当小的批量大小，我使用最多的模型(MNIST、CIFAR-10、AlexNet、GoogleNet、ResNet、VGG 等)的准确性损失很小；从那里开始，训练速度通常取决于选择批量大小和最佳使用的可用 RAM。

关于python - 为什么经过多次在线训练后识别率会下降？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45447809/

25

4

0

文章推荐： Python3 shebang 行未按预期工作

文章推荐： c# - Windows 服务启动失败，混合模式程序集问题

文章推荐： python - 打开用于写入和读取大文件的Python

文章推荐： Python - 比较元组列表中的项目

PHP循环通过GPX来计算轨道的总上升/下降
我想循环遍历 gpx 文件并计算总上升和下降。我有一个函数可以计算两组经纬度点之间的高程差异，我已经设置了 simplexml 来读取和循环遍历 gpx 文件 trkseg 点。问题是，这不准确(实
javascript - 比较两个玩家分数数组，看看谁在列表中上升/下降
我有两个在不同时间段拍摄的数组。如何通过将新玩家标记为上升来检查哪些玩家在列表中上升/下降？附言- 数组已经根据分数排序。 pastData:[ { playerName:'Jo
vb6 - 无论我的表单上的哪个控件是目标，我如何捕捉关键的上升/下降？
我想捕获 ctrl/alt/etc 键的起伏，无论表单上的哪个控件获取 keyup 或 keydown 事件。由于我的表单上有大约 100 个控件，如果我要为每个单独的控件添加代码，那将非常难看。我怎
r - R:如何检查向量是否正在上升/下降
vector1 = c(2, 2, 2, 2, 2, 2) vector2 = c(2, 2, 3, 3, 3, 3) vector3 = c(2, 2, 1, 2, 2, 2) 我想知道向量中的数字
rust - 借入时暂时值(value)下降
我不知道如何遵循编译器的建议:consider using a let binding to create a longer lived value。 Playground #![allow(unus
javascript - AngularJS $scope 下降
我希望有人能帮助我理解 AngularJS 中的 $scope 遇到的一个恼人的问题。请参阅下面我的代码中的注释: app.controller('MyController', function ($
elasticsearch - 几个月后 Elasticsearch 下降
我有一个 flex 搜索集群，其中有2个节点在2核CPU 8GB ram实例上运行。每个节点都传入了参数“ES_JAVA_OPTS = -Xms3g -Xmx3g”。我有4个索引，每个索引有2个分片和
r - 从局部最小值/最大值计算累积增长/下降
我正在学习 R(及其通过 quantmod lib 在交易任务中的应用)并定期浏览社区以从这里获得许多新知识和技巧。我对 R 的总体印象和特别是 quantmod lib 的印象 - 它很棒。在这一
ios - 一些绘制周期后 FPS 下降
当我们点击屏幕时，我正在绘制纹理正方形。我正在使用相同的纹理。在新 ios 设备中点击几次后，FPS 从 120 下降到 4 左右。每次手指点击时，我都会将点击的点以及纹理和纹理的大小传递给着色器。
java - 为什么我的 FPS 下降？
只有当对象被点击并且需要从列表中移除时它才会掉落。这是代码: if(event.type == TouchEvent.TOUCH_DOWN){ for(Bottle bottl
ios - SKLabelNodes 下降 fps
我有一个基于SpriteKit的小游戏。在这个游戏中，我使用了很多带有字母(或字母组合)的节点，用户可以四处移动来构建单词。这些节点基本上是带有 SKLabelNode 的 SKSpriteNod
css - 为什么 float 下降？
我有一个简单的CSS布局 wrapper header left-sidebar / main-content / right-sidebar footer 但我的主要内容似乎下降了(float dr
html - 在浏览器重新调整大小时，div 下降
在标题中，我给出了四个不同的部分，并使用 float 属性使所有内容都显示在一条水平线上。当我调整浏览器窗口大小时，最后一个 div 位于黑色边框线下方。如何解决。 http://jsfiddle
javascript - 调整页面大小时 div 下降
CSS: .desc{ text-align: center; color:#60A8D5; padding-top: 17px;
html - float Div 下降
这是一段简单的代码，但我为这个问题尝试过的解决方案都没有奏效。 #ONE { float: left; border: 1
ios - 使用重力使 SCNNode 下降？
我有一个 SceneKit 设置，其中有一个 Sphere 设置为 Dynamic body。我能够运行该应用程序并看到球体落在静态 body 地板上。我想做的是设置场景，这样 sfere 最初就
javascript - 未使用的属性(property)下降？
首先，我的类(class): export class FooBar { ... isFavorite: boolean = false; constructor() { this.isF
linux - 如何使所有传出的 RST 下降
我正在尝试删除所有端口上的所有传出 RST 和传入 RST。我正在使用 Debian Linux。我尝试了互联网上列出的所有可能的命令组合，但似乎没有任何效果。例如，我试过: iptables -A
rust - 借用时临时值(value)下降，但我不想租借
我正在做这样的事情: fn main() { //[1, 0, 0, 0, 99]; // return [2, 0, 0, 0, 99] //[2, 3, 0, 3, 99]; //
rust - if else 借入时临时值(value)下降
我正在使用 Rusqlite，它可以让你做这样的查询: statement.query_row(params!([1, 2, 3]), ...); params!()定义如下: macro_rules

首页

博学

6Ren·AI

商城

python - 为什么经过多次在线训练后识别率会下降？