machine-learning - 训练准确率大幅提高，测试准确率稳定-6ren

machine-learning - 训练准确率大幅提高，测试准确率稳定

转载作者：行者123 更新时间：2023-11-30 08:40:55

25

4

按照 this 训练卷积神经网络时文章中，训练集的准确率增加太多，而测试集的准确率却稳定下来。

下面是一个包含 6400 个训练示例的示例，在每个时期随机选择(因此有些示例可能在之前的时期出现过，有些可能是新的)，以及 6400 个相同的测试示例。

对于更大的数据集(64000 或 100000 个训练样本)，训练准确率的提高更加突然，在第三个 epoch 时达到 98。

我还尝试在每个时期使用相同的 6400 个训练示例，只是随机洗牌。正如预期的那样，结果更糟。

epoch 3  loss 0.54871 acc 79.01 
learning rate 0.1
nr_test_examples 6400    
TEST epoch 3  loss 0.60812 acc 68.48 
nr_training_examples 6400
tb 91
epoch 4  loss 0.51283 acc 83.52 
learning rate 0.1
nr_test_examples 6400
TEST epoch 4  loss 0.60494 acc 68.68 
nr_training_examples 6400
tb 91
epoch 5  loss 0.47531 acc 86.91 
learning rate 0.05
nr_test_examples 6400
TEST epoch 5  loss 0.59846 acc 68.98 
nr_training_examples 6400
tb 91
epoch 6  loss 0.42325 acc 92.17 
learning rate 0.05
nr_test_examples 6400
TEST epoch 6  loss 0.60667 acc 68.10 
nr_training_examples 6400
tb 91
epoch 7  loss 0.38460 acc 95.84 
learning rate 0.05
nr_test_examples 6400
TEST epoch 7  loss 0.59695 acc 69.92 
nr_training_examples 6400
tb 91
epoch 8  loss 0.35238 acc 97.58 
learning rate 0.05
nr_test_examples 6400
TEST epoch 8  loss 0.60952 acc 68.21

这是我的模型(我在每次卷积后使用 RELU 激活):

conv 5x5 (1, 64)
max-pooling 2x2
dropout
conv 3x3 (64, 128)
max-pooling 2x2
dropout
conv 3x3 (128, 256)
max-pooling 2x2
dropout
conv 3x3 (256, 128)
dropout
fully_connected(18*18*128, 128)
dropout
output(128, 128)

可能是什么原因？

我正在使用带有学习率衰减的动量优化器:

    batch = tf.Variable(0, trainable=False)

    train_size = 6400

    learning_rate = tf.train.exponential_decay(
      0.1,                # Base learning rate.
      batch * batch_size,  # Current index into the dataset.
      train_size*5,          # Decay step.
      0.5,                # Decay rate.
      staircase=True)
    # Use simple momentum for the optimization.
    optimizer = tf.train.MomentumOptimizer(learning_rate,
                                         0.9).minimize(cost, global_step=batch)

最佳答案

这是非常令人期待的。 这个问题称为过度拟合。这是当您的模型开始“记住”训练示例而实际上没有学习任何对测试集有用的东西时。事实上，这正是我们首先使用测试集的原因。因为如果我们有一个足够复杂的模型，我们总是可以完美地拟合数据，即使没有意义。测试集告诉我们模型实际学到了什么。

使用类似于测试集的验证集也很有用，但您可以使用它来确定何时停止训练。当验证错误停止降低时，您将停止训练。 为什么不使用测试集呢？测试集是为了了解你的模型在现实世界中的表现如何。如果您开始使用测试集中的信息来选择有关训练过程的信息，那么就像您作弊一样，您将因测试错误不再代表现实世界的错误而受到惩罚。

最后，卷积神经网络因其过拟合能力而臭名昭著。事实证明，即使您打乱标签甚至随机像素，卷积网络也可以获得零训练误差。这意味着卷积网络不必有真正的模式来学习表示它。这意味着您必须规范化网络。也就是说，你必须使用诸如Dropout、批量归一化、早期停止之类的东西。

如果您想了解更多内容，我会留下一些链接:

过度拟合、验证、提前停止 https://elitedatascience.com/overfitting-in-machine-learning

卷积网络拟合随机标签: https://arxiv.org/pdf/1611.03530.pdf(这篇论文有点高级，但是浏览一下还是很有趣的)

附注要真正提高测试准确性，您需要更改模型或通过数据增强进行训练。您可能也想尝试迁移学习。

关于machine-learning - 训练准确率大幅提高，测试准确率稳定，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46216981/

25

4

0

文章推荐： java - 从 Hibernate 调用 Oracle 存储函数

文章推荐： Java 泛型与函数中的类型

文章推荐： java - 将 Spinner 选择保存到 SQLite 数据库中

文章推荐： javascript - 如何将 JS 单击事件附加到 AJAX 加载按钮？

performance - 提高 FOR 循环的性能
我正在比较工作簿中的工作表。该工作簿有两张名为 PRE 和 POST 的工作表，每张工作表都有相同的 19 列。行数每天都不同，但特定一天的两张表的行数相同。该宏将 PRE 工作表中的每一行与 POS
JavaScript:提高 FOR 循环的性能以阻止浏览器锁定？
我有一个对象数组，我一次循环遍历该数组一个对象，然后进行几次检查以查看该数组中的每个对象是否满足特定条件，如果该对象满足此条件，则复制一个属性将此对象放入数组中(该属性还包含另一个对象)。 for(v
c++ - 提高 += 运算符性能
我正在编写一个必须非常快的应用程序。我使用 Qt 5.5 和 Qt Creator，Qt 的 64 位 MSVC2013 编译版本。我使用非常困倦的 CS 来分析我的应用程序，我看到占用最多独占时间
java - 提高 for-each 性能
我有以下 CountDownTimer 在我的 Android 应用程序中不断运行。 CountDownTimer timer_status; timer_status = new CountDown
python - 提高 sklearn 中随机森林回归器的性能
有一个优化问题，我必须调用随机森林回归器的预测函数数千次。 from sklearn.ensemble import RandomForestRegressor rfr = RandomForestR
.net - 提高 nHibernate 数据访问层的性能
我正在努力提高现有 Asp.Net Web 应用程序的数据访问层的性能。场景是。它是一个基于 Web 的 Asp.Net 应用程序。数据访问层使用 NHibernate 1.2 构建并作为 WCF
video - 提高 ffmpeg 视频捕获性能？
我在我的 Intel Edison 上运行 Debian，并尝试使用 ffmpeg 通过 USB 网络摄像头捕获视频。我正在使用的命令是: ffmpeg -f video4linux2 -i /dev
performance - 提高 VBA 中的循环效率
我有一个 For循环遍历整数 1 到 9 并简单地找到与该整数对应的最底部的条目(即 1,1,1,2,3,4,5 将找到第三个“1”条目)并插入一个空白行。我将数字与仅对应于此代码的应用程序的字符串“
sql - 提高 Postgresql 查询的性能
我有一个带有非规范化架构(1 个表)的 postgresql 数据库，其中包含大约 400 万个条目。现在我有这个查询: SELECT count(*) AS Total, (SELECT c
coq - 提高 coq 策略的失败级别
在 Ltac 中实现复杂的策略时，有一些 Ltac 命令或策略调用我预计会失败以及预期失败(例如终止 repeat 或导致回溯)。这些故障通常在故障级别 0 时引发。更高级别引发的故障“逃避”周
performance - 提高 Ansible 性能
我正在尝试提高 ansible playbook 的性能。我有一个测试剧本如下: --- - name: Test hosts: localhost connection: local g
reactjs - 提高 axios 获取下载速度
我正在使用 axios从 Azure 存储 Blob 下载文件 (~100MB)。 axios({ method: 'get', url: uri, onDownloadProgress:
performance - 提高 ClojureScript 程序的性能
我有一个 ClojureScript 程序，主要对集合执行数学计算。它是在惯用的、独立于主机的 Clojure 中开发的，因此很容易对其进行基准测试。令我惊讶的是(与答案对 Which is fast
performance - 提高 jetty 性能
我有一个程序必须在硬件允许的情况下尽快发出数千个 http 请求。在现实世界中，这些连接中的每一个都将连接到一个离散的服务器，但我已经编写了一个测试程序来帮助我模拟负载(希望如此)。我的程序使用 A
performance - 提高 Fortran 代码性能的提示和技巧
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
performance - 提高 Clojure 中点云边界框计算的性能
我正在计算 Clojure 中 3d 点云的边界框。点云表示为 Java 原始浮点数组，点云中的每个点都使用 4 个浮点存储，其中最后一个浮点未使用。像这样: [x0 y0 z0 u0 x1 y1
performance - 提高 magento 性能的最佳步骤是什么？
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he
r - 提高 R 光线着色器图像的分辨率
我正在尝试使用rayshader 包制作图像。我很高兴能够使用如下代码创建一个 png 文件: library(ggplot2) library(rayshader) example_plot <-
jquery - 提高 jQuery 模板性能
更新显然，jQuery 模板可以被编译，并且它有助于显示带有 if 语句的模板的性能 here . 但是如图here ，预编译的 jQuery 模板对我的情况没有多大作用，因为我的模板不包含逻辑
iphone - 提高 ScrollView 的性能
我是编程新手。我有一个启用分页的 ScrollView ，其中包含许多页面(最多十个)，并且在每个页面上都有一个自定义按钮。每个自定义按钮都有一个自定义图像。我在 Interface Builder

首页

博学

6Ren·AI

商城

machine-learning - 训练准确率大幅提高，测试准确率稳定