python - 解释深度神经网络的训练轨迹 : very low training loss and even lower validation loss-6ren

python - 解释深度神经网络的训练轨迹 : very low training loss and even lower validation loss

转载作者：太空宇宙更新时间：2023-11-04 07:59:57

我对以下日志有点怀疑，这是我在训练深度神经网络时得到的回归目标值在 -1.0 和 1.0 之间，学习率为 0.001 和 19200/4800 训练/验证样本:

____________________________________________________________________________________________________
Layer (type)                     Output Shape          Param #     Connected to
====================================================================================================
cropping2d_1 (Cropping2D)        (None, 138, 320, 3)   0           cropping2d_input_1[0][0]
____________________________________________________________________________________________________
lambda_1 (Lambda)                (None, 66, 200, 3)    0           cropping2d_1[0][0]
____________________________________________________________________________________________________
lambda_2 (Lambda)                (None, 66, 200, 3)    0           lambda_1[0][0]
____________________________________________________________________________________________________
convolution2d_1 (Convolution2D)  (None, 31, 98, 24)    1824        lambda_2[0][0]
____________________________________________________________________________________________________
spatialdropout2d_1 (SpatialDropo (None, 31, 98, 24)    0           convolution2d_1[0][0]
____________________________________________________________________________________________________
convolution2d_2 (Convolution2D)  (None, 14, 47, 36)    21636       spatialdropout2d_1[0][0]
____________________________________________________________________________________________________
spatialdropout2d_2 (SpatialDropo (None, 14, 47, 36)    0           convolution2d_2[0][0]
____________________________________________________________________________________________________
convolution2d_3 (Convolution2D)  (None, 5, 22, 48)     43248       spatialdropout2d_2[0][0]
____________________________________________________________________________________________________
spatialdropout2d_3 (SpatialDropo (None, 5, 22, 48)     0           convolution2d_3[0][0]
____________________________________________________________________________________________________
convolution2d_4 (Convolution2D)  (None, 3, 20, 64)     27712       spatialdropout2d_3[0][0]
____________________________________________________________________________________________________
spatialdropout2d_4 (SpatialDropo (None, 3, 20, 64)     0           convolution2d_4[0][0]
____________________________________________________________________________________________________
convolution2d_5 (Convolution2D)  (None, 1, 18, 64)     36928       spatialdropout2d_4[0][0]
____________________________________________________________________________________________________
spatialdropout2d_5 (SpatialDropo (None, 1, 18, 64)     0           convolution2d_5[0][0]
____________________________________________________________________________________________________
flatten_1 (Flatten)              (None, 1152)          0           spatialdropout2d_5[0][0]
____________________________________________________________________________________________________
dropout_1 (Dropout)              (None, 1152)          0           flatten_1[0][0]
____________________________________________________________________________________________________
activation_1 (Activation)        (None, 1152)          0           dropout_1[0][0]
____________________________________________________________________________________________________
dense_1 (Dense)                  (None, 100)           115300      activation_1[0][0]
____________________________________________________________________________________________________
dropout_2 (Dropout)              (None, 100)           0           dense_1[0][0]
____________________________________________________________________________________________________
dense_2 (Dense)                  (None, 50)            5050        dropout_2[0][0]
____________________________________________________________________________________________________
dense_3 (Dense)                  (None, 10)            510         dense_2[0][0]
____________________________________________________________________________________________________
dropout_3 (Dropout)              (None, 10)            0           dense_3[0][0]
____________________________________________________________________________________________________
dense_4 (Dense)                  (None, 1)             11          dropout_3[0][0]
====================================================================================================
Total params: 252,219
Trainable params: 252,219
Non-trainable params: 0
____________________________________________________________________________________________________
None
Epoch 1/5
19200/19200 [==============================] - 795s - loss: 0.0292 - val_loss: 0.0128
Epoch 2/5
19200/19200 [==============================] - 754s - loss: 0.0169 - val_loss: 0.0120
Epoch 3/5
19200/19200 [==============================] - 753s - loss: 0.0161 - val_loss: 0.0114
Epoch 4/5
19200/19200 [==============================] - 723s - loss: 0.0154 - val_loss: 0.0100
Epoch 5/5
19200/19200 [==============================] - 1597s - loss: 0.0151 - val_loss: 0.0098

两者都减少了训练验证损失，乍一看这是个好消息。但是在第一个时期训练损失怎么会这么低呢？验证损失如何才能更低？这是否表明我的模型或训练设置中存在系统错误？

最佳答案

实际上 - 小于训练损失的验证损失并不像人们想象的那样罕见。它可能会发生，例如当验证数据中的所有示例都被您的训练集中的示例覆盖并且您的网络只是学习了数据集的实际结构时。

当您的数据结构不是很复杂时，这种情况经常发生。实际上 - 第一个纪元后损失的小值让您感到惊讶，这可能是您的案例中发生过这种情况的线索。

就损失而言，你没有具体说明你的损失是什么，但假设你的任务是回归 - 我猜它是 mse - 在这种情况下是均方误差在 0.01 级别意味着真实值和实际值之间的平均欧氏距离等于 0.1 什么是 5%您的值的直径集 [-1, 1]。那么——这个错误真的这么小吗？

您还没有指定在一个时期内分析的批处理数。也许如果您的数据结构不是那么复杂并且批处理大小很小 - 一个 epoch 就足以很好地学习您的数据。

为了检查您的模型是否训练良好，我建议您在绘制 y_pred 时绘制一个相关图，例如X 轴和 Y 轴上的 y_true。然后您将实际看到您的模型是如何训练的。

编辑:正如 Neil 提到的那样 - 小的验证错误背后可能有更多原因 - 比如没有很好地分离案例。我还要补充 - 因为这个事实 - 5 个纪元不超过 90 分钟 - 也许最好通过使用经典的交叉验证模式来检查模型的结果，例如5折。这将向您保证，对于您的数据集，您的模型表现良好。

关于python - 解释深度神经网络的训练轨迹 : very low training loss and even lower validation loss，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41909369/

文章推荐： python - csv 到 sqlite 表 python

文章推荐： Python 正则表达式向后看

文章推荐： C: signal() 是进程级的吗？

文章推荐： python - 在 Pandas 中折叠列和索引

python - 多输出模型的编译选项: multiple losses & loss weighting
正如 Keras 手册中所述 -使用 Pyhton 进行深度学习-，对于多输出模型，我们需要为网络的不同头指定不同的损失函数。但由于梯度下降要求您最小化标量，因此您必须将这些损失组合成单个值才能训练模
python - 直流-GAN : Discriminator loss going up while generator loss goes down
我无法判断这个错误是由于技术错误还是超参数造成的，但我的 DC-GAN 的鉴别器损失一开始很低，然后逐渐攀升，在 8 左右减慢，而我的发电机损失则大幅下降。我在大约 60,000 epoch 时结束了
python - 解释深度神经网络的训练轨迹 : very low training loss and even lower validation loss
我对以下日志有点怀疑，这是我在训练深度神经网络时得到的回归目标值在 -1.0 和 1.0 之间，学习率为 0.001 和 19200/4800 训练/验证样本: ___________________
python - Keras自动编码器: validation loss > training loss - but performing well on testing dataset
简而言之: 我训练了一个自动编码器，其验证损失始终高于其训练损失(见附图)。我认为这是过度拟合的信号。然而，我的自动编码器在测试数据集上表现良好。我想知道是否: 1)引用下面提供的网络架构，任何人都
python - 深度学习: Validation Loss Fluctuates Wildly Yet Training Loss is Stable
我正在处理文本序列，序列长度在 1-3 之间。标签是一个“分数”。我有超过 500 万个样本。我的网络如下所示(Keras): model.add(Embedding(word_count, 128,
deep-learning - CNN : Normal that the validation loss decreases much slower than training loss?
我正在训练用于图像语义分割的 CNN U-net 模型，但是训练损失的减少速度似乎比验证损失的减少速度快得多，这正常吗？我使用的是 0.002 的损失下图可以看到训练和验证损失: 最佳答案是的，
machine-learning - 神经网络中的 Train loss、Valid loss 和 Train/Val 是什么意思
我目前正在通过研究 MNIST 示例等示例来学习卷积神经网络。在神经网络的训练过程中，我经常看到如下输出: Epoch | Train loss | Valid loss | Train
python - 值错误 : Unknown loss function:focal_loss_fixed when loading model with my custom loss function
我设计了自己的损失函数。但是，当尝试恢复到训练期间遇到的最佳模型时 model = load_model("lc_model.h5") 我收到以下错误: -----------------------
sockets - RAW套接字发送: packet loss
在基于RAW套接字的数据包发送测试期间，我发现了非常令人讨厌的症状。使用默认的RAW套接字设置(尤其是SO_SNDBUF大小)，原始套接字可以毫无问题地发送100,000个数据包，但大约花费了8秒
JAVA : possible loss of precision
我用JAVA编写了以下方法: public static float surface(float r) { return(4*Math.PI*Math.pow(r,2));
loss - 关于torch.nn.CrossEntropyLoss参数形状
我正在学习pytorch，并正在做anpr项目，它是基于tensorflow的(https://github.com/matthewearl/deep-anpr，奥 git _a)作为练习，将其移植
Java程序错误: possible loss of precision
我试图找出为什么我的 Java 程序中会出现这种精度丢失错误。这是错误: error: possible loss of precision int digit = num/Mat
tensorflow - 如何设计tensorflow的ctc loss layer的label
我刚开始在 tensorflow(r1.0) 中使用 ctc 损失层，对“标签”输入有点困惑在tensorflow的API文档中是这样写的 labels: An int32 SparseTensor
java - Java中BigDecimal转Double时什么时候出现 "data loss"
我知道在 Java 中将 BigDecimal 值转换为 Double 时存在“精度问题”。使用 BigDecimal.doubleValue() 简单地从 BigDecimal 转换为 Double
python - keras loss 是否必须每批输出一个标量或整个批处理输出一个标量？
我读了 related question keras 自定义损失函数必须为每个批处理项返回一个标量。我写了一个损失函数，输出整个批处理的标量，网络似乎收敛了。但是，我找不到任何关于此的文档或代码中究
c++ - 高频接收UDP包 : packet loss?
我有一个 C++ 应用程序，它使用 UDP 服务器(使用 Boost.Asio)以高频率(每秒 3500 个数据包)从千兆本地网络设备接收数据包。一些用户报告了一些数据包丢失。所以最后我选择并行运行
JSP 重定向 : Session Loss Issues
更换了用response.sendRedirect("URL"); ，我发现我知道一旦重定向发生就会失去 session 。有没有办法通过重定向保留 session ，或者重建 session co
tensorflow - DQN - Q-Loss 不收敛
我正在使用 DQN 算法在我的环境中训练代理，如下所示: 代理通过选择离散 Action (左、右、上、下)来控制汽车目标是以理想的速度行驶而不会撞到其他汽车状态包含代理的汽车和周围汽车的速度和位
python - DQN Pytorch Loss 不断增加
我正在实现简单的 DQN算法使用 pytorch , 解决来自 gym 的 CartPole 环境.我已经调试了一段时间，我无法弄清楚为什么模型没有学习。观察: 使用 SmoothL1Loss性能比
PHP JPEG 裁剪 : Loss of quality?
我正在开发一个网络打印海报打印应用程序。我正在考虑使用 PHP 来裁剪用户上传的图像，我们最终将打印 PHP 裁剪的图像。我担心的是原始用户上传的图像与被 PHP 裁剪后的图像之间的“质量”会有所

太空宇宙

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 解释深度神经网络的训练轨迹 : very low training loss and even lower validation loss