- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
一般来说,是否可以判断在 Z 纪元的 Y 训练样本上训练深度为 X 的给定神经网络是否可能过度拟合?或者只能通过查看训练集与测试集的损失和准确性图来确定是否可以检测到过度拟合?
具体来说,我有大约 250,000 个示例,每个示例都是 200x200px 的平面图像。该模型是一个 CNN,大约有 5 个卷积+池化层,后面是 2 个密集层,每个密集层有 1024 个单元。该模型分为 12 个不同的类别。我已经对其进行了大约 35 个小时的训练,训练集的准确率约为 90%,测试集的准确率约为 80%。
最佳答案
Generally speaking, is it possible to tell if training a given neural network of depth X on Y training examples for Z epochs is likely to overfit?
一般来说,不。拟合深度学习模型仍然几乎完全是一种经验艺术,其背后的理论仍然(非常)贫乏。而且,虽然随着经验的积累,人们更有可能提前判断模型是否容易过拟合,但置信度一般不高(极端情况除外),唯一可靠的判断就是实验。
进一步阐述:如果使用 Keras MNIST CNN example并删除中间密集层(之前版本的脚本过去包含 2x200 密集层,而不是现在的 1x128),从而仅保留 conv/pooling 层和最终的 softmax 层,最终将得到 ~ 98.8% < em>仅在 20 个 epoch 后测试准确性,但我不知道有谁可以提前可靠地预测这一点......
Or can overfitting only be detected for sure by looking at loss and accuracy graphs of training vs test set?
确实,这是唯一安全的方法。过度拟合的明显特征是学习曲线的分歧(训练误差仍在减少,而验证或测试误差却在上升)。但即使我们诊断出过度拟合,原因也可能并不总是明确的(请参阅我的相关问答 here )。
~90% accuracy on training set and ~80% test set
同样,从原则上来说,这对于 12 个类的问题来说听起来还不错。您似乎已经知道,如果您担心可能过度拟合,则必须监视的是曲线而不是值本身(或训练时间)。
<小时/>关于与模型不可解释性主题相关的深度学习模型背后的糟糕理论这一更普遍的主题,您可能会发现 this answer我的有用...
关于machine-learning - 是否有可能在几个时期内对 250,000 个示例进行过度拟合?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47842147/
我正在开发适用于 Wordpress 的 PSD,并面临着根据颜色过度对齐背景图像或相反的问题。 在桌面上一切都很好,但在移动设备上背景图像变小了(我使用了 background-size: 100%
在标准 Modelica 流体流量源中,通常指定流量或压力。例如,以下边界设置(P 表示压力边界,F 表示流量边界)通常会围绕管道组件: P - 管道 - P F - 管道 - P 但是,有时在同一侧
我正处于设计基于 Azure 的应用程序的早期阶段。考虑到我可能预期的需求的变化性,Azure 吸引我的地方之一是它的可扩展性。因此,我试图保持事物松散耦合,以便我可以在需要时添加实例。 我看到的关于
我与 Xcode 4 dot notation code sense problem 正好相反!点符号的代码完成不仅显示属性,还显示我的方法(在每个完成的左侧标记 P 或 M 分别指示它是属性还是方法
我是一名优秀的程序员,十分优秀!