python - CNN 仅针对 binary_crossentropy 损失函数收敛并且在测试数据集上失败-6ren

python - CNN 仅针对 binary_crossentropy 损失函数收敛并且在测试数据集上失败

转载作者：行者123 更新时间：2023-11-30 09:14:47

24

4

问题在于使用包含 0 到 1000 之间数字的 (n,n) 形状矩阵输入的数据集训练 CNN。输出应表示具有 0 值的完全相同的 (n,n) 形状矩阵用 1 到 1000 之间的其他值进行修补。(与去噪图像类似)

Example:
Input:             Output: 
135 0   283 4      135 75  283 4
25  38  43  0      25  38  43  815
0   99  820 481    533 99  820 481
728 331 3   28     728 331 3   28

通过遗传算法运行输入来优化外部成本函数，从而生成输出。 (这个函数相当复杂，需要在外部专用程序中计算)整个数据集包含 3000 个输入和输出，每个输入和输出都有 (10,10) 形状。

由于该问题与图像处理神经网络相似，因此我决定使用 CNN。 X_data 包含每个输入矩阵的值，Y_data 包含输出修补数据的二进制编码(十进制长 10 位)。 (制定这种编码是为了减少输出大小并提高收敛速度)

Example:
X_data:            Y_data:
135 0   283 4      0 0 1 0 0 0 0 1 1 1 0 0 0 1 0 0 1 0 1 1...
25  38  43  0
0   99  820 481
728 331 3   28

网络仅在使用'binary_crossentropy'损失函数时才会收敛，但当我将经过训练的 CNN 与新输入的性能进行比较时，没有任何改进。 (我通过将 CNN 输出与相同外部成本函数的遗传算法优化输出进行比较来衡量这一点)

问题:训练输入和输出数据集是否与此类问题兼容？数据集是否足够大以获得正确的结果或者应该提供更多的训练数据？输出数据的编码是一种好方法，还是导致经过训练的 CNN 无法工作的问题？如果还有其他方法缺陷，请帮我解决!

inshape = (dim,dim,1)
outshape = (dim*dim*10)

model = Sequential()     
inp = Input(inshape) 
x = BatchNormalization()(inp)
x = Conv2D(1000, kernel_size=3,padding='same')(x)
x = Activation('relu')(x)    
x = Reshape((100,100,-1))(x)
x = MaxPooling2D(pool_size=(5,5))(x)
x = SpatialDropout2D(rate = 0.5)(x, training=True)    
x = Conv2D(250, kernel_size=3,padding='same')(x)
x = Activation('relu')(x)
x = MaxPooling2D(pool_size=(4,4))(x)    
x = SpatialDropout2D(rate = 0.3)(x, training=True)
x = Conv2D(400, kernel_size=3,padding='same')(x) 
x = Activation('sigmoid')(x)
x = MaxPooling2D(pool_size=(2,2))(x) 
x = Conv2D(2500, kernel_size=3,padding='same')(x) 
x = Activation('sigmoid')(x)
x = MaxPooling2D(pool_size=(2,2))(x)  
x = BatchNormalization()(x)
x = Flatten()(x)
out = Dense(outshape, activation='sigmoid',name='out')(x)
model = Model(inputs=inp,outputs=(out)) 
model.compile(optimizer=Adadelta(lr=1.0),
              loss = ['binary_crossentropy'], metrics =['accuracy'])

最佳答案

首先，您真的需要 CNN，还是只需要全连接层？要回答这个问题，请问问自己输入数据的值之间是否存在空间关系，例如图像中的空间关系。现在回答您的问题:

训练输入和输出数据集是否与此类问题兼容？

是的。你需要的是所谓的去噪自动编码器(CNN 或全连接，这取决于你的数据)。自动编码器在 x 上连续应用两个函数，使得 f(g(x)) = x'，并且 x 和 x' 具有相同的大小。为了阻止自动编码器学习单位矩阵，中间的层要小得多。去噪是一种变体，因为输入数组中的零被视为噪声，并且您希望在输出层中重建丢失的信息。

数据集足够大以获得正确的结果还是我需要更多数据？

这取决于将预测变量与结果相关联的函数的复杂性，以及数据的熵。尝试修改图层的宽度和深度，看看是否有帮助。

输出数据的编码是一个好方法，还是导致经过训练的 CNN 无法工作的问题？

当您处理分类任务而不是回归任务时，One-hot 编码非常有用。据我了解，即使您尝试输出整数，这里也是一个回归任务。您可以简单地尝试使用实数矩阵重建输出层上的输入 x，并最终将它们舍入以计算损失，这可能是一个简单的 RMSE(二元交叉熵用于分类任务)。

现在，让神经网络发挥作用很复杂，有很多不同的因素，仅靠知识是不够的。你还需要经验、尝试和错误等。我建议你从简单开始，得到满意的结果，然后逐步尝试提高你的预测精度。

关于python - CNN 仅针对 binary_crossentropy 损失函数收敛并且在测试数据集上失败，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58782306/

24

4

0

文章推荐： javascript - 为什么这个对象在函数运行之前发生变化？

文章推荐： java - Quartz - 在使用 spring 进行 hibernate 时发生异常

文章推荐： javascript - 或者 Regex 的交替返回比它应该的更多的结果？

Firebase 测试数据
过去 7-8 个月以来，我们一直在使用 Firebase。这是一个非常棒的工具，感谢您的努力。这里我有一个问题，是否有一种方法可以在不实际写入数据库的情况下修改数据。因为大多数情况下，当我们调试
python - 为Word2Vec模型创建训练、测试数据
我正在尝试创建一个 W2V 模型，然后生成用于我的模型的训练和测试数据。我的问题是，在使用训练数据创建 W2V 模型后，如何生成测试数据。最佳答案 Word2Vec 被认为是一种“无监督”算法，因此
python - 如何使用层次聚类将聚类分配给新的观察结果(测试数据)？
from scipy.cluster.hierarchy import dendrogram, linkage,fcluster import numpy as np import matplotli
装饰器中的 Angular2 测试数据
我有一个组件，我想在单元测试中检查选择器 @Component({ selector: 'my-component', )} 我想这样测试 describe('My Component',
java - 静态或非静态方法中的 JUnit 测试数据
想知道哪个好。我必须将一些 JUnit 测试数据保存在不同的文件中。让我们将其称为 TestingData.java。我想到了两种方法。第一种方式 TestingData.java public
sql - 您建议使用哪些工具或方法来创建大量 SQL 测试数据？
这个问题在这里已经有了答案: 关闭 14 年前。我想对我的一些 SQL 查询进行压力测试，找出糟糕的查询计划和瓶颈。我计划用随机测试数据填充一些表。是否有工具或一组脚本可用于此目的，最好是用于
python - 线性回归预测预测输入数据(测试数据)，而不是测试结果
我正在尝试预测以下内容: list( [ 收盘价(当日) - 开盘价(当日) ] ) 使用以下内容作为输入: list( [ 开盘价(当天) - 收盘价(昨天) ] ) 但是，我的 test_pred
credit-card - 在哪里可以找到磁条(磁道)测试数据？
我已经编写了一个函数库，可以根据 ISO/IEC 7813 从卡片(信用卡、ID 等)上的磁条解析轨道 1 和轨道 2 数据。我希望针对一些有效的(但显然不是)严格测试这个库真正的信用卡')跟踪 2
validation - 即使有训练/验证/测试数据，决策树也会过度拟合
我的问题如下。我有 6 个数据集(从不同的日子收集)，我想为其构建决策树分类器。我需要找到最佳的树深度参数以避免过度拟合并对新数据进行良好的预测。我的第一次尝试是将每个数据集按 50%/25%/25
android - 在哪里放置 Android Instrumentation 测试数据
我想在我的仪器测试中使用大文件(> 2 GB 的 zip 存档和视频文件)来测试从 SD 卡/内部存储加载文件。如何编写这些仪器测试并为它们配备所需的文件？对于其他测试，我只需要非常小的文件，所以我
machine-learning - MXNet ImageRecordIter 测试数据/标签格式
我在理解 MXNet ImageRecordIter 的工作原理时遇到了一些困难。 Here是我一直在使用的引用首先，--test-ratio 标志实际上是做什么的？生成lst文件时，我无法分辨哪些
machine-learning - 为什么保持较低的模型权重(添加正则化参数)可以使模型更好地拟合看不见的/测试数据？
考虑具有成本函数的线性回归模型: 这里有 = 模型的权重我们添加正则化参数以避免过度拟合数据。正则化项通过根据模型的权重对模型进行惩罚来阻止使用大的权重，转而使用较小的权重。问题是: 为什么保持模型
testing - 为非 GORM 对象构建 Grails 测试数据
我们正在为基于 REST 的后端构建 Grails 前端。我们有很多值 (DTO) 编码到 JSON 或从 JSON 编码。我正在寻找一种方便的方法来构建这些 DTO 的模拟以用于测试目的。我喜欢
python - 如何通过 VCS 分发 MongoDB 测试数据？
我在家里的电脑和笔记本电脑上都在做一个 Python/MongoDB 项目。自然地，文档存储中的模式最好由数据本身表示 - 这就是为什么我想通过 Mercurial 分发我的测试数据以及代码本身。最
junit - 如何使用 Spring Test 为每个案例加载一次 DBUnit 测试数据
Spring Test 有助于回滚测试方法中对数据库所做的任何更改。这意味着不必在每个测试方法之前花时间删除/重新加载测试数据。但是，如果您使用 @BeforeClass Junit 注释，则会强制
python - 使用 np.random.rand 划分训练/测试数据
我试图理解这行代码: msk = np.random.rand(len(df)) 小于 ( 大于或等于 (>=) 0.8。 ~msk 将 True 翻转为 False 并将 False 翻转为 Tr
java - 如何在 Gradle 项目中包含 JMonkey 测试数据 jar？
我已按照说明使用 JMonkey 创建 Gradle 项目，但无法按照教程中所述加载任何 Assets : http://wiki.jmonkeyengine.org/doku.php/jme3:be
python - 使用 np.random.rand 划分训练/测试数据
我试图理解这行代码: msk = np.random.rand(len(df)) 小于 ( 大于或等于 (>=) 0.8。 ~msk 将 True 翻转为 False 并将 False 翻转为 Tr
c# - 从 Excel 读取 NUnit 测试数据 - 如何访问测试数据？
我正在尝试使用此处介绍的 Excel 数据阅读器 http://fabiouechi.blogspot.fi/2010/07/excel-data-driven-tests-with-nunit.ht
html - 如何使用 Protractor - Angular 在第三方包中进行 E2E 测试数据
我想知道是否可以在根 html 元素级别向第 3 方包添加唯一标识符。例如，我通过 NPM 使用包 myDatePicker。我可以将 ID 标记添加到实际的 html 元素，但嵌套在该元素内部的是

首页

博学

6Ren·AI

商城

python - CNN 仅针对 binary_crossentropy 损失函数收敛并且在测试数据集上失败