- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我很难理解 CNN 背后的数学原理,以及我应该如何精确地修改神经网络层之间的输出形状。
我正在尝试在 kaggle 上进行 carvana 图像 mask 挑战 https://www.kaggle.com/c/carvana-image-masking-challenge .所以换句话说,我正在尝试创建一个神经网络,给定一张汽车图片,它可以识别该图像中汽车的边界并将其从背景的其余部分中裁剪掉。
所以我的输入都是图片,width=959px and height=640px。我的输入数组的形状是 (159, 640, 959, 3),其中 159 表示输入数组总共包含 159 张图像。我创建的目标是具有 640 行和 959 列(每个像素一个条目)的矩阵,使用 bool 值来表示相应的像素是否是汽车/是否在汽车的边界内。目标数据的形状是 (159, 640, 959) 其中 159 可能代表目标持有 159 张图像这一事实
我创建了一个过早结构化的卷积网络(我的意思是,使用的过滤器很少)。该架构的代码在这里。
nn = Sequential()
nn.add(Conv2D(8,(3,3), input_shape = (IMG_HEIGHT, IMG_WIDTH, 3), activation = 'relu', padding = 'same'))
nn.add(Conv2D(8, (3,3), activation='relu', padding='same'))
nn.add(Dense(1, activation='softmax'))
Summary() 显示以下内容:
# Summary:
Layer (type) Output Shape Param #
=================================================================
conv2d_1 (Conv2D) (None, 640, 959, 8) 224
_________________________________________________________________
conv2d_2 (Conv2D) (None, 640, 959, 8) 584
_________________________________________________________________
dense_1 (Dense) (None, 640, 959, 6) 54
=================================================================
Total params: 862
Trainable params: 862
我一直遇到的错误是......
ValueError:检查目标时出错:预期 dense_1 具有 4 个维度,但得到形状为 (159, 640, 959) 的数组
目前我实际上不确定如何修改此代码以使其正常工作并克服此错误。我对最后一层应该如何具有 4 个维度感到困惑。根据 Keras 的总结,这个输出似乎确实有 4 个维度,但其中一个维度被标记为无。如果输出的形状不应该是 (640, 959),就像每个目标图像一样……我真的不知道输出的形状应该是什么。我只是很难将我之前学到的关于卷积网络的知识应用到实际代码中。我无法克服这个错误,我目前正在努力弄清楚如何解决。有一些基本的事情我没有做正确......
编辑:最初说图像的形状为 440px X 959px。这是不正确的,它实际上是 640px X 959px。我的错字真的很不方便。
最佳答案
documentation Dense
不是最清楚的,但从描述输入和输出形状的部分可以清楚地看到。
Note: if the input to the layer has a rank greater than 2, then it is flattened prior to the initial dot product with
kernel
....
Input shape
nD tensor with shape:
(batch_size, ..., input_dim)
. The most common situation would be a 2D input with shape(batch_size, input_dim)
.Output shape
nD tensor with shape:
(batch_size, ..., units)
. For instance, for a 2D input with shape(batch_size, input_dim)
, the output would have shape(batch_size, units)
.
这非常令人困惑,因为它讨论了如何首先展平更高阶的张量(这让你认为 Dense(1)
的整体输出对于来自批处理),但正如您使用 summary()
的打印输出所展示的那样,它保持张量的相同中间维度。
因此,如果您提供的输入是 (None, 640, 959, 8)
,这意味着 Dense
会将最终维度视为要进行的维度全连接,并将内部维度指定的 640x959 位置中的每个单独单元视为单独的输出神经元...
所以如果你的网络是这样的:
nn = Sequential()
nn.add(Conv2D(8, (3,3), input_shape = (640, 959, 3), activation='relu', padding='same'))
nn.add(Conv2D(8, (3,3), activation='relu', padding='same'))
nn.add(Dense(1, activation='softmax'))
那么最终的输出形状将是
(None, 640, 959, 1)
也就是说,640x959 网格中的每个输出“像素”(i, j) 被计算为来自前一层的点 (i, j) 处的 8 个不同卷积 channel 的密集组合。
有多种方法可以实现相同的目的,例如,将 channel 维度从 8 降采样到 1 的 1x1 卷积也会产生相同的输出形状,层如,
Conv2D(1, (1,1), activation='relu', padding='same')
或者您可以引用 "naive Keras" example对于你正在进行的特定 Kaggle 竞赛,它使用了这个:
model = Sequential()
model.add( Conv2D(16, 3, activation='relu', padding='same', input_shape=(320, 480, 12) ) )
model.add( Conv2D(32, 3, activation='relu', padding='same') )
model.add( Conv2D(1, 5, activation='sigmoid', padding='same') )
除此之外,我们还有两个问题,即您为我们打印的代码中的数据维度不正确。
一个是您声明图像高度为 440,但 keras 输出显示为 640。
另一个是你最后的Dense层在输出中有6个 channel ,但是你提供的相应代码只能导致1个 channel 。
很可能您正在使用的代码与您在此处粘贴的代码之间存在一些不匹配,这使我们无法看到维度问题的完整问题。
例如,该网络的损失层应该将汽车位置像素的地面真实位掩码与最后一层的 640x959 Dense
输出进行比较(一旦你解决了你所在的奇怪问题在输出中显示 6 个 channel )。
但是你报的错误信息是
ValueError: Error when checking target: expected dense_1 to have 4 dimensions, but got array with shape (159, 640, 959)
这表明这批目标数据可能需要重新整形为形状为 (159, 640, 959, 1)
的张量,只是为了与出现的形状保持一致你的 Dense
层。
关于python - Keras 初学者 : what is supposed to be the output shape of the last layer?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50311056/
我正在用 C 语言实现一个带有输入和输出重定向的 shell。我可以成功进行输入重定向,但输出重定向不起作用。例如,如果我执行 ls > out.txt,则 out.txt 包含文本“out.txt”
我正在处理创建 AWS API 网关。我正在尝试创建 CloudWatch Log 组并将其命名 API-Gateway-Execution-Logs_${restApiId}/${stageName
我正在修改原作者使用数组构建网页的一些代码: $output[]=$stuff_from_database; $output[]='more stuff'; // etc echo join(
我只想知道它们之间的区别: sort < output 和 sort output 在 Linux 中。它是如何工作的? 最佳答案 这已经在 unix.stackexchange 上讨论过:Perfo
我正在生成外部控制台应用程序并使用异步输出重定向。 as shown in this SO post 我的问题是,在我收到 OutputDataReceived 事件通知之前,生成的进程似乎需要产生一
在 Udemy 上开设类(class)时,我们一直允许使用组件类中的 @Input() 装饰器向组件传递数据。 在阅读 ngBook-2 时,我发现还有另一种方法,即在 @Component 装饰器中
考虑一个 Linux 服务器,它在您的用户的 .bash_profile 中有以下行: echo "Hello world" 因此,每次您通过 ssh 进入它时,您都会看到 Hello world 现
public static void main(String[] args) { String input = new String(JOptionPane.showInputDialog("
我正在使用 MSVS 2008 中的 FFTW3 库对某些数据执行 r2c DFT (n=128)。我已经发现只使用了真实数据 DFT 输出的前半部分……如果我查看我的输出,这似乎是正确的: 0-64
我制作了一个 C 程序,可以从二进制文件中打印出很多值。我相信程序完成它的功能并在它实际显示它吐出的值之前结束。因此,结果我得到了一个可爱的 RUN SUCCESSFUL(总时间:198ms) 突然出
在 hadoop 作业计数器中,“映射输出具体化字节”与“映射输出字节”之间有什么区别?当我禁用映射输出压缩时我没有看到前者所以我猜它是真正的输出字节(压缩)而后者是未压缩的字节? 最佳答案 我认为你
有很多 Stack Overflow 文章与此相关,但没有直接的答案。 这条命令会输出一堆单词 OutputVariable.exe %FILEPATH% 输出: Mary had a little
互联网上的许多文章都使用“标准输入/输出/错误流”术语好像每个术语都与使用的“标准输入/输出/错误设备”术语具有相同的含义在其他文章上。例如,很多文章说标准输出流默认是监视器,但可以重定向到文件、打印
我在 Keras 中使用一些 tensorflow 函数(reduce_sum 和 l2_normalize)在最后一层构建模型时遇到了这个问题。我已经搜索了一个解决方案,但所有这些都与“Keras
我有来自 API 的自定义输出,我想将其格式化为带有一些颜色值的字符串。 最佳答案 输出 channel 可以用 TmLanguage grammar 着色. Output Colorizer扩展扩展
我正在寻找一种方法来查看虚拟机创建过程中发生的情况,因为我使用复杂的集群配置并测试其是否正常工作,我需要能够查看输出,在某些情况下我是不是因为敏感。这与运行remote-exec选项有关 module
当谷歌搜索此错误时没有看到任何相关结果,所以我想发布它。 stack build Building all executables for `gitchapter' once. After a suc
假设module_a里面有register_a,它需要链接到module_b。 register_a 是否应该单独声明并分配给 module_a 的输出: reg register_a; assign
我正在寻找一种方法来查看虚拟机创建过程中发生的情况,因为我使用复杂的集群配置并测试其是否正常工作,我需要能够查看输出,在某些情况下我是不是因为敏感。这与运行remote-exec选项有关 module
输入文件如下 eno::ename::dept::sal 101::emp1::comp1::2800000 201::emp2::comp2::2800000 301::emp3::comp3::3
我是一名优秀的程序员,十分优秀!