- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我在一篇论文中读到了这一点:“我们不是在第一个卷积层中使用相对较大的感受野,而是在整个网络中使用非常小的 3 × 3 感受野,这些感受野在每个网络中与输入进行卷积。像素(步幅为 1)。很容易看出,两个 3 × 3 卷积层的堆栈(中间没有空间池化)的有效感受野为 5 × 5;三个这样的层具有 7 × 7 的有效感受野字段。”
它们如何最终获得 7x7 的感受野?
这就是我的理解:假设我们有一张 100x100 的图像。
第一层:对图像进行补零,并与 3x3 滤波器进行卷积,输出另一张 100x100 滤波图像。
第二层:对之前的滤波图像进行零填充,并与另一个 3x3 滤波器进行卷积,输出另一个 100x100 滤波图像。
第三层:对之前的滤波图像进行零填充,并与另一个 3x3 滤波器进行卷积,输出最终的 100x100 滤波图像。
我错过了什么?
最佳答案
这是一种思考方式。考虑下面的小图像,每个像素编号如下:
00 01 02 03 04 05 06
10 11 12 13 14 15 16
20 21 22 23 24 25 26
30 31 32 33 34 35 36
40 41 42 43 44 45 46
50 51 52 53 54 55 56
60 61 62 63 64 65 66
现在考虑中心的像素 33。通过第一个 3x3 卷积,像素 33 处生成的值将包含像素 22、23、24、32、33、34、42、43 和 44 的值。但请注意,每个像素还将包含 它们周围像素的值也是如此。
通过下一个 3x3 卷积,像素 33 将再次合并其周围像素的值,但现在,这些像素的值合并了原始图像中的周围像素。实际上,这意味着像素 33 的值由达到您可以说的 5x5“影响平方”的值控制。
每个额外的 3x3 卷积都会在每个方向上将有效感受野拉伸(stretch)另一个像素。
我希望这不会让事情变得更加困惑......
关于machine-learning - ConvNets 上的感受野(感受野大小困惑),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37136829/
我是一名优秀的程序员,十分优秀!