gpt4 book ai didi

machine-learning - CNN网络,继续使用conv2d,不使用maxpool,阅读keras书的一个问题

转载 作者:行者123 更新时间:2023-11-30 09:43:59 26 4
gpt4 key购买 nike

我正在阅读 Francois Chollet 的《学习 Python》一书。在第 128 页,作者正在讨论使用连续 Conv2d 层而不是 maxpooling 层的问题。我的问题来自以下段落。 我不明白7X7来自哪里?

It isn’t conducive to learning a spatial hierarchy of features. The 3 × 3 windows in the third layer will only contain information coming from 7 × 7 windows in the initial input. The high-level patterns learned by the convnet will still be very small with regard to the initial input, which may not be enough to learn to classify digits (try recognizing a digit by only looking at it through windows that are 7 × 7 pixels!). We need the features from the last convolution layer to contain information about the totality of the input.

Layer (type) Output Shape Param #
================================================================
conv2d_4 (Conv2D) (None, 26, 26, 32) 320
________________________________________________________________
conv2d_5 (Conv2D) (None, 24, 24, 64) 18496
________________________________________________________________
conv2d_6 (Conv2D) (None, 22, 22, 64) 36928
================================================================
Total params: 55,744
Trainable params: 55,744
Non-trainable params: 0

最佳答案

我假设你的 cnn 架构只有 3*3 内核。

得益于 3*3 内核,第一层根据您的输入创建特征映射。这些特征图的每个像素仅依赖于输入的 3*3 正方形。第二层正在做完全相同的事情,将特征图作为输入。所以现在,一个像素依赖于特征图的 3*3 正方形,而特征图又依赖于输入的 5*5 正方形。

通过第三次这样做,第三层特征图上的像素仅依赖于输入的 7*7 窗口。

这是一个一维示例:

        *            # third layer pixel
| | |
* * * # second layer pixels
| | | | |
* * * * * # first layer pixels
| | | | | | |
* * * * * * * # input pixels --> An unique third layer layer pixel depends on only 7 input pixels

关于machine-learning - CNN网络,继续使用conv2d,不使用maxpool,阅读keras书的一个问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54908666/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com