python - 了解 Conv2d 的输入和输出大小-6ren

python - 了解 Conv2d 的输入和输出大小

转载作者：行者123 更新时间：2023-12-05 02:01:02

26

4

我正在使用 PyTorch 学习图像分类(使用 CIFAR-10 数据集)following this link .

我试图理解给定 Conv2d 代码的输入和输出参数:

import torch.nn as nn
import torch.nn.functional as F

class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = nn.Conv2d(3, 6, 5)
        self.pool = nn.MaxPool2d(2, 2)
        self.conv2 = nn.Conv2d(6, 16, 5)
        self.fc1 = nn.Linear(16 * 5 * 5, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)

    def forward(self, x):
        x = self.pool(F.relu(self.conv1(x)))
        x = self.pool(F.relu(self.conv2(x)))
        x = x.view(-1, 16 * 5 * 5)
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x

net = Net()

我对 conv2d() 的理解(如有错误/遗漏请更正):

因为图像有 3 个 channel ，所以第一个参数是 3。6 是没有过滤器(随机选择)
5 是内核大小 (5, 5)(随机选择)
同样我们创建下一层(上一层的输出是这一层的输入)
现在使用 linear 函数创建一个全连接层:self.fc1 = nn.Linear(16 * 5 * 5, 120)

16 * 5 * 5:这里的16是最后一个conv2d层的输出，但是5 * 5是什么？

这是内核大小吗？或者是其他东西？如何知道我们需要乘以 5*5 或 4*4 或 3*3......

我研究并了解到，由于图像大小是 32*32，应用 max pool(2) 2 次，所以图像大小将是 32 -> 16 -> 8，所以我们应该将它乘以 last_ouput_size * 8 * 8 但是在这个链接中它是 5*5。

谁能解释一下？

最佳答案

这些是图像尺寸本身的尺寸(即高度 x 宽度)。

未填充的卷积

除非您用零填充图像，否则卷积过滤器会将输出图像的大小在高度和宽度上缩小 filter_size - 1:

<表类="s-表"><头><日>

<日>

<正文>3-filter 将 5x5 图像转换为 (5-(3-1) x 5-(3-1)) 图像零填充保留图像尺寸

您可以通过设置 Conv2d(padding=...) 在 Pytorch 中添加填充。

转换链

因为它已经经历了:

<表类="s-表"><头>图层形状变换<正文>一个conv层(没有padding) (h, w) -> (h-4, w-4)一个最大矿池 -> ((h-4)//2, (w-4)//2)另一个conv层(没有填充) -> ((h-8)//2, (w-8)//2)另一个MaxPool -> ((h-8)//4, (w-8)//4)扁平化 -> ((h-8)//4 * (w-8)//4)

我们从原始图像大小 (32,32) 到 (28,28) 到 (14,14) 到(10,10) 到 (5,5) 到 (5x5)。

要将其可视化，您可以使用 torchsummary 包:

from torchsummary import summary

input_shape = (3,32,32)
summary(Net(), input_shape)

----------------------------------------------------------------
        Layer (type)               Output Shape         Param #
================================================================
            Conv2d-1            [-1, 6, 28, 28]             456
         MaxPool2d-2            [-1, 6, 14, 14]               0
            Conv2d-3           [-1, 16, 10, 10]           2,416
         MaxPool2d-4             [-1, 16, 5, 5]               0
            Linear-5                  [-1, 120]          48,120
            Linear-6                   [-1, 84]          10,164
            Linear-7                   [-1, 10]             850
================================================================

关于python - 了解 Conv2d 的输入和输出大小，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/66849867/

26

4

0

文章推荐： Python 应用程序框架在应用程序内部创建 webview

文章推荐： javascript - etherscan-api 不输出挂起的交易

文章推荐： android-studio - Kotlin Multiplatform Mobile 找不到 klib 包

文章推荐： node.js - Node 版本管理器在 M1 Macbook Air 上运行非常慢

以太坊DAPP——了解
我开始在 Ethereum blockchain 上了解如何开发智能合约以及如何写 web-script用于与智能合约交互(购买、销售、统计......)我得出了该怎么做的结论。我想知道我是否正确理解
uiview - 了解 CATransform3D
我正在 UIView 中使用 CATransform3DMakeRotation，并且我正在尝试进行 45º，变换就像向后放置一样: 这是我拥有的“代码”，但显然没有这样做。 CATransform3
webrtc - 了解 WebRTC
我目前正在测试 WebRTC 的功能，但我有一些脑逻辑问题。 WebRTC 究竟是什么？我只读了“STUN”、“P2P”和其他...但是在技术方面什么是正确的 WebRTC(见下一个) 我需要什么
scala - 了解 DelayedInit
我在看 DelayedInit在 Scala in Depth ... 注释是我对代码的理解。下面的 trait 接受一个非严格计算的参数(由于 => )，并返回 Unit .它的行为类似于构造函数
wcf - 了解 WCF
谁能给我指出一个用图片和简单的代码片段解释 WCF 的资源。我厌倦了谷歌搜索并在所有搜索结果中找到相同的“ABC”文章。最佳答案 WCF 是一项非常复杂的技术，在我看来，它的文档记录非常少。启动和运
haskell - 了解 `getArgs`
我期待以下 GetArgs.hs打印出传递给它的参数。 import System.Environment main = do args main 3 4 3 :39:1: Coul
opengl - 了解 glVertexAttribPointer？
private int vbo; private int ibo; vbo = glGenBuffers(); ibo = glGenBuffers(); glBindBuffer(GL_ARRAY_
loops - 了解 For 循环
我正在尝试一个 for 循环。我添加了一个 if 语句以在循环达到 30 时停止循环。我见过i <= 10将运行 11 次，因为循环在达到 10 次时仍会运行。如果有设置 i 的 if 语句，为什
wsgi - 了解 WSGI
我正在尝试了解 WSGI 的功能并需要一些帮助。到目前为止，我知道它是一种服务器和应用程序之间的中间件，用于将不同的应用程序框架(位于服务器端)与应用程序连接，前提是相关框架具有 WSGI 适配器。
javascript - 了解 while 循环
我是 Javascript 的新手，我正在尝试绕过 while 循环。我了解它们的目的，我想我了解它们的工作原理，但我在使用它们时遇到了麻烦。我希望 while 值自身重复，直到两个随机数相互匹配。
fabric - 了解 Fabric
我刚刚偶然发现Fabric并且文档并没有真正说明它是如何工作的。我有根据的猜测是您需要在客户端和服务器端都安装它。 Python 代码存储在客户端，并在命令运行时通过 Fabric 的有线协议(pr
.net - 了解 ConditionalWeakTable
我想了解 ConditionalWeakTable .和有什么区别 class ClassA { static readonly ConditionalWeakTable OtherClass
process - 了解 Scrum
关闭。这个问题需要更多focused .它目前不接受答案。想改善这个问题吗？更新问题，使其仅关注一个问题 editing this post . 5年前关闭。 Improve this questi
iphone - 了解 UIPickerView
我还没有成功找到任何可以引导我理解 UIPickerView 和 UIPickerView 模型的好例子。有什么建议吗？最佳答案为什么不使用默认的 Apple 文档示例？这是来自苹果文档的名为 U
haskell - 了解 `foldM`
我在看foldM为了获得关于如何使用它的直觉。 foldM :: Monad m => (a -> b -> m a) -> a -> [b] -> m a 在这个简单的例子中，我只返回 [Just
c++ - 了解 `_mm_prefetch`
答案What are _mm_prefetch() locality hints?详细说明提示的含义。我的问题是:我想要哪一个？我正在处理一个被重复调用数十亿次的函数，其中包含一些 int 参数。
.net - 了解 gcroot
我一直在读这个article了解 gcroot 模板。我明白 gcroot provides handles into the garbage collected heap 然后 the handle
debezium - 了解 Debezium
提供了一个用例: 流处理架构；事件进入 Kafka，然后由带有 MongoDB 接收器的作业进行处理。数据库名称:myWebsite集合:用户并且作业接收 users 集合中的 user 记录。
filesystems - 了解 NFS
你好我想更详细地了解 NFS 文件系统。我偶然发现了《NFS 图解》这本书，不幸的是它只能作为谷歌图书提供，所以有些页面丢失了。有人可能有另一个很好的资源，这将是在较低级别上了解 NFS 的良好开始
math - 了解 "randomness"
我无法理解这个问题，哪个更随机？ rand() 或: rand() * rand() 我发现这是一个真正的脑筋急转弯，你能帮我吗？编辑: 凭直觉，我知道数学答案是它们同样随机，但我忍不住认为，如果您

首页

博学

6Ren·AI

商城

python - 了解 Conv2d 的输入和输出大小

未填充的卷积

转换链