gpt4 book ai didi

python - 了解 Conv2d 的输入和输出大小

转载 作者:行者123 更新时间:2023-12-05 02:01:02 26 4
gpt4 key购买 nike

我正在使用 PyTorch 学习图像分类(使用 CIFAR-10 数据集)following this link .

我试图理解给定 Conv2d 代码的输入和输出参数:

import torch.nn as nn
import torch.nn.functional as F

class Net(nn.Module):
def __init__(self):
super(Net, self).__init__()
self.conv1 = nn.Conv2d(3, 6, 5)
self.pool = nn.MaxPool2d(2, 2)
self.conv2 = nn.Conv2d(6, 16, 5)
self.fc1 = nn.Linear(16 * 5 * 5, 120)
self.fc2 = nn.Linear(120, 84)
self.fc3 = nn.Linear(84, 10)

def forward(self, x):
x = self.pool(F.relu(self.conv1(x)))
x = self.pool(F.relu(self.conv2(x)))
x = x.view(-1, 16 * 5 * 5)
x = F.relu(self.fc1(x))
x = F.relu(self.fc2(x))
x = self.fc3(x)
return x

net = Net()

我对 conv2d() 的理解(如有错误/遗漏请更正):

  • 因为图像有 3 个 channel ,所以第一个参数是 36 是没有过滤器(随机选择)
  • 5 是内核大小 (5, 5)(随机选择)
  • 同样我们创建下一层(上一层的输出是这一层的输入)
  • 现在使用 linear 函数创建一个全连接层:self.fc1 = nn.Linear(16 * 5 * 5, 120)

16 * 5 * 5:这里的16是最后一个conv2d层的输出,但是5 * 5是什么?

这是内核大小吗?或者是其他东西?如何知道我们需要乘以 5*5 或 4*4 或 3*3......

我研究并了解到,由于图像大小是 32*32,应用 max pool(2) 2 次,所以图像大小将是 32 -> 16 -> 8,所以我们应该将它乘以 last_ouput_size * 8 * 8 但是在这个链接中它是 5*5

谁能解释一下?

最佳答案

这些是图像尺寸本身的尺寸(即高度 x 宽度)。

未填充的卷积

除非您用零填充图像,否则卷积过滤器会将输出图像的大小在高度和宽度上缩小 filter_size - 1:

<表类="s-表"><头><日> enter image description here <日> enter image description here <正文>3-filter 将 5x5 图像转换为 (5-(3-1) x 5-(3-1)) 图像零填充保留图像尺寸

您可以通过设置 Conv2d(padding=...) 在 Pytorch 中添加填充。

转换链

因为它已经经历了:

<表类="s-表"><头>图层形状变换<正文>一个conv层(没有padding) (h, w) -> (h-4, w-4)一个最大矿池 -> ((h-4)//2, (w-4)//2)另一个conv层(没有填充) -> ((h-8)//2, (w-8)//2)另一个MaxPool -> ((h-8)//4, (w-8)//4)扁平化 -> ((h-8)//4 * (w-8)//4)

我们从原始图像大小 (32,32)(28,28)(14,14)(10,10)(5,5)(5x5)


要将其可视化,您可以使用 torchsummary 包:

from torchsummary import summary

input_shape = (3,32,32)
summary(Net(), input_shape)
----------------------------------------------------------------
Layer (type) Output Shape Param #
================================================================
Conv2d-1 [-1, 6, 28, 28] 456
MaxPool2d-2 [-1, 6, 14, 14] 0
Conv2d-3 [-1, 16, 10, 10] 2,416
MaxPool2d-4 [-1, 16, 5, 5] 0
Linear-5 [-1, 120] 48,120
Linear-6 [-1, 84] 10,164
Linear-7 [-1, 10] 850
================================================================

关于python - 了解 Conv2d 的输入和输出大小,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66849867/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com