neural-network - Resnet-18 作为 Faster R-CNN 的主干-6ren

neural-network - Resnet-18 作为 Faster R-CNN 的主干

转载作者：行者123 更新时间：2023-12-03 23:21:02

我用 pytorch 编码，我想使用 resnet-18 作为 Faster R-RCNN 的主干。当我打印 resnet18 的结构时，这是输出:

>>import torch
>>import torchvision
>>import numpy as np
>>import torchvision.models as models

>>resnet18 = models.resnet18(pretrained=False)
>>print(resnet18)


ResNet(
  (conv1): Conv2d(3, 64, kernel_size=(7, 7), stride=(2, 2), padding=(3, 3), bias=False)
  (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  (relu): ReLU(inplace=True)
  (maxpool): MaxPool2d(kernel_size=3, stride=2, padding=1, dilation=1, ceil_mode=False)
  (layer1): Sequential(
    (0): BasicBlock(
      (conv1): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (relu): ReLU(inplace=True)
      (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn2): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    )
    (1): BasicBlock(
      (conv1): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (relu): ReLU(inplace=True)
      (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn2): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    )
  )
  (layer2): Sequential(
    (0): BasicBlock(
      (conv1): Conv2d(64, 128, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False)
      (bn1): BatchNorm2d(128, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (relu): ReLU(inplace=True)
      (conv2): Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn2): BatchNorm2d(128, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (downsample): Sequential(
        (0): Conv2d(64, 128, kernel_size=(1, 1), stride=(2, 2), bias=False)
        (1): BatchNorm2d(128, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      )
    )
    (1): BasicBlock(
      (conv1): Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn1): BatchNorm2d(128, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (relu): ReLU(inplace=True)
      (conv2): Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn2): BatchNorm2d(128, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    )
  )
  (layer3): Sequential(
    (0): BasicBlock(
      (conv1): Conv2d(128, 256, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False)
      (bn1): BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (relu): ReLU(inplace=True)
      (conv2): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn2): BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (downsample): Sequential(
        (0): Conv2d(128, 256, kernel_size=(1, 1), stride=(2, 2), bias=False)
        (1): BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      )
    )
    (1): BasicBlock(
      (conv1): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn1): BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (relu): ReLU(inplace=True)
      (conv2): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn2): BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    )
  )
  (layer4): Sequential(
    (0): BasicBlock(
      (conv1): Conv2d(256, 512, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False)
      (bn1): BatchNorm2d(512, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (relu): ReLU(inplace=True)
      (conv2): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn2): BatchNorm2d(512, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (downsample): Sequential(
        (0): Conv2d(256, 512, kernel_size=(1, 1), stride=(2, 2), bias=False)
        (1): BatchNorm2d(512, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      )
    )
    (1): BasicBlock(
      (conv1): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn1): BatchNorm2d(512, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (relu): ReLU(inplace=True)
      (conv2): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn2): BatchNorm2d(512, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    )
  )
  (avgpool): AdaptiveAvgPool2d(output_size=(1, 1))
  (fc): Linear(in_features=512, out_features=1000, bias=True)
)

我的问题是，直到哪一层是特征提取器？ AdaptiveAvgPool2d 应该是 Faster R-CNN 的主干的一部分吗？

在 this toturial 中，展示了如何用任意主干训练 Mask R-CNN，我想用 Faster R-CNN 做同样的事情并用 resnet-18 训练一个 Faster R-CNN，但直到哪一层应该是特征提取器让我感到困惑。

我知道如何使用 resnet+Feature Pyramid Network 作为主干，我的问题是关于 resent。

最佳答案

如果我们想使用自适应平均池化的输出，我们对不同的 Resnet 使用此代码:

# backbone
        if backbone_name == 'resnet_18':
            resnet_net = torchvision.models.resnet18(pretrained=True)
            modules = list(resnet_net.children())[:-1]
            backbone = nn.Sequential(*modules)
            backbone.out_channels = 512
        elif backbone_name == 'resnet_34':
            resnet_net = torchvision.models.resnet34(pretrained=True)
            modules = list(resnet_net.children())[:-1]
            backbone = nn.Sequential(*modules)
            backbone.out_channels = 512
        elif backbone_name == 'resnet_50':
            resnet_net = torchvision.models.resnet50(pretrained=True)
            modules = list(resnet_net.children())[:-1]
            backbone = nn.Sequential(*modules)
            backbone.out_channels = 2048
        elif backbone_name == 'resnet_101':
            resnet_net = torchvision.models.resnet101(pretrained=True)
            modules = list(resnet_net.children())[:-1]
            backbone = nn.Sequential(*modules)
            backbone.out_channels = 2048
        elif backbone_name == 'resnet_152':
            resnet_net = torchvision.models.resnet152(pretrained=True)
            modules = list(resnet_net.children())[:-1]
            backbone = nn.Sequential(*modules)
            backbone.out_channels = 2048
        elif backbone_name == 'resnet_50_modified_stride_1':
            resnet_net = resnet50(pretrained=True)
            modules = list(resnet_net.children())[:-1]
            backbone = nn.Sequential(*modules)
            backbone.out_channels = 2048
        elif backbone_name == 'resnext101_32x8d':
            resnet_net = torchvision.models.resnext101_32x8d(pretrained=True)
            modules = list(resnet_net.children())[:-1]
            backbone = nn.Sequential(*modules)
            backbone.out_channels = 2048

如果我们想使用卷积特征图，我们使用以下代码:

 # backbone
        if backbone_name == 'resnet_18':
            resnet_net = torchvision.models.resnet18(pretrained=True)
            modules = list(resnet_net.children())[:-2]
            backbone = nn.Sequential(*modules)

        elif backbone_name == 'resnet_34':
            resnet_net = torchvision.models.resnet34(pretrained=True)
            modules = list(resnet_net.children())[:-2]
            backbone = nn.Sequential(*modules)

        elif backbone_name == 'resnet_50':
            resnet_net = torchvision.models.resnet50(pretrained=True)
            modules = list(resnet_net.children())[:-2]
            backbone = nn.Sequential(*modules)

        elif backbone_name == 'resnet_101':
            resnet_net = torchvision.models.resnet101(pretrained=True)
            modules = list(resnet_net.children())[:-2]
            backbone = nn.Sequential(*modules)

        elif backbone_name == 'resnet_152':
            resnet_net = torchvision.models.resnet152(pretrained=True)
            modules = list(resnet_net.children())[:-2]
            backbone = nn.Sequential(*modules)

        elif backbone_name == 'resnet_50_modified_stride_1':
            resnet_net = resnet50(pretrained=True)
            modules = list(resnet_net.children())[:-2]
            backbone = nn.Sequential(*modules)

        elif backbone_name == 'resnext101_32x8d':
            resnet_net = torchvision.models.resnext101_32x8d(pretrained=True)
            modules = list(resnet_net.children())[:-2]
            backbone = nn.Sequential(*modules)

关于neural-network - Resnet-18 作为 Faster R-CNN 的主干，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58362892/

文章推荐： asp.net-mvc - 如何在 Rider 中启用 View 热重载？

文章推荐： scheme - 如何在 Racket 中安装 sicp 包模块？

neural-network - Vowpal 兔 : Input of neural network?
在机器学习工具 vowpal wabbit ( https://github.com/JohnLangford/vowpal_wabbit/ ) 中，通常训练线性估计器 y*=wx。但是，可以添加前向
deep-learning - 什么是更好的选择 : A wide neural network or a deep neural network?
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 2 年前。 Improve this qu
neural-network - 如何将深度学习梯度下降方程转化为python
我一直在关注有关深度学习的在线教程。它有一个关于梯度下降和成本计算的实际问题，一旦它被转换为 python 代码，我就一直在努力获得给定的答案。希望你能帮我得到正确的答案请参阅以下链接以了解所使用的
neural-network - 我是否必须使用神经网络预处理测试数据？
我正在使用 Keras(2.0.0 版)，我想使用预训练模型，例如VGG16。为了开始，我运行了 [Keras 文档站点 ][ https://keras.io/applications/] 的示例使
neural-network - 为什么神经网络损失函数总是正的
我正在努力填补我的知识空白。在查看神经网络的大多数损失函数时，例如 mse、mae、L1、L2，损失总是记录为正值。我不明白的是为什么？为了根据需要提高或降低网络的权重，损失函数不应该具有正值或负值吗
neural-network - 为孪生网络中的对比损失选择边际
我正在为度量学习任务构建孪生网络，使用对比损失函数，但我不确定如何为损失设置“ margin ”超参数。我对损失函数的输入目前是来自 RNN 层的 1024 维密集嵌入 - 该输入的维数会影响我选择
neural-network - 为什么神经网络不是凸的？
与线性回归和逻辑回归不同，人工神经网络的成本函数不是凸函数，因此容易受到局部最优的影响。谁能直观地说明为什么 ANN 会出现这种情况，以及为什么不能修改假设以产生凸函数？最佳答案我在这里找到了充分
neural-network - 为什么需要自组织映射中的迭代次数？
:) 当我为我的论文提案辩护时，我的一位教授问我为什么我们必须在 SOM 中指定迭代次数？他说，我们停止训练应该有一个收敛标准。但是，据我所知，我们没有目标向量，因此我们无法将成本降至最低。我的问
neural-network - 高效计算任意神经网络输出？
我正在学习神经网络，它们是我遇到的一些最巧妙的东西。我的问题是:如何计算具有任意拓扑结构的神经网络的输出？是否有一些算法或经验法则可供使用？例如，我知道前馈网络具有简单的矩阵表示，但是具有循环或输
neural-network - 如何一起使用word2vec和RNN？
因此，我在 Java 中使用 word2vec，并尝试以某种方式对其进行训练，以便它为我提供单词和句子的向量表示。我可以使用它来将输入馈送到神经网络，以根据 word2vec 数据获得响应吗？我打算
neural-network - 通过神经网络回归最大函数
我正在通过学习神经网络来训练自己。有一个函数我无法让我的神经网络学习:f(x) = max(x_1, x_2)。这似乎是一个非常简单的函数，有 2 个输入和 1 个输入，但是一个 3 层神经网络训
neural-network - 自组织映射
我有一个关于自组织映射的问题: 但首先，这是我实现一个的方法: som 神经元存储在一个基本数组中。每个神经元由一个向量(输入神经元大小的另一个数组)组成， double 值被初始化为一个随机值。据
neural-network - 训练精度在某些时期下降
我正在训练一个 ResNet(CIFAR-10 数据集)，训练的准确度大部分(在 95% 的时期)都在增加，但有时会下降 5-10%，然后又开始增加。这是一个例子: Epoch 45/100 400
neural-network - 神经网络反向传播？
任何人都可以推荐一个网站或给我简要介绍一下在神经网络中反向传播是如何实现的吗？我了解基本概念，但不确定如何编写代码。我发现的许多资源只是简单地展示了方程式，而没有给出任何解释他们为什么这样做，而且变
neural-network - 具有多个隐藏层的Weka多感知器
我正在尝试在Weka Knowledge Flow中使用Multi-Perceptron。在附件中，您可以看到块的设置。如帮助中所写: “hiddenLayers-定义神经网络的隐藏层。这是一个正整
neural-network - 在运动控制中使用神经网络
我正在构建一个自平衡两轮机器人。我一直计划为平衡部分实现一个简单的算法 - 然后花几天时间调整算法，但现在我有了可以改用神经网络的想法。作为输入，我想给它提供与平衡相关的维度中的车轮、陀螺仪和加速度
neural-network - 神经网络和异或函数
我正在使用我自己实现的神经网络:它是一个简单的前向网络，使用 RPROP 作为学习算法，作为与基本设计相比唯一的“优势”。当我针对 MNIST 对其进行测试或尝试进行图像压缩时，网络得分不错，但是当
neural-network - yolo对象检测算法如何进行迁移学习？
我已经成功训练 yolo 使用 this article 预测我自己的图像.在那里，我在我的 cfg 文件的第 224 行将 classes = 5(我训练了 5 个类别)和过滤器更改为 50。我想
neural-network - 为什么我们在计算反向传播算法时要取传递函数的导数？
取导数背后的概念是什么？有趣的是，为了以某种方式教授一个系统，我们必须调整它的权重。但是为什么我们要使用传递函数的推导来做这件事。推导中的什么对我们有帮助。我知道推导是给定点连续函数的斜率，但这与问题
neural-network - 为什么我的神经网络在第一个时期后停留在高损失值上
我正在使用神经网络进行回归。对于 NN 来说，这应该是一项简单的任务，我有 10 个特征和 1 个要预测的输出。我在我的项目中使用 pytorch，但我的模型学习不好。损失从一个非常高的值(40000

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

neural-network - Resnet-18 作为 Faster R-CNN 的主干