Backbone网络-DenseNet论文解读-6ren

Backbone网络-DenseNet论文解读

转载作者：我是一只小鸟更新时间：2022-12-14 22:31:43

摘要

ResNet 的工作表面，只要建立前面层和后面层之间的“短路连接”（shortcut），就能有助于训练过程中梯度的反向传播，从而能训练出更“深”的 CNN 网络。 DenseNet 网络的基本思路和 ResNet 一致，但是它建立的是前面所有层与后面层的密集连接（dense connection）。传统的 \(L\) 层卷积网络有 \(L\) 个连接——每一层与它的前一层和后一层相连—，而 DenseNet 网络有 \(L(L+1)/2\) 个连接.

在 DenseNet 中，让网络中的每一层都直接与其前面层相连，实现特征的重复利用；同时把网络的每一层设计得特别“窄”（特征图/滤波器数量少），即只学习非常少的特征图（最极端情况就是每一层只学习一个特征图），达到降低冗余性的目的.

网络结构

DenseNet 模型主要是由 DenseBlock 组成的.

用公式表示，传统直连（ plain ）的网络在 \(l\) 层的输出为:

\[\mathrm{x}_l = H_l(\mathrm{\mathrm{x}}_l-1) \]

对于残差块（residual block）结构，增加了一个恒等映射（ shortcut 连接）:

\[\mathrm{x}_l = H_l(\mathrm{\mathrm{x}}_l-1) + \mathrm{x}_{l-1} \]

而在密集块（ DenseBlock ）结构中，每一层都会将前面所有层 concate 后作为输入:

\[\mathrm{x}_l = H_l([\mathrm{\mathrm{x_0},\mathrm{x_1},...,\mathrm{x_{l-1}}]}) \]

\([\mathrm{\mathrm{x_0},\mathrm{x_1},...,\mathrm{x_{l-1}}]}\) 表示网络层 \(0,...,l-1\) 输出特征图的拼接。这里暗示了，在 DenseBlock 中，每个网络层的特征图大小是一样的。 \(H_l(\cdot)\) 是非线性转化函数（non-liear transformation），它由 BN( Batch Normalization )，ReLU 和 Conv 层组合而成.

DenseBlock 的结构图如下图所示.

densenet-block结构图

在 DenseBlock 的设计中，作者重点提到了一个参数 \(k\) ，被称为网络的增长率（ growth of the network ），其实是 DenseBlock 中任何一个 \(3\times 3\) 卷积层的滤波器个数（输出通道数）。如果每个 \(H_l(\cdot)\) 函数都输出 \(k\) 个特征图，那么第 \(l\) 层的输入特征图数量为 \(k_0 + k\times (l-1)\) ， \(k_0\) 是 DenseBlock 的输入特征图数量（即第一个卷积层的输入通道数）。 DenseNet 网络和其他网络最显著的区别是， \(k\) 值可以变得很小，比如 \(k=12\) ，即网络变得很“窄”，但又不影响精度。如表 4 所示.

densenet对比实验结果

为了在 DenseNet 网络中，保持 DenseBlock 的卷积层的 feature map 大小一致，作者在两个 DenseBlock 中间插入 transition 层。其由 \(2\times 2\) average pool, stride=2，和 \(1\times 1\) conv 层组合而成，具体为 BN + ReLU + 1x1 Conv + 2x2 AvgPooling 。 transition 层完成降低特征图大小和降维的作用.

CNN 网络一般通过 Pooling 层或者 stride>1 的卷积层来降低特征图大小（比如 stride=2 的 3x3 卷积层），。

下图给出了一个 DenseNet 的网路结构，它共包含 3 个（一半用 4 个） DenseBlock ，各个 DenseBlock 之间通过 Transition 连接在一起.

densenet网络结构图

和 ResNet 一样， DenseNet 也有 bottleneck 单元，来适应更深的 DenseNet 。 Bottleneck 单元是 BN-ReLU-Conv(1x1)-BN-ReLU-Conv(3x3)这样连接的结构，作者将具有 bottleneck 的密集单元组成的网络称为 DenseNet-B .

Bottleneck 译为瓶颈，一端大一端小，对应着 1x1 卷积通道数多，3x3 卷积通道数少.

对于 ImageNet 数据集，图片输入大小为 \(224\times 224\) ，网络结构采用包含 4 个 DenseBlock 的 DenseNet-BC ，网络第一层是 stride=2 的 \(7\times 7\) 卷积层，然后是一个 stride=2 的 \(3\times 3\) MaxPooling 层，而后是 DenseBlock 。 ImageNet 数据集所采用的网络配置参数表如表 1 所示:

densenet系列网络参数表

网络中每个阶段卷积层的 feature map 数量都是 32 .

优点

省参数
省计算
抗过拟合

注意，后续的 VoVNet 证明了，虽然 DenseNet 网络参数量少，但是其推理效率却不高.

在 ImageNet 分类数据集上达到同样的准确率， DenseNet 所需的参数量和计算量都不到 ResNet 的一半。对于工业界而言，小模型（参数量少）可以显著地节省带宽，降低存储开销 .

参数量少的模型，计算量肯定也少.

作者通过实验发现， DenseNet 不容易过拟合，这在数据集不是很大的情况下表现尤为突出。在一些图像分割和物体检测的任务上，基于 DenseNet 的模型往往可以省略在 ImageNet 上的预训练，直接从随机初始化的模型开始训练，最终达到相同甚至更好的效果.

对于 DenseNet 抗过拟合的原因，作者给出的比较直观的解释是：神经网络每一层提取的特征都相当于对输入数据的一个非线性变换，而随着深度的增加，变换的复杂度也逐渐增加（更多非线性函数的复合）。相比于一般神经网络的分类器直接依赖于网络最后一层（复杂度最高）的特征，DenseNet 可以综合利用浅层复杂度低的特征，因而更容易得到一个光滑的具有更好泛化性能的决策函数.

DenseNet 的泛化性能优于其他网络是可以从理论上证明的：去年的一篇几乎与 DenseNet 同期发布在 arXiv 上的论文（AdaNet: Adaptive Structural Learning of Artificial Neural Networks）所证明的结论（见文中 Theorem 1）表明类似于 DenseNet 的网络结构具有更小的泛化误差界.

代码

作者开源的 DenseNet 提高内存效率版本的代码如下.

                        
                          # This implementation is based on the DenseNet-BC implementation in torchvision
# https://github.com/pytorch/vision/blob/master/torchvision/models/densenet.py

import math
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.utils.checkpoint as cp
from collections import OrderedDict


def _bn_function_factory(norm, relu, conv):
    def bn_function(*inputs):
        concated_features = torch.cat(inputs, 1)
        bottleneck_output = conv(relu(norm(concated_features)))
        return bottleneck_output

    return bn_function


class _DenseLayer(nn.Module):
    def __init__(self, num_input_features, growth_rate, bn_size, drop_rate, efficient=False):
        super(_DenseLayer, self).__init__()
        self.add_module('norm1', nn.BatchNorm2d(num_input_features)),
        self.add_module('relu1', nn.ReLU(inplace=True)),
        self.add_module('conv1', nn.Conv2d(num_input_features, bn_size * growth_rate,
                        kernel_size=1, stride=1, bias=False)),
        self.add_module('norm2', nn.BatchNorm2d(bn_size * growth_rate)),
        self.add_module('relu2', nn.ReLU(inplace=True)),
        self.add_module('conv2', nn.Conv2d(bn_size * growth_rate, growth_rate,
                        kernel_size=3, stride=1, padding=1, bias=False)),
        self.drop_rate = drop_rate
        self.efficient = efficient

    def forward(self, *prev_features):
        bn_function = _bn_function_factory(self.norm1, self.relu1, self.conv1)
        if self.efficient and any(prev_feature.requires_grad for prev_feature in prev_features):
            bottleneck_output = cp.checkpoint(bn_function, *prev_features)
        else:
            bottleneck_output = bn_function(*prev_features)
        new_features = self.conv2(self.relu2(self.norm2(bottleneck_output)))
        if self.drop_rate > 0:  # 加入 dropout 增加模型泛化能力
            new_features = F.dropout(new_features, p=self.drop_rate, training=self.training)
        return new_features


class _Transition(nn.Sequential):
    def __init__(self, num_input_features, num_output_features):
        super(_Transition, self).__init__()
        self.add_module('norm', nn.BatchNorm2d(num_input_features))
        self.add_module('relu', nn.ReLU(inplace=True))
        self.add_module('conv', nn.Conv2d(num_input_features, num_output_features,
                                          kernel_size=1, stride=1, bias=False))
        self.add_module('pool', nn.AvgPool2d(kernel_size=2, stride=2))


class _DenseBlock(nn.Module):
    def __init__(self, num_layers, num_input_features, bn_size, growth_rate, drop_rate, efficient=False):
        super(_DenseBlock, self).__init__()
        for i in range(num_layers):
            layer = _DenseLayer(
                num_input_features + i * growth_rate,
                growth_rate=growth_rate,
                bn_size=bn_size,
                drop_rate=drop_rate,
                efficient=efficient,
            )
            self.add_module('denselayer%d' % (i + 1), layer)

    def forward(self, init_features):
        features = [init_features]
        for name, layer in self.named_children():
            new_features = layer(*features)
            features.append(new_features)
        return torch.cat(features, 1)


class DenseNet(nn.Module):
    r"""Densenet-BC model class, based on
    `"Densely Connected Convolutional Networks" <https://arxiv.org/pdf/1608.06993.pdf>`
    Args:
        growth_rate (int) - how many filters to add each layer (`k` in paper)
        block_config (list of 3 or 4 ints) - how many layers in each pooling block
        num_init_features (int) - the number of filters to learn in the first convolution layer
        bn_size (int) - multiplicative factor for number of bottle neck layers
            (i.e. bn_size * k features in the bottleneck layer)
        drop_rate (float) - dropout rate after each dense layer
        num_classes (int) - number of classification classes
        small_inputs (bool) - set to True if images are 32x32. Otherwise assumes images are larger.
        efficient (bool) - set to True to use checkpointing. Much more memory efficient, but slower.
    """
    def __init__(self, growth_rate=12, block_config=(16, 16, 16), compression=0.5,
                 num_init_features=24, bn_size=4, drop_rate=0,
                 num_classes=10, small_inputs=True, efficient=False):

        super(DenseNet, self).__init__()
        assert 0 < compression <= 1, 'compression of densenet should be between 0 and 1'

        # First convolution
        if small_inputs:
            self.features = nn.Sequential(OrderedDict([
                ('conv0', nn.Conv2d(3, num_init_features, kernel_size=3, stride=1, padding=1, bias=False)),
            ]))
        else:
            self.features = nn.Sequential(OrderedDict([
                ('conv0', nn.Conv2d(3, num_init_features, kernel_size=7, stride=2, padding=3, bias=False)),
            ]))
            self.features.add_module('norm0', nn.BatchNorm2d(num_init_features))
            self.features.add_module('relu0', nn.ReLU(inplace=True))
            self.features.add_module('pool0', nn.MaxPool2d(kernel_size=3, stride=2, padding=1,
                                                           ceil_mode=False))

        # Each denseblock
        num_features = num_init_features
        for i, num_layers in enumerate(block_config):
            block = _DenseBlock(
                num_layers=num_layers,
                num_input_features=num_features,
                bn_size=bn_size,
                growth_rate=growth_rate,
                drop_rate=drop_rate,
                efficient=efficient,
            )
            self.features.add_module('denseblock%d' % (i + 1), block)
            num_features = num_features + num_layers * growth_rate
            if i != len(block_config) - 1:
                trans = _Transition(num_input_features=num_features,
                                    num_output_features=int(num_features * compression))
                self.features.add_module('transition%d' % (i + 1), trans)
                num_features = int(num_features * compression)

        # Final batch norm
        self.features.add_module('norm_final', nn.BatchNorm2d(num_features))

        # Linear layer
        self.classifier = nn.Linear(num_features, num_classes)

        # Initialization
        for name, param in self.named_parameters():
            if 'conv' in name and 'weight' in name:
                n = param.size(0) * param.size(2) * param.size(3)
                param.data.normal_().mul_(math.sqrt(2. / n))
            elif 'norm' in name and 'weight' in name:
                param.data.fill_(1)
            elif 'norm' in name and 'bias' in name:
                param.data.fill_(0)
            elif 'classifier' in name and 'bias' in name:
                param.data.fill_(0)

    def forward(self, x):
        features = self.features(x)
        out = F.relu(features, inplace=True)
        out = F.adaptive_avg_pool2d(out, (1, 1))
        out = torch.flatten(out, 1)
        out = self.classifier(out)
        return out

问题

1，这么多的密集连接，是不是全部都是必要的，有没有可能去掉一些也不会影响网络的性能?

作者回答：论文里面有一个热力图（ heatmap ），直观上刻画了各个连接的强度。从图中可以观察到网络中比较靠后的层确实也会用到非常浅层的特征.

注意，后续的改进版本 VoVNet 设计的 OSP 模块，去掉中间层的密集连接，只有最后一层聚合前面所有层的特征，并做了同一个实验。热力图的结果表明，去掉中间层的聚集密集连接后，最后一层的连接强度变得更好。同时，在 CIFAR-10 上和同 DenseNet 做了对比实验， OSP 的精度和 DenseBlock 相近，但是 MAC 减少了很多，这说明 DenseBlock 的这种密集连接会导致中间层的很多特征冗余的.

参考资料

CVPR 2017最佳论文作者解读：DenseNet 的“what”、“why”和“how”｜CVPR 2017
https://github.com/gpleiss/efficient_densenet_pytorch

最后此篇关于Backbone网络-DenseNet论文解读的文章就讲到这里了,如果你想了解更多关于Backbone网络-DenseNet论文解读的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐：重学c#系列——linq(2)[二十八]

文章推荐： Python：界面开发，wx入门篇

文章推荐：玩转Go生态｜HertzWebSocket扩展简析

文章推荐：详解视频中动作识别模型与代码实践

解读---深拷贝
引言深拷贝是指创建一个新对象，该对象的值与原始对象完全相同，但在内存中具有不同的地址。这意味着如果您对原始对象进行更改，则不会影响到复制的对象常见的C#常见的深拷贝方式有以下4类：
解读! Python在人工智能中的作用
人工智能是一种未来性的技术，目前正在致力于研究自己的一套工具。一系列的进展在过去的几年中发生了：无事故驾驶超过300000英里并在三个州合法行驶迎来了自动驾驶的一个里程碑；IBM Waston击败了
开源开发者指南：欧盟《人工智能法案》解读
非法律建议。欧盟《人工智能法案》 (EU AI Act) 是全球首部全面的人工智能立法，现已正式生效，它将影响我们开发和使用人工智能的方式——包括在开源社区中的实践。如果您是一位开源开发
here-api - 解读 HERE Maps 实时交通标签
我已经阅读了所有 HERE Maps API 文档，但找不到答案。 HERE实时流量REST API输出中的XML标签是什么意思？有谁知道如何解释这个输出(我在我的请求中使用了接近参数)？最佳答
iphone - 解读 iOS 崩溃报告
我的 iPad 应用程序工作正常，我将其留在现场进行测试，但现在崩溃了[保存时？] 这是崩溃日志， Incident Identifier: 80FC6810-9604-4EBA-A982-2009A
c - 解读 qsort 行为
我的程序需要 qsort 的功能才能运行，但到目前为止还没有完成它的工作。我实际上是在对单个字符值的数组进行排序，以便将它们分组，这样我就可以遍历数组并确定每个属性的计数。我的问题是 qsort 返
java - 解读 Java 中面向对象的编程概念
就目前情况而言，这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放，visit
c - 解读 Atmega328p 数据表
我正在尝试使用 AVR 代码对 Arduino Uno 进行编程，因为我不被允许在 9 月份开始的高级项目中使用 Arduino 库。我找到了数据表，让数字引脚正常工作，然后尝试通过 USB 串行连接
ios - 解读 iOS 崩溃报告
我遇到了多次崩溃，似乎 native iOS 方法正在从第三方库调用函数。这是一个例子: Thread: Unknown Name (Crashed) 0 libsystem_kernel.d
java - 解读 Dijkstra 算法
我理解如何按照 Dijkstra 算法的解释找到从头到尾的最短路径，但我不明白的是解释。在这里，从图中的图形来看，从 A 到 E 添加到我已知集合的顺序是 A,C,B,D,F,H,G,E 我没有得到的
python - 解读 Django 源代码
我正在查看一些 Django 源代码并遇到了 this . encoding = property(lambda self: self.file.encoding) 究竟是做什么的？最佳答案其他两
python - 解读 Sentry 频率图
Sentry 提供了很好的图表来显示消息频率，但关于它们实际显示的内容的信息很少。这些信息是每分钟吗？ 5分钟？ 15分钟？小时？最佳答案此图表按分钟显示。这是负责存储该图数据的模型。 http
javascript - 解读 Uniswap V3 价格
我对 JavaScript 和 Uniswap 还很陌生。我正在使用 Uniswap V3 从 DAI/USDC 池中获取价格。我的“主要”功能如下所示: async function main()
javascript - 解读 JavaScript(可能是俄语 Javascript？)
我正在尝试弄清楚我下载的 Chrome 扩展程序是如何工作的(这是骗子用来窃取 CS:GO 元素的东西，并不重要...)。我想知道使用什么电子邮件地址(或使用什么其他通信方式)来提交被钓鱼的数据。这
解读---System.Windows.Forms.Timer是前台线程吗?
引言今天同事问了我一个问题， System.Windows.Forms.Timer 是前台线程还是后台线程，我当时想的是它是跟着UI线程一起结束的，应该是前台线程吧？我确实没有仔
scipy - 解读 Scipy 函数的含义和用法 t.interval()
我需要一些使用 scipy.stats.t.interval() 函数的帮助 http://docs.scipy.org/doc/scipy/reference/generated/scipy.sta
sql - 解读 Oracle 查询计划中的 HASH JOIN
当我在 Oracle 查询计划中看到类似的内容时: HASH JOIN TABLE1 TABLE2 这两个表中的哪一个是 hashed ? Oracle 文档指的是通常被散列的“较小”
python - 解读 sklearns 的 GridSearchCV 最好成绩
我想知道 GridSearchCV 返回的分数与按如下方式计算的 R2 指标之间的差异。在其他情况下，我收到的网格搜索分数非常负(同样适用于 cross_val_score)，我将不胜感激解释它是什么
多主架构：VLDB技术论文《TaurusMM:bringingmulti-mastertothecloud》解读
本文分享自华为云社区《多主创新，让云数据库性能更卓越》，作者： GaussDB 数据库。华为《Taurus MM: bringing multi-master to the clou
objective-c - 解读 Mac OS X 崩溃报告
我真的需要一些帮助来破译这个崩溃报告: Process: Farm Hand [616] Path: /Applications/Farm

我是一只小鸟

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城