WTConv：小参数大感受野，基于小波变换的新型卷积|ECCV'24

转载作者：撒哈拉更新时间：2024-10-14 10:20:49

近年来，人们尝试增加卷积神经网络（CNN）的卷积核大小，以模拟视觉Transformer（ViTs）自注意力模块的全局感受野。然而，这种方法很快就遇到了上限，并在实现全局感受野之前就达到了饱和。论文证明通过利用小波变换（WT），实际上可以获得非常大的感受野，而不会出现过参数化的情况。例如，对于一个 $k \times k$ 的感受野，所提出方法中的可训练参数数量仅以 $k$ 进行对数增长。所提出的层命名为WTConv，可以作为现有架构中的替换，产生有效的多频响应，且能够优雅地随着感受野大小的变化而扩展。论文在ConvNeXt和MobileNetV2架构中展示了WTConv层在图像分类中的有效性，以及作为下游任务的主干网络，并且展示其具有其它属性，如对图像损坏的鲁棒性以及对形状相较于纹理的增强响应.

来源：晓飞的算法工程笔记公众号，转载请注明出处。

论文: Wavelet Convolutions for Large Receptive Fields 。

论文地址：https://arxiv.org/abs/2407.05848v2
论文代码：https://github.com/BGU-CS-VIL/WTConv

Introduction

在过去十年中，卷积神经网络（CNN）在许多计算机视觉领域占主导地位。尽管如此，随着视觉Transformer（ViTs）的出现（这是一种用于自然语言处理的Transformer架构的适应），CNN面临着激烈的竞争。具体而言，ViTs目前被认为相较于CNN具有优势的原因，主要归功于其多头自注意力层。该层促进了特征的全局混合，而卷积在结构上仅局限于特征的局部混合。因此，最近几项工作尝试弥补CNN和ViTs之间的性能差距。有研究重构了ResNet架构和其训练过程，以跟上Swin Transformer。“增强”的一个重要改进是增加卷积核的大小。然而，实证研究表明，这种方法在 $7\times7$ 的卷积核大小处就饱和了，这意味着进一步增加卷积核并没有帮助，甚至在某个时候开始出现性能恶化。虽然简单地将大小增加到超过 $7\times7$ 并没有用，但RepLKNet的研究已经表明，通过更好的构建可以从更大的卷积核中获益。然而，即便如此，卷积核最终仍然会变得过参数化，性能在达到全局感受野之前就会饱和.

在RepLKNet分析中，一个引人入胜的特性是，使用更大的卷积核使得卷积神经网络（CNN）对形状的偏向性更强，这意味着它们捕捉图像中低频信息的能力得到了增强。这个发现有些令人惊讶，因为卷积层通常倾向于对输入中的高频部分作出响应。这与注意力头不同，后者已知对低频更加敏感，这在其他研究中得到了证实.

上述讨论引发了一个自然的问题：能否利用信号处理工具有效地增加卷积的感受野，而不至于遭受过参数化的困扰？换句话说，能否使用非常大的滤波器（例如具有全局感受野的滤波器），同时提升性能？论文提出的方法利用了小波变换（WT），这是来自时频分析的一个成熟工具，旨在有效扩大卷积的感受野，并通过级联的方式引导CNN更好地响应低频信息。论文将解决方案基于小波变换（与例如傅里叶变换不同），因为小波变换保留了一定的空间分辨率。这使得小波域中的空间操作（例如卷积）更加具有意义.

更具体地说，论文提出了WTConv，这是一个使用级联小波分解的层，并执行一组小卷积核的卷积，每个卷积专注于输入的不同频率带，并具有越来越大的感受野。这个过程能够在输入中对低频信息给予更多重视，同时仅增加少量可训练参数。实际上，对于一个 $k\times k$ 的感受野，可训练参数数量只随着 $k$ 的增长而呈对数增长。而WTConv与常规方法的参数平方增长形成对比，能够获得有效的卷积神经网络（CNN），其有效感受野（ERF）大小前所未有，如图1所示.

WTConv作为深度可分离卷积的直接替代品，可以在任何给定的卷积神经网络（CNN）架构中直接使用，无需额外修改。通过将WTConv嵌入到ConvNeXt中进行图像分类，验证了WTConv的有效性，展示了其在基本视觉任务中的实用性。在此基础上，进一步利用ConvNeXt作为骨干网络，扩展评估到更复杂的应用中：在UperNet中进行语义分割，以及在Cascade Mask R-CNN中进行物体检测。此外，还分析了WTConv为CNN提供的额外好处.

论文的贡献总结如下:

一个新的层WTConv，利用小波变换（WT）有效地增加卷积的感受野.
WTConv被设计为在给定的卷积神经网络（CNN）中作为深度可分离卷积的直接替代.
广泛的实证评估表明，WTConv在多个关键计算机视觉任务中提升了卷积神经网络（CNN）的结果.
对WTConv在卷积神经网络（CNN）的可扩展性、鲁棒性、形状偏向和有效感受野（ERF）方面贡献的分析.

Method

Preliminaries: The Wavelet Transform as Convolutions

在这项工作中，采用Haar小波变换，因为它高效且简单。其他小波基底也可以使用，尽管计算成本会有所增加.

给定一个图像 $X$ ，在一个空间维度（宽度或高度）上的一层Haar小波变换由核为 $[1,1]/\sqrt{2}$ 和 $[1,-1]/\sqrt{2}$ 的深度卷积组成，之后是一个缩放因子为2的标准下采样操作。要执行2D Haar小波变换，在两个维度上组合该操作，即使用以下四组滤波器进行深度卷积，步距为2

\[\begin{align} \begin{split} f_{LL} = \frac{1}{2} \begin{bmatrix} 1 & 1 \\ 1 & 1 \end{bmatrix},\, f_{LH} = \frac{1}{2} \begin{bmatrix} 1 & -1 \\ 1 & -1 \end{bmatrix},\, f_{HL} = \frac{1}{2} \begin{bmatrix} \;\;1 & \;\;1 \\ -1 & -1 \end{bmatrix},\, f_{HH} = \frac{1}{2} \begin{bmatrix} \;\;1 & -1 \\ -1 & \;\;1 \end{bmatrix}. \end{split} \end{align} \]

注意， $f_{LL}$ 是一个低通滤波器，而 $f_{LH}, f_{HL}, f_{HH}$ 是一组高通滤波器。对于每个输入通道，卷积的输出为。

\[\begin{align} \begin{split} \left[X_{LL},X_{LH},X_{HL},X_{HH}\right] = \mbox{Conv}([f_{LL},f_{LH},&f_{HL},f_{HH}],X) \end{split} \end{align} \]

输出具有四个通道，每个通道在每个空间维度上的分辨率为 $X$ 的一半。 $X_{LL}$ 是 $X$ 的低频分量，而 $X_{LH}, X_{HL}, X_{HH}$ 分别是其水平、垂直和对角线的高频分量.

由于公式1中的核形成了一个标准正交基，逆小波变换（IWT）可以通过转置卷积实现:

\[\begin{align} \begin{split} X = \mbox{Conv-transposed}(&\left[f_{LL},f_{LH},f_{HL},f_{HH}\right],\\ &\left[X_{LL},X_{LH},X_{HL},X_{HH}\right]). \end{split} \end{align} \]

级联小波分解是通过递归地分解低频分量来实现的。每一层的分解由以下方式给出:

\[\begin{align} X^{(i)}_{LL}, X^{(i)}_{LH}, X^{(i)}_{HL}, X^{(i)}_{HH} = \mathrm{WT}(X^{(i-1)}_{LL}) \end{align} \]

其中 $X^{(0)}_{LL} = X$ ，而 $i$ 是当前的层级。这导致较低频率的频率分辨率提高，以及空间分辨率降低.

Convolution in the Wavelet Domain

增加卷积层的核大小会使参数数量呈平方级增加，为了解决这个问题，论文提出以下方法.

首先，使用小波变换（WT）对输入的低频和高频内容进行过滤和下采样。然后，在不同的频率图上执行小核深度卷积，最后使用逆小波变换（IWT）来构建输出。换句话说，过程由以下给出:

\[\begin{align} Y = \mathrm{IWT}(\mathrm{Conv}(W,\mathrm{WT}(X))), \end{align} \]

其中 $X$ 是输入张量， $W$ 是一个 $k \times k$ 深度卷积核的权重张量，其输入通道数量是 $X$ 的四倍。此操作不仅在频率分量之间分离了卷积，还允许较小的卷积核在原始输入的更大区域内操作，即增加了相对于输入的感受野.

采用这种1级组合操作，并通过使用公式4中相同的级联原理进一步增加它。该过程如下所示:

\[\begin{align} X^{(i)}_{LL},X^{(i)}_{H} &= \mathrm{WT}(X^{(i-1)}_{LL}),\\ Y^{(i)}_{LL},Y^{(i)}_{H} &= \mathrm{Conv}(W^{(i)},(X^{(i)}_{LL},X^{(i)}_{H})), \end{align} \]

其中 $X^{(0)}_{LL}$ 是该层的输入， $X^{(i)}_H$ 表示第 $i$ 级的所有三个高频图.

为了结合不同频率的输出，利用小波变换（WT）及其逆变换是线性操作的事实，这意味着 $\mathrm{IWT}(X+Y) = \mathrm{IWT}(X)+\mathrm{IWT}(Y)$ 。因此，进行以下操作:

\[\begin{align} Z^{(i)} &= \mathrm{IWT}(Y^{(i)}_{LL}+Z^{(i+1)},Y^{(i)}_{H}) \end{align} \]

这将导致不同级别卷积的求和，其中 $Z^{(i)}$ 是从第 $i$ 级及之后的聚合输出。这与RepLKNet一致，其中两个不同尺寸卷积的输出被相加作为最终输出.

与RepLKNet不同，不能对每个 $Y^{(i)}_{LL}, Y^{(i)}_H$ 进行单独归一化，因为这些的单独归一化并不对应于原始域中的归一化。相反，论文发现仅进行通道级缩放以权衡每个频率分量的贡献就足够了.

The Benefits of Using WTConv

在给定的卷积神经网络（CNN）中结合小波卷积（WTConv）有两个主要的技术优势.

小波变换的每一级都会增加层的感受野大小，同时仅小幅增加可训练参数的数量。也就是说，WT的 $\ell$ 级级联频率分解，加上每个级别的固定大小卷积核 $k$ ，使得参数的数量在级别数量上呈线性增长（ $ \ell\cdot4\cdot c\cdot k^2 $ ），而感受野则呈指数级增长（ $ 2^\ell\cdot k $ ）。
小波卷积（WTConv）层的构建旨在比标准卷积更好地捕捉低频。这是因为对输入的低频进行重复的小波分解能够强调它们并增加层的相应响应。通过对多频率输入使用紧凑的卷积核，WTConv层将额外的参数放置在最需要的地方。

除了在标准基准上取得更好的结果，这些技术优势还转化为网络在以下方面的改进：与大卷积核方法相比的可扩展性、对于损坏和分布变化的鲁棒性，以及对形状的响应比对纹理的响应更强.

Computational Cost

深度卷积在浮点运算（FLOPs）方面的计算成本为:

\[\begin{align} C\cdot K_W \cdot K_H \cdot N_W \cdot N_H \cdot \frac{1}{S_W} \cdot \frac{1}{S_H}, \end{align} \]

其中 $C$ 为输入通道数， $(N_W,N_H)$ 为输入的空间维度， $(K_W,K_H)$ 为卷积核大小， $(S_W,S_H)$ 为每个维度的步幅。例如，考虑一个空间维度为 $512\times512$ 的单通道输入。使用大小为 $7\times7$ 的卷积核进行卷积运算会产生 $12.8M$ FLOPs，而使用大小为 $31\times31$ 的卷积核则会产生 $252M$ FLOPs。考虑WTConv的卷积集，尽管通道数是原始输入的四倍，每个小波域卷积在空间维度上减少了一个因子2，FLOP计数为:

\[\begin{align} C \cdot K_W \cdot K_H \cdot \left(N_W \cdot N_H + \sum\limits_{i=1}^\ell 4\cdot\frac{N_W}{2^i} \cdot \frac{N_H}{2^i}\right), \end{align} \]

其中 $\ell$ 是WT层级的数量。继续之前输入大小为 $512\times512$ 的例子，对一个3层WTConv使用大小为 $5\times5$ 的多频卷积（其感受野为 $40\times40=(5\cdot 2^3) \times (5\cdot 2^3)$ ）会产生 $15.1M$ FLOPs。当然，还需要添加WT计算本身的成本。当使用Haar基底时，WT可以以非常高效的方式实现。也就是说，如果使用标准卷积操作的简单实现，WT的FLOP计数为:

\[\begin{align} 4C\cdot \sum\nolimits_{i=0}^{\ell-1} \frac{N_W}{2^i} \cdot \frac{N_H}{2^i}, \end{align} \]

因为这四个卷积核的大小为 $2\times2$ ，在每个空间维度上的步幅为2，并且作用于每个输入通道。同样，类似的分析表明，IWT的FLOP计数与WT相同。继续这个例子，3层WT和IWT的额外成本为 $2.8M$ FLOPs，总计为 $17.9M$ FLOPs，这仍然在相似感受野的标准深度卷积中有显著的节省.

Results

如果本文对你有帮助，麻烦点个赞或在看呗～更多内容请关注微信公众号【晓飞的算法工程笔记】。

最后此篇关于WTConv：小参数大感受野，基于小波变换的新型卷积|ECCV'24的文章就讲到这里了,如果你想了解更多关于WTConv：小参数大感受野，基于小波变换的新型卷积|ECCV'24的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐： WiFi基础(六)：天线基础知识

文章推荐：从零开始学机器学习——了解分类算法

文章推荐： Spark任务OOM问题如何解决？

文章推荐：再见，数据中台，理想还在路上

c++ - 按位置查找未标记的模板选项/参数/参数
简而言之:我想从可变参数模板参数中提取各种选项，但不仅通过标签而且通过那些参数的索引，这些参数是未知的标签。我喜欢 boost 中的方法(例如 heap 或 lockfree 策略)，但想让它与 S
Excel IF 语句 3 参数参数
我可以对单元格中的 excel IF 语句提供一些帮助吗？它在做什么？对“BaselineAmount”进行了哪些评估？ =IF(BaselineAmount, (Variance/Baselin
c# - 有没有办法在异步方法中使用 out 参数？如果没有，谁能建议我如何从异步方法返回 OUT 参数？
我正在使用以下方法: public async Task Save(Foo foo,out int param) { ....... MySqlParameter prmparamID
delphi - 如何清除“运行”->“参数”菜单中的“参数”字段？
我正在使用 CodeGear RAD Studio IDE。为了使用命令行参数测试我的应用程序，我多次使用了“运行 -> 参数”菜单中的“参数”字段。但是每次我给它提供一个新值时，它都无法从“下拉
java - Integer.toString(参数) 或 toString(参数)
我已经为信用卡类编写了一些代码，粘贴在下面。我有一个接受上述变量的构造函数，并且正在研究一些方法将这些变量格式化为字符串，以便最终输出将类似于号码:1234 5678 9012 3456 截止日期:
MySql IN 参数 - 在存储过程中使用时，VarChar IN 参数 val 是否需要单引号？
MySql IN 参数 - 在存储过程中使用时，VarChar IN 参数 val 是否需要单引号？我已经像平常一样创建了经典 ASP 代码，但我没有更新该列。我需要引用 VarChar 参数吗？
javascript - 创建一个有两个参数的函数，参数 a 将是一个数组，参数 b 将在数组中查找一个元素
给出了下面的开始，但似乎不知道如何完成它。本质上，如果我调用 myTest([one, Two, Three], 2); 它应该返回元素 third。必须使用for循环来找到我的解决方案。 funct
c - long int 参数 != long int 参数
将 1113355579999 作为参数传递时，该值在函数内部变为 959050335。调用(main.c): printf("%d\n", FindCommonDigit(111335557999
java - 为什么修改了 ArrayList 参数，但没有修改 String 参数？
这个问题在这里已经有了答案: Is Java "pass-by-reference" or "pass-by-value"? (92 个回答) 关闭9年前。 public class StackOve
c - scanf(参数) == 1 vs 1 == scanf(参数) 没有区别吗？
我真的很困惑，当像 1 == scanf("%lg", &entry) 交换为 scanf("%lg", &entry) == 1 没有区别。我的实验书上说的是前者，而我觉得后者是可以理解的。 1 =
Delphi 中的 Windows API 参数 - 使用或不使用 @ 运算符传递 var 参数？
我正在尝试使用调用 SetupDiGetDeviceRegistryProperty 的函数使用德尔福 7。该调用来自示例函数 SetupEnumAvailableComPorts .它看起来像这样:
php - MySQL如何从年份(参数)、weekOfYear(参数)、时间(数据库)和dayofweek(数据库)创建时间戳？
我需要在现有项目上实现一些事件的显示。我无法更改数据库结构。在我的 Controller 中，我(从 ajax 请求)传递了一个时间戳，并且我需要显示之前的 8 个事件。因此，如果时间戳是(转换后)
ruby-on-rails - ||如何工作？ : @client = client. 查找(参数[:client_id] || 参数[:id])
rails 新手。按照多态关联的教程，我遇到了这个以在create 和destroy 中设置@client。 @client = Client.find(params[:client_id] || p
java - 无法通过 .bat 文件设置 JVM 参数/参数(Xmx 和 Xms)
通过将 VM 参数设置为 -Xmx1024m，我能够通过 Eclipse 运行 Java 程序-Xms256M。现在我想通过 Windows 中的 .bat 文件运行相同的 Java 程序 (jar)
c++ - 如何从 C++ 调用 Delphi DLL WideString 参数(包括 var 参数)
我有一个 Delphi DLL，它在被 Delphi 应用程序调用时工作并导出声明为的方法: Procedure ProduceOutput(request,inputs:widestring; va
amazon-web-services - AWS Proton 参数 - 阐明如何在 CF 模板中使用 schema.yaml 参数
浏览完文档和示例后，我还没有弄清楚 schema.yaml 文件中的参数到底用在哪里。在此处使用 AWS 代码示例:https://github.com/aws-samples/aws-proton
java - 错误代码[17041]；索引::1 处缺少 IN 或 OUT 参数；嵌套异常是 java.sql.SQLException: 在索引::1 处缺少 IN 或 OUT 参数
程序参数: procedure get_user_profile ( i_attuid in ras_user.attuid%type, i_data_group in data_g
SQL + IN + 参数
我有一个字符串作为参数传递给我的存储过程。 dim AgentString as String = " 'test1', 'test2', 'test3' " 我想在 IN 中使用该参数声明。 AND
java方法内部变量上没有 "this"参数
这个问题已经有答案了: When should I use "this" in a class? (17 个回答) 已关闭 6 年前。我运行了一些java代码，我看到了一些我不太明白的东西。为什么下
Javascript 参数
我输入 scroll(0,10,200,10);但是当它运行时，它会传递字符串“xxpos”或“yypos”，我确实在没有撇号的情况下尝试过，但它就是行不通。 scroll = function(xp

撒哈拉

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城