DDP：微软提出动态detectionhead选择，适配计算资源有限场景|CVPR2022

转载作者：撒哈拉更新时间：2024-07-08 15:05:35

56

4

DPP能够对目标检测proposal进行非统一处理，根据proposal选择不同复杂度的算子，加速整体推理过程。从实验结果来看，效果非常不错。

来源：晓飞的算法工程笔记公众号。

论文: Should All Proposals be Treated Equally in Object Detection？

论文地址：https://arxiv.org/abs/2207.03520
论文代码：https://github.com/liyunsheng13/dpp

Introduction

在目标检测中，影响速度的核心主要是密集的proposal设计。所以，Faster RCNN → Cascade RCNN → DETR → Sparse RCNN的演变都是为了稀疏化proposal密度。虽然Sparse R-CNN成功地将proposal数量从几千个减少到几百个，但更复杂deation head导致减少proposal数量带来的整体计算收益有限.

复杂的deation head结构虽然能带来准确率的提升，但会抹杀轻量级设计带来的计算增益。对于仅有300个proposal的Sparse RCNN，deation head的计算量是主干网络MobileNetV2的4倍（25 GFLOPS 与 5.5 GFLOPS）.

为此，作者研究是否有可能在降低deation head计算成本的同时保留精度增益和proposal稀疏性。现有检测算法采用相同复杂度的操作处理所有proposal，在高质量proposal上花费大量的计算是合适的，但将相同的资源分配给低质量的proposal则是一种浪费。由于每个proposal的IoU在训练期间是已知的，所以可以让检测器学习为不同的proposal分配不同的计算量.

由于在推理时没有IoU，网络需要学习如何根据proposal本身进行资源分配。为此，作者提出了dynamic proposal processing（DPP），将detection head使用的单一算子替换为一个包含不同复杂度算子的算子集，允许检测器在复杂度-精度之间进行权衡。算子的选择通过增加一个轻量级选择模型来实现，该模型在网络的每个阶段选择适用于每个proposal的最佳算子.

Complexity and Precision of Proposals

假设主干网络产生了一组proposal$X = \{x_1, x_2, \cdots, x_N \}$，计算消耗主要来源于detection head而主干的计算消耗可忽略，并且将deation head的计算进一步分解为per-proposal的算子h（网络结构）以及对应的proposal间处理组件p（NMS操作或proposal之间的的自注意机制）.

Complexity of unequally treated proposals

在之前的检测器中，所有的proposal都由同一个算子h处理:

其中$\psi = \{h, p\}$，$C_h$ 和 $C_p$ 分别是h和p的 per-proposal 复杂度.

Complexity of unequally treated proposals

与其将相同的算子h应用于所有proposal，作者建议使用包含J个具有不同复杂度算子的算子集$\mathcal{G} = \{h_j\}^J_{j=1}$，由动态选择器s选择具体的算子分配给proposal $x_i$:

其中$s_i = s(x_i)$， $h_{s_i}\in \mathcal{G}$ 表示来自 $\mathcal{G}$ 的算子，由选择器s分配给的proposal $x_i$，$\psi = \{\{h_{s_i}\}_i, s, p\}$，$C_{h_{s_i}}$为整个per-proposal操作的计算复杂度。为简单起见，p的复杂度仍然视为常数.

Precision over proposals

当deation head对proposal非统一处理时，给定复杂性约束C的最佳检测器精度可以通过优化算子对proposal的分配来提升:

其中$\mathcal{P}(\{h_{s_i}\}_i)$是分配的特定运算符$\{h_{s_i}\}_i$的精度。随着C的变化，$P(\psi^{∗}|C)$构建了复杂度-精度(C-P)曲线，该曲线表示了可使用$\mathcal{G}$实现的目标检测器在成本和精度之间trade-off的最佳性能.

Dynamic Proposal Processing

基于上面的背景，作者提出了一个动态proposal处理（DPP）。假设detection head由多个阶段($\psi = \phi_1 \circ \cdots \circ \phi_K$)依次处理proposal，每个阶段$\varphi_K$由选择器s从$\mathcal{G}$中选择的运算符实现。为了最小化复杂性，选择器每次只应用于阶段子集$k \in K \subset \{1，\cdots，K\}$，其余阶段使用上一次处理选择的运算符，即$\phi_k = \phi_{k−1}, \forall k\notin K$.

Operator Set

作者提出了由三个计算成本差异较大的算子组成的算子集合$\mathcal{G} = \{g_0, g_1, g_2\}$:

$g_0$是高复杂度的算子，由一个参数与proposal相关的动态卷积层(DyConv)和一个前馈网络(FFN)来实现，类似于Sparse R-CNN采用的动态Head结构。
$g_1$是一个中等复杂度的算子，由FFN实现。
$g_2$是一个由identity block构建的轻量级算子，只是简单地传递proposal而无需进一步提取特征。

Selector

在DPP中，通过控制操作符对proposal的分配，选择器是控制精度和复杂性之间权衡的关键组件。定义$z^k_i$是proposal $x_i$在阶段$\phi_k$的输入特征，选择器由3层MLP实现，输出与关联$z^k_i$的3维向量$\epsilon^k_i \in [0, 1]^3$:

其中$\epsilon^k_{i,j}$是$\epsilon^k_i$中的选择变量，代表将操作$g_j$分配给proposal $x_i$的权重:

在训练期间，选择向量是包含三个变量one hot编码，将Gumble-Softmax函数作为MLP的激活函数，用于生成选择向量。
在推理中，选择向量包含三个连续值，选择值最大的变量对应的操作。

分配过程如图2所示，整体开销非常小（100个proposal仅需4e-3 GFLOPS），与detection head相比可以忽略不计.

从公式4可以看出，不同的proposal和阶段选择的算子都有变化，从而能够进行动态处理。此外，虽然$\mathcal{G}$仅有三个候选项，但潜在的detection head网络结构有$3^{|K|}$种。最后，由于选择器是可训练的，所以整体结构可以端到端学习.

Loss Functions

为了确保在给定复杂度的情况下，DPP能为每个proposal选择最优的操作序列，作者增加了选择器损失，包含两个目标:

首先，应该将复杂的算子（$g_0$和$g_1$）分配给高质量的proposal（高IoU）：其中$u_k$是第i个proposal在第k阶段的 IoU。当IoU小于0.5时，$L_{iou}$推动选择器将$\epsilon^k_{i,0}$和$\epsilon^k_{i,1}$变为0，反之则变为1，鼓励在阶段 k 中使用更复杂的算子来获得高质量的proposal。此外，损失的大小是由IoU值决定的，为高IoU proposal选择简单结构或为低IoU proposal选择复杂结构均会产生大梯度值.
其次，选择器应该知道每张图像中的实例总数，并根据总数调整整体复杂度，在实例密集时选择更复杂的算子：其中T是特定图像选择$g_0$算子目标次数，定义为$T = \alpha M$，即图像中M个实例的倍数。此外，$T\in [T_{min}, N ]$需通过根据预先指定的下限$T_{min}$和由总体proposal数N给出的上限对$\alpha M$进行裁剪。下界防止对高复杂度算子进行过于稀疏的选择，然后$\alpha$则是根据实例数调整选择器.

最终的整体选择器损失为:

选择器损失是一种即插即用损失，可以应用于不同的对象检测器。在实现时，与应用DPP的原始检测器的所有损失相结合，包括交叉熵损失和边界框回归损失.

Experiments

DPP的主干网络使用MobileNet V2或ResNet-50，使用特征金字塔网络(FPN)生成多维特征，在其之上使用Sparse R-CNN的策略学习初始proposal。为简单起见，选择器仅应用于阶段 $K = \{2, 4, 6\}$.

对于损失函数，设置$\lambda=1$，$T_{min}=1$，$\alpha=2$，$N=100$.

Proposal processing by DPP

Contribution of Each Operator

不同候选算子对性能的贡献.

Performance of Each Stage in DPP

阶段1∼6的AP分别为$\{15.6, 32.1, 39.3, 41.7, 42.0, 42.2\}$，精度在前 4 个阶段迅速增加，然后达到饱和。较后的阶段，复杂算子占比越少，这说明 DPP 如何在复杂性与精度之间取得相当成功.

Visualization

阶段4和阶段6中，$g_0$的预测结果.

Main Results

ResNet

基于ResNet50与SOTA算法对比.

MobileNetV2

基于MobileNetV2与SOTA算法对比.

Inference speed

推理速度对比.

Ablation Study

Selection loss

选择器损失的作用.

Target number of heavy operators

复杂算子预期数量的作用.

Conclusion

DPP能够对目标检测proposal进行非统一处理，根据proposal选择不同复杂度的算子，加速整体推理过程。从实验结果来看，效果非常不错.

如果本文对你有帮助，麻烦点个赞或在看呗～更多内容请关注微信公众号【晓飞的算法工程笔记】。

work-life balance.

最后此篇关于DDP：微软提出动态detectionhead选择，适配计算资源有限场景|CVPR2022的文章就讲到这里了,如果你想了解更多关于DDP：微软提出动态detectionhead选择，适配计算资源有限场景|CVPR2022的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

56

4

0

文章推荐：详解Web应用安全系列(9)点击劫持

文章推荐： Bond——大数据时代的数据交换和存储格式

文章推荐：树莓派4B-PCA9685驱动舵机

文章推荐：你真的了解Java内存模型JMM吗?

服务器端的 Firebird 计算(计算)字段
SQL 和一般开发的新手，我有一个表(COUNTRIES)，其中包含字段(INDEX、NAME、POPULATION、AREA) 通常我添加一个客户端(Delphi)计算字段(DENSITY)和 On
jquery - 计算(百分比)计算(像素)
我想使用 calc(100%-100px)，但在我的 demo 中不起作用由于高度只接受像素，因此如何将此百分比值转换为像素。最佳答案以下将为您提供高度: $(window).height();
MySql 计算
我正在尝试在 MySQL 中添加列并动态填充其他列。例如我有一张表“数字”并具有第 1 列、第 2 列、第 3 列，这些总数应填充在第 4 列中最佳答案除非我误解了你的问题，否则你不只是在寻找:
mysql - 计算
我想返回简单计算的结果，但我不确定如何执行此操作。我的表格如下: SELECT COUNT(fb.engineer_id) AS `total_feedback`, SUM(fb.ra
嵌套for循环中的c++计算
我一直在尝试做这个程序，但我被卡住了，我仍然是一个初学者，任何帮助将不胜感激。我需要程序来做打印一个 10 X 10 的表格，其中表格中的每个条目都是行号和列号的总和包含一个累加器，用于计算所有表
c - 计算
这个计算背后一定有一些逻辑。但我无法得到它。普通数学不会导致这种行为。谁能帮我解释一下原因 printf ("float %f\n", 2/7 * 100.0); 结果打印 1.000000 为什么会
计算 AND 的算法
我想计算从 0 到 (n)^{1/2} - 1 的数字的 AND每个数字从 0 到 (n)^{1/2} - 1 .我想在 O(n) 中执行此操作时间，不能使用 XOR、OR、AND 运算。具体来说，
Excel - 在数字格式中使用公式/计算
如何在 Excel 中将公式放入自定义数字格式？例如(出于说明目的随机示例)，假设我有以下数据: 输入输出在不编辑单元格中的实际数据的情况下，我想显示单元格中的值除以 2，并保留两位小数: 有没
Flutter:隔离内存泄漏(计算)
每次我在 Flutter 应用程序中调用计算()时，我都会看到内存泄漏，据我所知，这基本上只是一种生成隔离的便捷方法。我的应用程序内存占用增加并且在 GC 之后永远不会减少。我已将我的代码简化为仅调
R中的RMSE(均方根偏差)计算
我有数字特征观察 V1通过 V12用于目标变量 Wavelength .我想计算 Vx 之间的 RMSE列。数据格式如下。每个变量“Vx”以 5 分钟的间隔进行测量。我想计算所有 Vx 变量的观测值
计算 C 文件中未知数量的字符
我正在寻找一种使用 C 语言计算文件中未知字符数的简单方法。谢谢你的帮助最佳答案 POSIX 方式(可能是您想要的方式): off_t get_file_length( FILE *file ) {
sql - 计算/派生连续日期跨度中的第一个开始日期
我正在使用 Postgres，并且我正试图围绕如何在连续日期跨度中得出第一个开始日期的问题进行思考。例如 :- ID | Start Date | End Date =================
jquery - 计算，用逗号替换点
我有一个订单表格，我在其中使用 jQuery 计算插件来汇总总数。此求和工作正常，但生成的“总和”存在问题。总之，我希望用逗号替换任何点。代码的基础是； function ($this) {
Delphi错误的 double 计算
我在使用 double 变量计算简单算术方程时遇到问题。我有一个具有 double 属性 Value 的组件，我将此属性设置为 100。然后我做一个简单的减法来检查这个值是否真的是 100: va
openssl CRC32 计算
我在这里看到了一些关于 CRC 32 计算的其他问题。但没有一个让我满意，因此是这样。 openssl 库是否有任何用于计算 CRC32 的 api 支持？我已经在为 SHA1 使用 openssl，
php - 计算-1个月时的PHP天错误
当我在PHP日期计算中遇到问题时，我感到惊讶。 $add = '- 30 days'; echo date('Y-m-01', strtotime($add)); // result is 2017-
持有变量的 JavaScript 计算
我正在使用 javascript 进行练习，我编写了这个脚本来计算 2 个变量的总和，然后在第三个方程中使用这个总和!关于如何完成这项工作的任何想法都将非常有用! First Number:
audio - sample 计算
我有一个来自EAC的提示单和一个包含完整专辑的FLAC文件。我正在尝试制作一些python脚本来播放文件，因为我需要能够设置在flac文件中开始的位置。如何从CueSheet格式MM:SS:FF转
javascript - 计算 for 循环中输入值的总和
这个问题已经有答案了: Adding two numbers concatenates them instead of calculating the sum (24 个回答) 已关闭去年。我有一个
使用输入和跨度字段的 Javascript 计算
4000 我需要上面字段 name="quantity" 和 id="price" 中的值，并使用 javascript 函数进行计算，并将其显示在字段 id= 中仅当我单击计算按钮时才显示“总

首页

博学

6Ren·AI

商城

DDP：微软提出动态detectionhead选择，适配计算资源有限场景|CVPR2022

Introduction

Complexity and Precision of Proposals

Complexity of unequally treated proposals

Complexity of unequally treated proposals

Precision over proposals

Dynamic Proposal Processing

Operator Set

Selector

Loss Functions

Experiments

Proposal processing by DPP

Contribution of Each Operator

Performance of Each Stage in DPP

Visualization

Main Results

ResNet

MobileNetV2

Inference speed

Ablation Study

Selection loss

Target number of heavy operators

Conclusion