EfficientDet- Scalable and Efficient Object Detection(中文版).pdf

发布时间：2022-05-31 发布人：admin 分类：说明书资料大小：0.55M 资料格式：pdf 举报版权申诉

myhes-12533397-4744300845392826456.pdf-第1页.png

第1页 / 共12页

myhes-12533397-4744300845392826456.pdf-第2页.png

第2页 / 共12页

myhes-12533397-4744300845392826456.pdf-第3页.png

第3页 / 共12页

myhes-12533397-4744300845392826456.pdf-第4页.png

第4页 / 共12页

myhes-12533397-4744300845392826456.pdf-第5页.png

第5页 / 共12页

myhes-12533397-4744300845392826456.pdf-第6页.png

第6页 / 共12页

myhes-12533397-4744300845392826456.pdf-第7页.png

第7页 / 共12页

myhes-12533397-4744300845392826456.pdf-第8页.png

第8页 / 共12页

高效检测：可伸缩、高效的对象检测

阿希夫：1911.09070v6[cs。简历】2020年6月14日.

摘要

1. 导言

2.相关工作

3.Bi FPN

3.1.问题的提出

3.2.跨尺度连接

3.3.加权特征融合

4.高效的探员

4.1.高效的Det架构

4.2.复合缩放

5.实验

5.1.用于对象检测的高效Det

5.2.语义分割的有效细节

6.堕胎研究

6.1.分离骨干和BiFPN

6.2.双FPN跨尺度连接

6.3.Softmax与快速归一化融合

6.4.复合缩放

7.结论

鸣谢

参考资料

阿希夫： 19 11 .0 90 70 v6 [c s。简历】高效检测：可伸缩、高效的对象检测明兴谭若明庞国乐谷歌研究，大脑团队 {tanmingxing，rpang，qvl}@google.com 摘要高效的 DET-D7 模型效率在计算机视觉中变得越来越重要。在本文中，我们系统地研究了用于对象检测的神经网络体系结构设计选择，并提出了几种提高效率的关键优化。首先，我们提出了一种加权双向特征金字塔网络(BiFPN)，它允许简单和快速的多尺度特征融合；其次，我们提出了一种复合尺度方法，它同时均匀地缩放所有主干网、特征网络和盒/类预测网络的分辨率、深度和宽度。基于这些优化和更好的骨架，我们开发了一个新的对象检测器家族，称为高效Det，它在广泛的资源约束中始终比现有技术获得更好的效率。特别是，在单模型和单尺度的情况下，我们的高效Det-D7 在COCO 测试设备上实现了最先进的53.7AP，具有52M 参数，325B FLOP 比以前的检测器小4x9x，使用13x42x 的FLOP。代码可在https://github.com/google/automl/tree/ 主/高效DET 上获得。s‘， 1. 导言 [44][23]近年来，在更精确的物体检测方面取得了巨大的进展，同时，最先进的物体探测器也变得越来越昂贵。例如，最新的基于 AmoebaNet 的 NASFPN 探测器需要 167M 参数和 3045B FLOP(比 RetinaNet 多 30 倍)才能达到最先进的精度。大型模型尺寸和昂贵的计算成本阻止了它们在许多现实世界应用中的部署，例如机器人和自动驾驶汽车，在这些应用中，模型大小和延迟受到高度限制。鉴于这些现实世界的资源约束，模型效率对于对象检测变得越来越重要.. 以前有许多工作旨在开发更有效的检测器体系结构，例如 [14,38]与此类似，FLOPs 表示乘法加法的数目。 d3 d2 45 cl < 不，不 40 35 视网膜网面具 R-CNN 1YOLOv3/ 30 1 I 200 阿米巴网+NAS-FPN+AA. Res Net+NAS-FPN Eificient Det-DU YOLOv3[] 高效的 DET-D1 视网膜网[] 面具 R-CNN[] 高效的 DET-D6. 阿米巴网+NAS-FPN+AAt 未绘制。 [卩 600 800 FLOPs（十亿） 1000 AP FLOPs（比率） 33.82.5b 33.071B（28 倍） 39.66.1b 37.097B（16 倍） 37.9149B（25 倍） 51.7229b 50.73045B（13 倍） 1200 图 1：FLOPs 模型与 COCO 精度所有数字都是针对单模型的单尺度。我们的高效 DET 实现了新的最先进的 53.7%的 COCOAP 与以前的探测器更少的参数和 FLOP。更多关于不同骨架和 FPN/NAS-FPN/BIFPN 的研究在表中，完整的结果在表中 45.2. [26,32，33，23][20,43,39][27,28]舞台和无锚探测器，或压缩现有模型。虽然这些方法倾向于获得更好的效率，但它们通常会牺牲准确性.. 此外，大多数以前的工作只关注特定或小范围的资源需求，但从移动设备到数据中心的各种实际应用程序往往需要不同的资源约束。一个自然的问题是：是否有可能在广泛的资源约束(例如从 3B 到 300B FLOP)中建立一个具有更高精度和更高效率的可伸缩检测体系结构？本文旨在通过系统研究探测器结构的各种设计选择来解决这一问题。基于星型检测器范式，我们研究了主干、特征融合和类/盒网络的设计选择，并确定了两个主要挑战：挑战1：高效的多尺度特征融合自引入以来，FPN 已被广泛应用于多领域[22] 1

[25][10][19,17,41]尺度特征融合。最近，PANET、NAS-FPN 等研究开发了更多的跨尺度特征融合网络结构。在融合不同的输入特征的同时，大多数以前的工作只是不加区分地总结它们；然而，由于这些不同的输入特征具有不同的分辨率，我们观察到它们通常对融合的输出特征作出不平等的贡献。为了解决这一问题，我们提出了一种简单而高效的加权双向特征金字塔网络(BiFPN)，它引入可学习的权重来学习不同输入特征的重要性，同时反复应用自上而下和自下而上的多尺度特征融合。多尺度特征.. 遵循这一思想，PANET 在 FPN 之上增加了一个额外的自下而上的路径聚合网络；STDL 提出了一个尺度转移模块来利用跨尺度特征；M2DET 提出了一个 U 形模块来融合多尺度特征，G-FRNet 引入了门单元来控制跨特征的信息流。最近，NAS-FPN 利用神经结构搜索自动设计特征网络拓扑。虽然它获得了更好的性能，但 NAS-FPN 在搜索过程中需要数千 GPU 小时，由此产生的特征网络是不规则的，因此难以解释。本文旨在以一种更直观、更有原则的方式优化多尺度特征融合。模型缩放：为了获得更好的精度，通常使用更大的骨干网络 ( 例如，从移动尺寸模型和 ResNet ，到 ResNeXt 和 AmoebaNet)或增加输入图像大小(例如，从 512x512)来放大基线检测器[37,15][14][40][31] [23] [44][10,44][38]至 1536x1536)。最近的一些工作表明，增加信道大小和重复特征网络也可以导致更高的精度。这些缩放方法主要集中在单个或有限的缩放维度上。最近，通过联合扩展网络宽度、深度和分辨率，证明了图像分类的显著模型效率。我们提出的目标检测的复合标度方法大多受到启发。[38] 3. Bi FPN 在这一部分中，我们首先制定了多尺度特征融合问题，然后介绍了我们提出的 BiFPN 的主要思想：高效的双向跨尺度连接和加权特征融合。 3.1. 问题的提出多尺度特征融合旨在聚合不同分辨率的特征。形式上，给定多尺度特征列表 P. =(p；普，...)，其中 P：；表示 l 级的特征：，我们的目标是找到一个转换 f，它可以有效地聚合不同的特征并输出一个新特征列表：P 出去 =f(P.)。作为一个具体的例子， [23,34，33，10][13,44][38]挑战 2：模型缩放虽然以前的工作主要依靠更大的骨干网络或更大的输入图像大小来获得更高的精度，但我们观察到，在考虑精度和效率时，扩展特征网络和框/类预测网络也是至关重要的.. 在最近的工作的启发下，我们提出了一种对象检测器的复合缩放方法，该方法联合缩放所有主干、特征网络、框/类预测网络的分辨率/深度/宽度。 [38]最后，我们还观察到，最近引入的高效网比以前常用的骨干获得了更好的效率。将高效网络骨架与我们提出的 BiFPN 和复合尺度相结合，我们开发了一种新的对象检测器家族，称为高效 Det，它始终以比以前的对象检测器更少的参数和 FLOP 来获得更好的精度。图和图形显示 COCO 数据集上的性能比较。在类似的精度约束下，我们的有效 DET 使用的 FLOP 比 YOLOv3 少 28 倍，FLOP 比 RetinaNet 少 30 倍，FLOP 比最近基于 ResNet 的 NAS-FPN 少 19 倍。特别是，在单模型和单测试时间尺度下，我们的高效 Det-D7 实现了最先进的 53.7AP 和 52M 参数和 325B FLOP，在 1.5AP 的情况下优于以前最好的检测器，而在 4 倍小和使用 13 倍少的 FLOP。我们的高效 DET 在 GPU/CPU 上也比以前的检测器快 4 倍至 11 倍。 14[24][33][23][10][44] 通过简单的修改，我们还证明了我们的单模型单尺度有效 Det 在 PascalVOC2012 语义分割上以 18B FLOPs 实现了 81.74%的 IOU 精度，比 DeepLabV3+高 1.7%，而 FLOPs 较少 9.8 倍。[6] 2. 相关工作 [11,34，5，13][35,26,32，23][16][20,41，43]一段检测器：现有的对象检测器主要按它们是否有兴趣区域建议步骤（两阶段)(初始）进行分类。虽然两级探测器往往更灵活和更准确，但一级探测器通常被认为是更简单和更有效的利用预定义的锚。近年来，单级探测器由于其效率和简单性而引起了人们的广泛关注。在本文中，我们主要遵循一阶段检测器设计，我们表明，通过优化的网络体系结构，可以实现更好的效率和更高的精度。多尺度特征表示：目标检测的主要难点之一是有效地表示和处理多尺度特征。早期的检测器通常直接执行基于从骨干网络中提取的金字塔特征层次的预测。特征金字塔网络 (FPN)作为开创性的作品之一.[4,26，35] [22] [25][42][41][2][10]提出了一种自上而下的途径来结合 3

[22][25][10]图 2：特征网络设计一(A)FPN 引入了自顶向下的路径来融合从 3 级到 7 级的多尺度特征(P3P7)；(B)PANET 在 FPN 的顶部增加了一个额外的自下而上的路径；(C)NAS-FPN 使用神经结构搜索来寻找不规则的特征网络拓扑，然后重复应用同一块；(D)是我们的 BiFPN，具有更好的准确性和效率权衡。如果原始输入到输出节点处于同一级别，我们将额外的边缘添加到输出节点，以便在不增加大量成本的情况下融合更多的特征；第三，与 PANet 只具有一个自顶向下和一个自底向上的路径不同，我们将每个双向（自顶向下和自底向上）路径视为一个特征网络层，并多次重复同一层以实现更高级别的特征融合。本节将讨论如何使用复合缩放方法确定不同资源约束的层数。通过这些优化，我们将新的特征网络命名为双向特征金字塔网络(BiFPN)，如图和所示[25] 4.2 23. 3.3. 加权特征融合 [21][10] 当融合具有不同分辨率的特征时，一种常见的方法是首先将它们调整到相同的分辨率，然后对它们进行总结。金字塔注意网络引入全局自注意上采样来恢复像素定位，对此进行了进一步的研究。以前的所有方法都一视同仁地对待所有输入特性。然而，我们观察到，由于不同的输入特征具有不同的分辨率，它们通常对输出特征的贡献是不平等的。为了解决这个问题，我们建议为每个输入增加一个额外的权重，并让网络学习每个输入特性的重要性。基于这一思想，我们考虑了三种加权融合方法：无界融合：O=£.i 哪里是 a 2( 图 a)显示了传统的自上而下的 FPN。它需要 3-7 级输入特征 P[22] =(P 攀，.PT P)，哪里 P？n 表示分辨率为 1/2 的特征级别 z 输入图像。例如，如果输入分辨率为 640x640，则 P*n 表示特征级别 3（640/2）3 =80)，分辨率 80x80，而 P^n 表示具有分辨率 5x5 的特征级别 7。传统的 FPN 以自上而下的方式聚合多尺度特征： p7°ut =Conv(P 貿) P 辭=Conv(P 芸+Resize(P°ut)) p°ut =Conv(P3)n+调整(P°ut)) 其中 Resize 通常是用于分辨率匹配的上采样或下采样 OP，而 Conv 通常是用于特征处理的卷积 OP。 3.2. 跨尺度连接 [25]2([19,17，41][10] 传统的自上而下的 FPN 本质上受到单向信息流的限制.. 为了解决这个问题，PANET 增加了一个额外的自下而上的路径聚合网络，如图 b 所示)。进一步研究了跨尺度连接。最近，NAS-FPN 采用神经架构搜索来搜索更好的跨尺度特征网络拓扑结构，但在搜索过程中需要数千 GPU 小时，发现的网络不规则，难以解释或修改，如图 c 所示)..2( 5)通过研究这三种网络的性能和效率（表），我们观察到 PANet 比 FPN 和 NAS-FPN 获得了更好的精度，但代价是更多的参数和计算。为了提高模型的效率，本文提出了几种跨尺度连接的优化方法：首先，去除只有一个输入边的节点。我们的直觉很简单：如果一个节点只有一个输入边缘，没有特征融合，那么它对旨在融合不同特征的特征网络的贡献就会更小。这导致了一个简化的双向网络；第二， 4

可学习的权重，可以是标量（每特征)、向量(每通道)或多维张量(每像素）。我们发现一个尺度可以达到与其他方法相当的精度，以最小的计算成本。然而，由于标量权重是无界的，它可能会导致训练不稳定。因此，我们采用权重归一化来约束每个权重的值范围。骨干网络中获取 3-7 级特征{琢 P^R、P、P7}，并反复应用自顶向下和自下而上的双向特征融合。这些融合的特征被馈送到类和盒网络中，分别产生对象类和包围盒预测。类似地，类和框网络权重在所有级别的特性之间共享。[23] 4.2. 复合缩放为了优化精度和效率，我们希望开发一系列能够满足广泛资源约束的模型。这里的一个关键挑战是如何扩大基线高效 Det 模型。 [40][31][10][38][10,38][38]以前的工作主要是通过使用更大的骨干网络(例如 ResNeXt 或 AmoebaNet)、使用更大的输入图像或堆叠更多的 FPN 层来扩展基线检测器。这些方法通常是无效的，因为它们只关注单个或有限的缩放维度。最近的工作表明，通过联合缩放网络宽度、深度和输入分辨率的所有维度，图像分类具有显著的性能。在这些工作的启发下，我们提出了一种新的目标检测复合标度方法，它使用一个简单的复合系数©来联合缩放主干、BiFPN、类/盒网络和分辨率的所有维度。与之不同的是，与图像分类模型相比，otject 检测器具有更多的缩放维度，因此对所有维度的网格搜索是昂贵的。因此，我们使用了一种基于启发式的缩放方法，但仍然遵循联合缩放所有维度的主要思想。骨干网络，我们重用相同的宽度/深度缩放系数的有效网络 -B0 到 B6，这样我们可以很容易地重用他们的图像网络解释检查点。[38] 我们线性增加了 BiFPN 深度 Dh如果pn （#层）因为深度需要四舍五入到小整数。对于 BiFPN 宽度 WbIFPn （#通道），双 FPN 宽度 W 呈指数增长 bIFPn[38]（#频道）类似。具体地，我们在值列表(1.2、1.25、1.3、1.35、1.4、1.45}上执行网格搜索，并选择最佳值 1.35 作为 BiFPN 宽度缩放因子。形式上，BiFPN 的宽度和深度用以下方程缩放： dbIFPn =3+© wbIFPn =64•(1.35。), ⑴ 盒/类预测网络我们将它们的宽度固定为与 BiFPN(即 WP) 始终相同红色的=Wbifpn)，但林基于 Softmax 的融合：O=EI i ew e 叱 Ii.直觉思想是将 Softmax 应用于每个权重，使所有权重归一化为一个值范围为 0 到 1 的概率，表示每个输入的重要性。然而，正如我们在章节中的消融研究所示，额外的 Softmax 导致 GPU 硬件的显著放缓。为了最小化额外的延迟成本，我们进一步提出了一种快速融合方法。6.3，快速归一化融合：O=EI.-------------------- ---------- 伊，在哪里 e+jwj Wi 通过在每个 Wi 之后应用 Relu 来确保 Wi>0，并且 e=0。为了避免数值不稳定，0001 是一个很小的值。同样，每个归一化权重的值也在 0 到 1 之间，但由于这里没有 Softmax 操作，所以效率要高得多。我们的消融研究表明，这种快速融合方法与基于 Softmax 的融合具有非常相似的学习行为和准确性，但在 GPU 上运行速度高达 30%（表）。6) 我们的最终 BiFPN 集成了双向交叉尺度连接和快速归一化融合。作为一个具体的例子，这里我们描述了两个融合特征在 6 级的 BiFPN，如图所示)：2( d=Conv(w r“ +w“Reme(P7n) +w2+e 丿 =C°nv(wl：也+w2：堂 +w·Resized 炒)w； +w2+w W1+W2+e 其中 P“是自顶向下路径上 6 级的中间特征， P0ut 是自下而上路径上 6 级的输出特征。所有其他特征都是以类似的方式构造的。值得注意的是，为了进一步提高效率，我们使用深度可分离卷积进行特征融合，并在每次卷积后添加批归一化和激活。[7,36] w；+w2+w3+e 4. 高效的探员基于我们的 BiFPN，我们开发了一个新的检测模型家族，称为高效 Det。在本节中，我们将讨论网络体系结构和一种新的高效 Det 复合缩放方法。 4.1. 高效的 Det 架构 3[26,32，22，23] 数字显示了高效 Det 的总体架构，它主要遵循一阶段检测器范式。我们采用图像网络解释有效网作为骨干网络。我们提出的 BiFPN 作为特征网络，它从 5

高效的网络骨干 [38] 图 3：高效的 DET 体系结构一它采用高效网络作为骨干网络，BiFPN 作为特征网络，共享类/盒预测网络。基于不同的资源约束，BiFPN 层和类/盒网层都会重复多次，如表所示 1. 5. 实验 5.1. 用于对象检测的高效 Det [24] 我们用 118K 训练图像评估 COCO2017 检测数据集的有效 DET。每个模型使用动量 0.9 和重量衰减 4e-5 的 SGD 优化器进行训练。学习率在第一个训练阶段从 0 线性增加到 0.16，然后使用余弦衰减规则退火。在每次卷积后加入同步批归一化，批范数衰减 0.99 和 epsilon1e-3。与之相同，我们使用了衰减 0.9998 的 SWIS H 活化和指数移动平均值。我们还使用通常使用的焦点损失与=0。[38][30,8][23] 25 和 7=1。[23] 和纵横比(1/2,1,2}。我们使用 RetinaNnet 预处理与训练时间翻转和缩放.. 对于 D0-D6，每个模型在 32 个 TPUv3 核上训练 300 个具有总批量 128 的历元，并使用标准 NMS 进行评估。为了进一步推动信封，我们训练 D7600 个时代，并应用软 NMS。[3] 2 表将有效 Det 与其他对象检测器进行比较，在单模型单尺度设置下，没有测试时间增强。我们报告了测试 -dev(20K 测试图像没有公共地面真相)和 val(5K 验证图像与地面真相)的准确性。我们的高效 DET 比以前的探测器获得更好的效率，是 4x 一 9x 小，使用 13x42x 少 FLOP 跨越广泛的精度或资源限制。在相对低精度的情况下，我们的高效 Det-D0 实现了与 YOLOv3 相似的精度，FLOPs 较少 28 倍。与 RetinaNet 和 Mask-RCNN 相比，我们的高效 Det-D1 具有相似的精度，参数少 8 倍，FLOP 少 21 倍。在高精度的制度下，我们的高效 Det 也一直表现出色[23][13] 骨干网络输入大小输入 Bi FPN 框/类#层 d 上 b0 b1 b2 b3 b4 b5 b6 b6 512 640 768 896 1024 1280 1280 1536 d0（©=0） D1（©=1） D2（©=2） d3（©=3） d4（©=4） d5（©=5） d6（©=6） d7 表 1：有效 DETD0-D6 一的缩放配置©是控制所有其他缩放维度的复合系数；BiFPN、盒/类网和输入大小分别使用方程进行缩放。1，2， 3 课 3 3 3 4 4 4 5 5 #频道 wbifpn 64 88 112 160 224 288 384 384 #层 dbifpn 3 4 5 6 7 7 8 8 使用方程：提前增加深度（#层）箱=D 级=.3+我©/3J (2) 输入图像分辨率一由于 BiFPN 中使用了特征级别 3-7，因此输入分辨率必须可分 27=128，所以我们用方程：线性增加分辨率输入=512+©128 (3) 1,2，31，根据不同©的方程，我们开发了高效的 DET-D0 （©=0）到 D7（©7），如表所示，其中 D7 与 D6 相同，但分辨率较高。值得注意的是，我们的缩放是基于启发式的，可能不是最优的，但我们将表明，这种简单的缩放方法可以显著提高效率比其他单维缩放方法在图中 6. 6

模式高效 Det-DO（512）. YOLOv3[] 高效 DET-D1（640）视网膜网-R50（640）[] 视网膜网-R101（640）[23] 面具 R-CNN[] 高效 Det-D2（768）. 视网膜网-R50（1024）[] 视网膜网-R101（1024）[23] RES Net-50+NAS-FPN（640）[] 探测器 2 面具 R-CNNR101-FPN[] 探测器 2 面罩 R-CNNX101-FPN[] 高效 DET-D3（896） Res Net-50+NAS-FPN（1024）[] Res Net-50+NAS-FPN（1280）[] Res Net-50+NAS-FPN（1280@384）[10] 高效的 DET-D4（1024）阿米巴网+NAS-FPN+AA（1280）[] 高效 Det-D5（1280）. 高效 Det-D6（1280）. 阿米巴网+NAS-FPN+AA（1536）[] 高效 DET-D7（1536） AP 33.8 33.0 39.6 37.0 37.9 37.9 43.0 40.1 41.1 39.9 - - 45.8 44.2 44.8 45.4 49.4 - 50.7 51.7 - 53.7 - - - - - - - - test-dev ap50 AP75 52.2 57.9 58.6 - - - 62.3 - - - - - 65.0 - - - 69.0 - 70.2 71.2 - 72.4 瓦尔 AP 35.8 33.5 34.4 - 42.3 39.1 - - - 46.2 42.5 - - - 42.9 44.3 49.3 45.9 - - - 53.4 49.0 48.6 54.7 50.5 56.0 51.3 50.7 58.4 53.4 - - - - - 帕拉姆 - 比例 FLOPs 比例 1x 28 倍 1x 16 倍 21 倍 25 倍 1x 23 倍 30 倍 13 倍 15 倍 25 倍 1x 15 倍 23 倍 42 倍 1x 24 倍 1x 1x 13 倍 1x 3.9 米 1x 2.5b 71b - 6.1b 6.6m 1x 34 米 6.7x 97b 53 米 8.0 倍 127b 149b 44m 6.7x 8.1m 11b 1x 248b 34 米 4.3x 326b 53 米 6.6x 60 米 7.5x 141b 164b 63 米 7.7x 277b 107 米 13 倍 12 时 1x 25b 360b 60 米 5.1x 60 米 5.1x 563b 104 米 8.7x 1043b 21 米 1x 55b 185 米 8.8 倍 1317b 34 米 1x 52 米 1x 209 米 4.0x 3045b 52 米 1x 135b 226b 325b 延迟(ms). Titian V v100 10.2 - 13.5 - - - 17.7 - - - 56 丰 103* 29.0 - - - 42.8 - 72.5 92.8 - 12 - 16 25 32 - 23 47 60 38 - - 37 64 99 150 65 246 128 169 489 232 122 我们省略了集成和测试时间的多尺度结果..[29,12] 与丰的丰 Numbers 来自检测器 2，其他的是在同一台机器上测量的(TensorFlow2.1+CUDA10.1，没有 TensorRT)。 [24] 表 2：COCO 结果的有效 DET 性能是针对单模型单尺度的.. 测试-dev 是 COCO 测试集，val 是验证集。Params 和 FLOPs 表示参数的数目和乘法加法。延迟表示具有批处理大小 1.的推理延迟[44]AA 表示自动增强。如果模型具有相似的精度，我们将它们分组在一起，并比较它们的模型大小、FLOPs 和每组的延迟。 [10][44][44] 形成最近的 NAS-FPN 及其增强版本，其参数和 FLOP 要少得多。特别是，我们的高效 Det-D7 实现了一个新的最先进的 53.7AP 在测试-dev 和 53.4AP 在 Val 为单模型单尺度。值得注意的是，与需要特殊设置的现有技术不同(例如，将锚从 3x3 更改为 9x9，具有模型并行性的训练，并依赖于自动增强)，所有有效的 Det 模型都使用相同的 3x3 锚，并在没有模型并行性或自动增强的情况下进行训练。此外，我们还比较了 Titan-V 和 V100GPU 和单线程 CPU 的推理延迟。值得注意的是，我们的 V100 延迟是端到端的，包括预处理和 NMS 后处理。图显示了模型大小和 GPU/CPU 延迟的比较。为了公平比较，这些数字只包括在相同设置的同一台机器上测量的结果。与以前的检测器相比，高效 Det 模型在 GPU 上的速度高达 4.1 倍，在 CPU 上的速度更快 10.8 倍，这表明它们在现实世界的硬件上也是高效的。4 5.2. 语义分割的有效细节 [18]虽然我们的高效 Det 模型主要是为 Otject 检测而设计的，但我们也对它们在语义分割等其他任务上的性能感兴趣。接下来，我们修改了我们的有效 DET 模型，以保持 BiFPN 中的特征级别{P2，P3，...，P7}，但只使用 P2 进行最终的每像素分类。为了简单起见，这里我们只评估一个基于 Det-D4 的高效模型，它使用了一个 Image Net 预先训练的高效 Net-B4 骨干(大小类似于 ResNet-50)。我们将 BiFPN 的信道大小设置为 128，分类头为 256。双 FPN 和分类头重复 3 次。 3[6][9]表显示了我们的模型与以前的深度实验室 V3+在 PascalVOC2012 上的比较。值得注意的是，我们排除了这些结果与集成，测试时间增加，或 COCO 预训练。在相同的单模型单尺度设置下，我们的模型比深度实验室 V3+的现有技术获得了 1.7%的更好的精度和 9.8 倍的 FLOP。这些结果表明这是有效的[6] 7

52.5 50.0 47.5 45.0 < O o 42.5 40.0 d2 缺陷 D6 ~/Res 网+NAS-FPN “，Retina Net 我的比例 D1I，r>czz 高效 Det-D2 Mas^r-cnn 视网膜网[] 37.5 35.0 )0 高效的 Det-D3. Res Net+NASFPN [0 有效的 D6 号探测器阿米巴网+NAS-FPN[] 50 100 参数(M). 8 米 53 米 6.6x 12 米 104 米 8.7x 52 米 209 米 4.0x 52 50 48 □_46 < o O o 44 42 40 38 高效的 DET-D6. d5 d4 “Res Net+NAS-FPN d3 d2 / 视网膜网 d1 / 高效的 Det-D2. 视网膜网[23]_____ 高效的 Det-D3. Res Net+NASFPN [10] 高效的 DET-D6. 阿米巴网+NAS-FPN[44] 高效的 DET-D6. 52 50 48 d5 d4 □_46 < o O o 44 42 d3 d2/ 40 38 //视网膜网 d1 4—— /‘‘RES 网+NAS-FPN 高效的 Det-D2. 视网膜网[23] 高效的 Det-D3. Res Net+NASFPN[10] 高效的 DET-D6. 阿米巴网+NAS-FPN[44] I LAT 比率 1.2s 9.7s8.1x 2.5 秒 27s llx 16 岁 83秒 5.2 倍 20 40 CPU 延迟 60 80 比例 23 女士 60ms2.6x 37 女士 150ms4.1x 169 毫秒489 毫秒 2.9 倍 0.4 0.5 150 200 0.0 0.1 0.2 GPU 延迟 0.3 (a)型号尺寸 (b)GPU 延迟 (c)CPU 延迟图 4：模型大小和推理延迟比较延迟是用批处理大小 1 测量的同一台机器上配备了泰坦 V GPU 和 Xeon CPU。 [44]AN 表示经过自动增强训练的 Amoeba Net+NAS-FPN。我们的高效 DET 模型是 4x9x 小，2x4x 在 GPU 上更快，5x-11x 在 CPU 上比其他探测器更快。模式深实验室 V3+(ResNet-101)[] 深实验室 V3+(Xception)[] 我们的高效侦探^ 高效 Det-D4 的修改版本。我欠条帕拉姆 FLOPs 298b 177b 18b 79.35% 80.02% 81.74% 17 米 - - 表 3：PascalVOC 语义分割的性能比较。在语义分割方面，DET 也很有前途。 6. 堕胎研究在本节中，我们为我们提出的高效 DET 提供了各种设计选择。为了简单起见，这里的所有精度结果都是 COCO 验证集。 6.1. 分离骨干和 BiFPN 4[23][14][22]由于高效 Det 同时使用强大的骨干和新的 BiFPN，我们希望了解它们对提高精度和效率有多大的贡献。表比较了骨干和 BiFPN 的影响。从具有 ResNet-50 骨干和自顶向下 FPN 的视网膜网络检测器开始，我们首先用高效的 Net-B3 替换骨干，这提高了大约 3AP 的精度，参数和 FLOP 略少。通过进一步取代 FPN 与我们提出的 BiFPN，我们实现了额外的 4AP 增益与更少的参数和 FLOP。这些结果表明，有效的网络骨干和 BiFPN 都是我们的最终模型的关键。 8 6.2. 双 FPN 跨尺度连接 5 表显示了图中列出的具有不同跨尺度连接的特征网络的准确性和模型复杂性，值得注意的是，原始 FPN 和 PANET 只有一个自上而下或自下而上的流，但是 2.[22][25] 重置 Net50+FPN 高效的 Net-B3+FPN 高效的 Net-B3+BiFPN AP 37.0 40.3 44.4 参数 34 米 21 米 12 时 FLOPs 97b 75b 24b 表 4 ：从标准视网膜网 (ResNet50+FPN) 中分离骨干和 BiFPN，我们首先用高效的 Net-B3 替换骨干，然后用我们提出的 BiFPN 替换基线 FPN。为了进行公平的比较，这里我们重复了它们中的每一个，并将所有的卷积替换为深度可分离的卷积，这与 BiFPN 相同。我们使用相同的骨干和类/盒预测网络，所有实验都使用相同的训练设置。正如我们所看到的，传统的自顶向下 FPN 本质上受到单向信息流的限制，因此具有最低的精度。虽然重复 FPN+PANet 比 NASFPN 获得了略好的精度，但它也需要更多的参数和 FLOP。我们的 BiFPN 实现了类似的精度重复 FPN+PANET，但使用更少的参数和 FLOP。通过附加加权特征融合，我们的 BiFPN 以较少的参数和 FLOP 进一步达到了最佳的精度。[10]

分享到：

赞收藏

资料库

EfficientDet- Scalable and Efficient Object Detection(中文版).pdf

相关推荐

人工智能

热门标签

最新资料