logo资料库

EfficientDet- Scalable and Efficient Object Detection(中文版).pdf

第1页 / 共12页
第2页 / 共12页
第3页 / 共12页
第4页 / 共12页
第5页 / 共12页
第6页 / 共12页
第7页 / 共12页
第8页 / 共12页
资料共12页,剩余部分请下载后查看
高效检测:可伸缩、高效的对象检测
阿希夫:1911.09070v6[cs。 简历】2020年6月14日.
摘要
1. 导言
2.相关工作
3.Bi FPN
3.1.问题的提出
3.2.跨尺度连接
3.3.加权特征融合
4.高效的探员
4.1.高效的Det架构
4.2.复合缩放
5.实验
5.1.用于对象检测的高效Det
5.2.语义分割的有效细节
6.堕胎研究
6.1.分离骨干和BiFPN
6.2.双FPN跨尺度连接
6.3.Softmax与快速归一化融合
6.4.复合缩放
7.结论
鸣谢
参考资料
阿 希 夫 : 19 11 .0 90 70 v6 [c s。 简 历 】 高效检测:可伸缩、高效的对象检测 明兴谭若明庞国乐 谷歌研究,大脑团队 {tanmingxing,rpang,qvl}@google.com 摘要 高效的 DET-D7 模型效率在计算机视觉中变得越来越重要。在本文中, 我们系统地研究了用于对象检测的神经网络体系结构设计 选择,并提出了几种提高效率的关键优化。首先,我们提 出了一种加权双向特征金字塔网络(BiFPN),它允许简单和 快速的多尺度特征融合;其次,我们提出了一种复合尺度 方法,它同时均匀地缩放所有主干网、特征网络和盒/类预 测网络的分辨率、深度和宽度。基于这些优化和更好的骨 架,我们开发了一个新的对象检测器家族,称为高效Det, 它在广泛的资源约束中始终比现有技术获得更好的效率。 特别是,在单模型和单尺度的情况下,我们的高效Det-D7 在COCO 测试设备上实现了最先进的53.7AP,具有52M 参数,325B FLOP 比以前的检测器小4x9x,使用13x42x 的FLOP。代码可在https://github.com/google/automl/tree/ 主/高效DET 上获得。s‘, 1. 导言 [44][23]近年来,在更精确的物体检测方面取得了巨大 的进展,同时,最先进的物体探测器也变得越来越昂贵。例 如,最新的基于 AmoebaNet 的 NASFPN 探测器需要 167M 参数和 3045B FLOP(比 RetinaNet 多 30 倍)才能达到最先进 的精度。 大型模型尺寸和昂贵的计算成本阻止了它们在许 多现实世界应用中的部署,例如机器人和自动驾驶汽车, 在这些应用中,模型大小和延迟受到高度限制。 鉴于这些 现实世界的资源约束,模型效率对于对象检测变得越来越 重要.. 以前有许多工作旨在开发更有效的检测器体系结构,例 如 [14,38]与此类似,FLOPs 表示乘法加法的数目。 d3 d2 45 cl < 不 , 不 40 35 视网膜网 面具 R-CNN 1YOLOv3/ 30 1 I 200 阿米巴网+NAS-FPN+AA. Res Net+NAS-FPN Eificient Det-DU YOLOv3[] 高效的 DET-D1 视网膜网[] 面具 R-CNN[] 高效的 DET-D6. 阿米巴网+NAS-FPN+AAt 未绘制。 [卩 600 800 FLOPs(十亿) 1000 AP FLOPs(比率) 33.82.5b 33.071B(28 倍) 39.66.1b 37.097B(16 倍) 37.9149B(25 倍) 51.7229b 50.73045B(13 倍) 1200 图 1:FLOPs 模型与 COCO 精度所有数字都是针对单模型 的单尺度。我们的高效 DET 实现了新的最先进的 53.7%的 COCOAP 与以前的探测器更少的参数和 FLOP。 更多关于 不同骨架和 FPN/NAS-FPN/BIFPN 的研究在表中,完整的 结果在表中 45.2. [26,32,33,23][20,43,39][27,28]舞台和无锚探测器,或压 缩现有模型。 虽然这些方法倾向于获得更好的效率,但它 们通常会牺牲准确性.. 此外,大多数以前的工作只关注特 定或小范围的资源需求,但从移动设备到数据中心的各种 实际应用程序往往需要不同的资源约束。 一个自然的问题是:是否有可能在广泛的资源约束(例 如从 3B 到 300B FLOP)中建立一个具有更高精度和更高效 率的可伸缩检测体系结构? 本文旨在通过系统研究探测 器结构的各种设计选择来解决这一问题。 基于星型检测器 范式,我们研究了主干、特征融合和类/盒网络的设计选择, 并确定了两个主要挑战: 挑战1:高效的多尺度特征融合自引入以来,FPN 已被 广泛应用于多领域[22] 1
2
[25][10][19,17,41]尺度特征融合。最近,PANET、NAS-FPN 等研究开发了更多的跨尺度特征融合网络结构。 在融合不 同的输入特征的同时,大多数以前的工作只是不加区分地总 结它们;然而,由于这些不同的输入特征具有不同的分辨率, 我们观察到它们通常对融合的输出特征作出不平等的贡献。 为了解决这一问题,我们提出了一种简单而高效的加权双向 特征金字塔网络(BiFPN),它引入可学习的权重来学习不同 输入特征的重要性,同时反复应用自上而下和自下而上的多 尺度特征融合。 多尺度特征.. 遵循这一思想,PANET 在 FPN 之上增加了一 个额外的自下而上的路径聚合网络;STDL 提出了一个尺度 转移模块来利用跨尺度特征;M2DET 提出了一个 U 形模块 来融合多尺度特征,G-FRNet 引入了门单元来控制跨特征的 信息流。 最近,NAS-FPN 利用神经结构搜索自动设计特征 网络拓扑。虽然它获得了更好的性能,但 NAS-FPN 在搜索 过程中需要数千 GPU 小时,由此产生的特征网络是不规则 的,因此难以解释。 本文旨在以一种更直观、更有原则的 方式优化多尺度特征融合。 模型缩放:为了获得更好的精度,通常使用更大的骨干网 络 ( 例 如 , 从 移 动 尺 寸 模 型 和 ResNet , 到 ResNeXt 和 AmoebaNet)或增加输入图像大小(例如,从 512x512)来放大 基线检测器[37,15][14][40][31] [23] [44][10,44][38]至 1536x1536)。 最近的一些工作表明, 增加信道大小和重复特征网络也可以导致更高的精度。 这 些缩放方法主要集中在单个或有限的缩放维度上。 最近, 通过联合扩展网络宽度、深度和分辨率,证明了图像分类的 显著模型效率。 我们提出的目标检测的复合标度方法大多 受到启发。[38] 3. Bi FPN 在这一部分中,我们首先制定了多尺度特征融合问题, 然后介绍了我们提出的 BiFPN 的主要思想:高效的双向跨 尺度连接和加权特征融合。 3.1. 问题的提出 多尺度特征融合旨在聚合不同分辨率的特征。 形式上, 给定多尺度特征列表 P. =(p;普,...),其中 P:;表示 l 级的特征:,我们的目标是找到一个转换 f,它可以有效地 聚合不同的特征并输出一个新特征列表:P 出去 =f(P.)。 作 为一个具体的例子, [23,34,33,10][13,44][38]挑战 2:模型缩放虽然以前的 工作主要依靠更大的骨干网络或更大的输入图像大小来获 得更高的精度,但我们观察到,在考虑精度和效率时,扩展 特征网络和框/类预测网络也是至关重要的.. 在最近的工作 的启发下,我们提出了一种对象检测器的复合缩放方法,该 方法联合缩放所有主干、特征网络、框/类预测网络的分辨 率/深度/宽度。 [38]最后,我们还观察到,最近引入的高效网比以前常用 的骨干获得了更好的效率。 将高效网络骨架与我们提出的 BiFPN 和复合尺度相结合,我们开发了一种新的对象检测器 家族,称为高效 Det,它始终以比以前的对象检测器更少的 参数和 FLOP 来获得更好的精度。 图和图形显示 COCO 数 据集上的性能比较。在类似的精度约束下,我们的有效 DET 使用的 FLOP 比 YOLOv3 少 28 倍,FLOP 比 RetinaNet 少 30 倍,FLOP 比最近基于 ResNet 的 NAS-FPN 少 19 倍。 特别 是,在单模型和单测试时间尺度下,我们的高效 Det-D7 实 现了最先进的 53.7AP 和 52M 参数和 325B FLOP,在 1.5AP 的情况下优于以前最好的检测器,而在 4 倍小和使用 13 倍 少的 FLOP。我们的高效 DET 在 GPU/CPU 上也比以前的检 测器快 4 倍至 11 倍。 14[24][33][23][10][44] 通过简单的修改,我们还证明了我们的单模型单尺度有 效 Det 在 PascalVOC2012 语义分割上以 18B FLOPs 实现了 81.74%的 IOU 精度,比 DeepLabV3+高 1.7%,而 FLOPs 较 少 9.8 倍。[6] 2. 相关工作 [11,34,5,13][35,26,32,23][16][20,41,43]一段检测器: 现有的对象检测器主要按它们是否有兴趣区域建议步骤(两 阶段)(初始)进行分类。虽然两级探测器往往更灵活和更准 确,但一级探测器通常被认为是更简单和更有效的利用预定 义的锚。 近年来,单级探测器由于其效率和简单性而引起 了人们的广泛关注。 在本文中,我们主要遵循一阶段检测 器设计,我们表明,通过优化的网络体系结构,可以实现更 好的效率和更高的精度。 多尺度特征表示:目标检测的主要难点之一是有效地表示和 处理多尺度特征。 早期的检测器通常直接执行基于从骨干 网络中提取的金字塔特征层次的预测。 特征金字塔网络 (FPN)作为开创性的作品之一.[4,26,35] [22] [25][42][41][2][10]提出了一种自上而下的途径来结合 3
[22][25][10]图 2:特征网络设计一(A)FPN 引入了自顶向下的路径来融合从 3 级到 7 级的多尺度特征(P3P7);(B)PANET 在 FPN 的顶部增加了一个额外的自下而上的路径;(C)NAS-FPN 使用神经结构搜索来寻找不规则的特征网络拓扑,然后重复 应用同一块;(D)是我们的 BiFPN,具有更好的准确性和效率权衡。 如果原始输入到输出节点处于同一级别,我们将额外的边缘 添加到输出节点,以便在不增加大量成本的情况下融合更多 的特征;第三,与 PANet 只具有一个自顶向下和一个自底 向上的路径不同,我们将每个双向(自顶向下和自底向上) 路径视为一个特征网络层,并多次重复同一层以实现更高级 别的特征融合。 本节将讨论如何使用复合缩放方法确定不 同资源约束的层数。 通过这些优化,我们将新的特征网络 命名为双向特征金字塔网络(BiFPN),如图和所示[25] 4.2 23. 3.3. 加权特征融合 [21][10] 当融合具有不同分辨率的特征时,一种常见的方 法是首先将它们调整到相同的分辨率,然后对它们进行总 结。 金字塔注意网络引入全局自注意上采样来恢复像素定 位,对此进行了进一步的研究。 以前的所有方法都一视同 仁地对待所有输入特性。 然而,我们观察到,由于不同的 输入特征具有不同的分辨率,它们通常对输出特征的贡献是 不平等的。 为了解决这个问题,我们建议为每个输入增加 一个额外的权重,并让网络学习每个输入特性的重要性。基 于这一思想,我们考虑了三种加权融合方法: 无界融合:O=£.i 哪里是 a 2( 图 a)显示了传统的自上而下的 FPN。 它需要 3-7 级输入 特征 P[22] =(P 攀,.PT P),哪里 P?n 表示分辨率为 1/2 的特 征级别 z 输入图像。 例如,如果输入分辨率为 640x640,则 P*n 表示特征级别 3(640/2)3 =80),分辨率 80x80,而 P^n 表示具有分辨率 5x5 的特征级别 7。 传统的 FPN 以自上而 下的方式聚合多尺度特征: p7°ut =Conv(P 貿) P 辭=Conv(P 芸+Resize(P°ut)) p°ut =Conv(P3)n+调整(P°ut)) 其中 Resize 通常是用于分辨率匹配的上采样或下采样 OP, 而 Conv 通常是用于特征处理的卷积 OP。 3.2. 跨尺度连接 [25]2([19,17,41][10] 传统的自上而下的 FPN 本质上受到 单向信息流的限制.. 为了解决这个问题,PANET 增加了一 个额外的自下而上的路径聚合网络,如图 b 所示)。 进一步 研究了跨尺度连接。 最近,NAS-FPN 采用神经架构搜索来 搜索更好的跨尺度特征网络拓扑结构,但在搜索过程中需要 数千 GPU 小时,发现的网络不规则,难以解释或修改,如 图 c 所示)..2( 5)通过研究这三种网络的性能和效率(表),我们观察 到 PANet 比 FPN 和 NAS-FPN 获得了更好的精度,但代价 是更多的参数和计算。 为了提高模型的效率,本文提出了 几种跨尺度连接的优化方法:首先,去除只有一个输入边的 节点。 我们的直觉很简单:如果一个节点只有一个输入边 缘,没有特征融合,那么它对旨在融合不同特征的特征网络 的贡献就会更小。 这导致了一个简化的双向网络;第二, 4
可学习的权重,可以是标量(每特征)、向量(每通道)或多维 张量(每像素)。 我们发现一个尺度可以达到与其他方法相 当的精度,以最小的计算成本。 然而,由于标量权重是无 界的,它可能会导致训练不稳定。 因此,我们采用权重归 一化来约束每个权重的值范围。 骨干网络中获取 3-7 级特征{琢 P^R、P、P7},并反复应用 自顶向下和自下而上的双向特征融合。 这些融合的特征被 馈送到类和盒网络中,分别产生对象类和包围盒预测。 类 似地,类和框网络权重在所有级别的特性之间共享。[23] 4.2. 复合缩放 为了优化精度和效率,我们希望开发一系列能够满足广 泛资源约束的模型。 这里的一个关键挑战是如何扩大基线 高效 Det 模型。 [40][31][10][38][10,38][38]以前的工作主要是通过使用 更大的骨干网络(例如 ResNeXt 或 AmoebaNet)、使用更大的 输入图像或堆叠更多的 FPN 层来扩展基线检测器。 这些方 法通常是无效的,因为它们只关注单个或有限的缩放维度。 最近的工作表明,通过联合缩放网络宽度、深度和输入分辨 率的所有维度,图像分类具有显著的性能。 在这些工作的 启发下,我们提出了一种新的目标检测复合标度方法,它使 用一个简单的复合系数©来联合缩放主干、BiFPN、类/盒网 络和分辨率的所有维度。 与之不同的是,与图像分类模型 相比,otject 检测器具有更多的缩放维度,因此对所有维度 的网格搜索是昂贵的。 因此,我们使用了一种基于启发式 的缩放方法,但仍然遵循联合缩放所有维度的主要思想。 骨干网络,我们重用相同的宽度/深度缩放系数的有效网络 -B0 到 B6,这样我们可以很容易地重用他们的图像网络解 释检查点。[38] 我们线性增加了 BiFPN 深度 Dh如果pn (#层)因为深度需要 四舍五入到小整数。 对于 BiFPN 宽度 WbIFPn (#通道),双 FPN 宽度 W 呈指数增长 bIFPn[38](#频道)类似。 具体地, 我们在值列表(1.2、1.25、1.3、1.35、1.4、1.45}上执行网格 搜索,并选择最佳值 1.35 作为 BiFPN 宽度缩放因子。 形式 上,BiFPN 的宽度和深度用以下方程缩放: dbIFPn =3+© wbIFPn =64•(1.35。), ⑴ 盒/类预测网络我们将它们的宽度固定为与 BiFPN(即 WP) 始终相同红色的=Wbifpn),但林 基于 Softmax 的融合:O=EI i ew e 叱 Ii.直觉 思想是将 Softmax 应用于每个权 重,使所有权重归一化为一个值 范围为 0 到 1 的概率,表示每个输 入的重要性。 然 而,正如我们在章节中的消融研究所示,额外的 Softmax 导 致 GPU 硬件的显著放缓。 为了最小化额外的延迟成本,我 们进一步提出了一种快速融合方法。6.3, 快速归一化融合:O=EI.-------------------- ---------- 伊,在哪里 e+jwj Wi 通过在每个 Wi 之后应用 Relu 来确保 Wi>0,并且 e=0。 为了避免数值不稳定,0001 是一个很小的值。 同样,每个 归一化权重的值也在 0 到 1 之间,但由于这里没有 Softmax 操作,所以效率要高得多。 我们的消融研究表明,这种快 速融合方法与基于 Softmax 的融合具有非常相似的学习行 为和准确性,但在 GPU 上运行速度高达 30%(表)。6) 我们的最终 BiFPN 集成了双向交叉尺度连接和快速归一 化融合。 作为一个具体的例子,这里我们描述了两个融合 特征在 6 级的 BiFPN,如图所示):2( d=Conv(w r“ +w“Reme(P7n) +w2+e 丿 =C°nv(wl:也+w2:堂 +w·Resized 炒)w; +w2+w W1+W2+e 其中 P“是自顶向下路径 上 6 级的中间特征, P0ut 是自下而上路径上 6 级 的 输 出 特 征。所有其他特征都是以类 似的方式构 造的。 值得注意的是,为了进一步提高效率,我们使用深 度可分离卷积进行特征融合,并在每次卷积后添加批归一化 和激活。[7,36] w;+w2+w3+e 4. 高效的探员 基于我们的 BiFPN,我们开发了一个新的检测模型家族, 称为高效 Det。在本节中,我们将讨论网络体系结构和一种 新的高效 Det 复合缩放方法。 4.1. 高效的 Det 架构 3[26,32,22,23] 数字显示了高效 Det 的总体架构,它 主要遵循一阶段检测器范式。 我们采用图像网络解释有效 网作为骨干网络。 我们提出的 BiFPN 作为特征网络,它从 5
高效的网络骨干 [38] 图 3:高效的 DET 体系结构一它采用高效网络作为骨干网络,BiFPN 作为特征网络,共享类/盒预测网络。 基于不同 的资源约束,BiFPN 层和类/盒网层都会重复多次,如表所示 1. 5. 实验 5.1. 用于对象检测的高效 Det [24] 我们用 118K 训练图像评估 COCO2017 检测数据集 的有效 DET。每个模型使用动量 0.9 和重量衰减 4e-5 的 SGD 优化器进行训练。 学习率在第一个训练阶段从 0 线性增加 到 0.16,然后使用余弦衰减规则退火。 在每次卷积后加入 同步批归一化,批范数衰减 0.99 和 epsilon1e-3。与之相同, 我们使用了衰减 0.9998 的 SWIS H 活化和指数移动平均值。 我们还使用通常使用的焦点损失与=0。[38][30,8][23] 25 和 7=1。[23] 和纵横比(1/2,1,2}。 我们使用 RetinaNnet 预处理 与训练时间翻转和缩放.. 对于 D0-D6,每个模型在 32 个 TPUv3 核上训练 300 个具有总批量 128 的历元,并使用标准 NMS 进行评估。 为了进一步推动信封,我们训练 D7600 个 时代,并应用软 NMS。[3] 2 表将有效 Det 与其他对象检测器进行比较,在单模型 单尺度设 置下,没有测 试时间增强。 我们报告 了测试 -dev(20K 测试图像没有公共地面真相)和 val(5K 验证图像与 地面真相)的准确性。我们的高效 DET 比以前的探测器获得 更好的效率,是 4x 一 9x 小,使用 13x42x 少 FLOP 跨越广 泛的精度或资源限制。 在相对低精度的情况下,我们的高 效 Det-D0 实现了与 YOLOv3 相似的精度,FLOPs 较少 28 倍。 与 RetinaNet 和 Mask-RCNN 相比,我们的高效 Det-D1 具有相似的精度,参数少 8 倍,FLOP 少 21 倍。 在高精度 的制度下,我们的高效 Det 也一直表现出色[23][13] 骨干 网络 输入大小 输入 Bi FPN 框/类#层 d 上 b0 b1 b2 b3 b4 b5 b6 b6 512 640 768 896 1024 1280 1280 1536 d0(©=0) D1(©=1) D2(©=2) d3(©=3) d4(©=4) d5(©=5) d6(©=6) d7 表 1:有效 DETD0-D6 一的缩放配置©是控制所有其他缩放 维度的复合系数;BiFPN、盒/类网和输入大小分别使用方程 进行缩放。1,2, 3 课 3 3 3 4 4 4 5 5 #频道 wbifpn 64 88 112 160 224 288 384 384 #层 dbifpn 3 4 5 6 7 7 8 8 使用方程:提前增加深度(#层) 箱=D 级=.3+我©/3J (2) 输入图像分辨率一由于 BiFPN 中使用了特征级别 3-7,因此 输入分辨率必须可分 27=128,所以我们用方程:线性增加分 辨率 输入=512+©128 (3) 1,2,31,根据不同©的方程,我们开发了高效的 DET-D0 (©=0)到 D7(©7),如表所示,其中 D7 与 D6 相同,但 分辨率较高。 值得注意的是,我们的缩放是基于启发式的, 可能不是最优的,但我们将表明,这种简单的缩放方法可以 显著提高效率比其他单维缩放方法在图中 6. 6
模式 高效 Det-DO(512). YOLOv3[] 高效 DET-D1(640) 视网膜网-R50(640)[] 视网膜网-R101(640)[23] 面具 R-CNN[] 高效 Det-D2(768). 视网膜网-R50(1024)[] 视网膜网-R101(1024)[23] RES Net-50+NAS-FPN(640)[] 探测器 2 面具 R-CNNR101-FPN[] 探测器 2 面罩 R-CNNX101-FPN[] 高效 DET-D3(896) Res Net-50+NAS-FPN(1024)[] Res Net-50+NAS-FPN(1280)[] Res Net-50+NAS-FPN(1280@384)[10] 高效的 DET-D4(1024) 阿米巴网+NAS-FPN+AA(1280)[] 高效 Det-D5(1280). 高效 Det-D6(1280). 阿米巴网+NAS-FPN+AA(1536)[] 高效 DET-D7(1536) AP 33.8 33.0 39.6 37.0 37.9 37.9 43.0 40.1 41.1 39.9 - - 45.8 44.2 44.8 45.4 49.4 - 50.7 51.7 - 53.7 - - - - - - - - test-dev ap50 AP75 52.2 57.9 58.6 - - - 62.3 - - - - - 65.0 - - - 69.0 - 70.2 71.2 - 72.4 瓦尔 AP 35.8 33.5 34.4 - 42.3 39.1 - - - 46.2 42.5 - - - 42.9 44.3 49.3 45.9 - - - 53.4 49.0 48.6 54.7 50.5 56.0 51.3 50.7 58.4 53.4 - - - - - 帕拉姆 - 比例 FLOPs 比例 1x 28 倍 1x 16 倍 21 倍 25 倍 1x 23 倍 30 倍 13 倍 15 倍 25 倍 1x 15 倍 23 倍 42 倍 1x 24 倍 1x 1x 13 倍 1x 3.9 米 1x 2.5b 71b - 6.1b 6.6m 1x 34 米 6.7x 97b 53 米 8.0 倍 127b 149b 44m 6.7x 8.1m 11b 1x 248b 34 米 4.3x 326b 53 米 6.6x 60 米 7.5x 141b 164b 63 米 7.7x 277b 107 米 13 倍 12 时 1x 25b 360b 60 米 5.1x 60 米 5.1x 563b 104 米 8.7x 1043b 21 米 1x 55b 185 米 8.8 倍 1317b 34 米 1x 52 米 1x 209 米 4.0x 3045b 52 米 1x 135b 226b 325b 延迟(ms). Titian V v100 10.2 - 13.5 - - - 17.7 - - - 56 丰 103* 29.0 - - - 42.8 - 72.5 92.8 - 12 - 16 25 32 - 23 47 60 38 - - 37 64 99 150 65 246 128 169 489 232 122 我们省略了集成和测试时间的多尺度结果..[29,12] 与丰的丰 Numbers 来自检测器 2,其他的是在同一台机器上测量的(TensorFlow2.1+CUDA10.1,没有 TensorRT)。 [24] 表 2:COCO 结果的有效 DET 性能是针对单模型单尺度的.. 测试-dev 是 COCO 测试集,val 是验证集。Params 和 FLOPs 表示参数的数目和乘法加法。 延迟表示具有批处理大小 1.的推理延迟[44]AA 表示自动增强。 如果模型具有相似的精度, 我们将它们分组在一起,并比较它们的模型大小、FLOPs 和每组的延迟。 [10][44][44] 形成最近的 NAS-FPN 及其增强版本,其参数和 FLOP 要少得多。 特别是,我们的高效 Det-D7 实现了一个 新的最先进的 53.7AP 在测试-dev 和 53.4AP 在 Val 为单模型 单尺度。值得注意的是,与需要特殊设置的现有技术不同(例 如,将锚从 3x3 更改为 9x9,具有模型并行性的训练,并依 赖于自动增强),所有有效的 Det 模型都使用相同的 3x3 锚, 并在没有模型并行性或自动增强的情况下进行训练。 此外,我们还比较了 Titan-V 和 V100GPU 和单线程 CPU 的推理延迟。值得注意的是,我们的 V100 延迟是端到端的, 包括预处理和 NMS 后处理。图显示了模型大小和 GPU/CPU 延迟的比较。 为了公平比较,这些数字只包括在相同设置 的同一台机器上测量的结果。 与以前的检测器相比,高效 Det 模型在 GPU 上的速度高达 4.1 倍,在 CPU 上的速度更 快 10.8 倍,这表明它们在现实世界的硬件上也是高效的。4 5.2. 语义分割的有效细节 [18]虽然我们的高效 Det 模型主要是为 Otject 检测而设计 的,但我们也对它们在语义分割等其他任务上的性能感兴 趣。 接下来,我们修改了我们的有效 DET 模型,以保持 BiFPN 中的特征级别{P2,P3,...,P7},但只使用 P2 进行 最终的每像素分类。 为了简单起见,这里我们只评估一个 基于 Det-D4 的高效模型,它使用了一个 Image Net 预先训 练的高效 Net-B4 骨干(大小类似于 ResNet-50)。 我们将 BiFPN 的信道大小设置为 128,分类头为 256。双 FPN 和分 类头重复 3 次。 3[6][9]表显示了我们的模型与以前的深度实验室 V3+在 PascalVOC2012 上的比较。 值得注意的是,我们排除了这 些结果与集成,测试时间增加,或 COCO 预训练。 在相同 的单模型单尺度设置下,我们的模型比深度实验室 V3+的现 有技术获得了 1.7%的更好的精度和 9.8 倍的 FLOP。这些结 果表明这是有效的[6] 7
52.5 50.0 47.5 45.0 < O o 42.5 40.0 d2 缺陷 D6 ~/Res 网+NAS-FPN “,Retina Net 我的比例 D1I,r>czz 高效 Det-D2 Mas^r-cnn 视网膜网[] 37.5 35.0 )0 高效的 Det-D3. Res Net+NASFPN [0 有效的 D6 号探测器 阿米巴网+NAS-FPN[] 50 100 参数(M). 8 米 53 米 6.6x 12 米 104 米 8.7x 52 米 209 米 4.0x 52 50 48 □_46 < o O o 44 42 40 38 高效的 DET-D6. d5 d4 “Res Net+NAS-FPN d3 d2 / 视网膜网 d1 / 高效的 Det-D2. 视网膜网[23]_____ 高效的 Det-D3. Res Net+NASFPN [10] 高效的 DET-D6. 阿米巴网+NAS-FPN[44] 高效的 DET-D6. 52 50 48 d5 d4 □_46 < o O o 44 42 d3 d2/ 40 38 //视网膜网 d1 4—— /‘‘RES 网+NAS-FPN 高效的 Det-D2. 视网膜网[23] 高效的 Det-D3. Res Net+NASFPN[10] 高效的 DET-D6. 阿米巴网+NAS-FPN[44] I LAT 比率 1.2s 9.7s8.1x 2.5 秒 27s llx 16 岁 83秒 5.2 倍 20 40 CPU 延迟 60 80 比例 23 女士 60ms2.6x 37 女士 150ms4.1x 169 毫 秒489 毫秒 2.9 倍 0.4 0.5 150 200 0.0 0.1 0.2 GPU 延迟 0.3 (a)型号尺寸 (b)GPU 延迟 (c)CPU 延迟 图 4:模型大小和推理延迟比较延迟是用批处理大小 1 测量的同一台机器上配备了泰坦 V GPU 和 Xeon CPU。 [44]AN 表 示经过自动增强训练的 Amoeba Net+NAS-FPN。 我们的高效 DET 模型是 4x9x 小,2x4x 在 GPU 上更快,5x-11x 在 CPU 上比其他探测器更快。 模式 深实验室 V3+(ResNet-101)[] 深实验室 V3+(Xception)[] 我们的高效侦探^ 高效 Det-D4 的修改版本。 我欠条 帕拉姆 FLOPs 298b 177b 18b 79.35% 80.02% 81.74% 17 米 - - 表 3:PascalVOC 语义分割的性能比较。 在语义分割方面,DET 也很有前途。 6. 堕胎研究 在本节中,我们为我们提出的高效 DET 提供了各种设 计选择。 为了简单起见,这里的所有精度结果都是 COCO 验证集。 6.1. 分离骨干和 BiFPN 4[23][14][22]由于高效 Det 同时使用强大的骨干和新的 BiFPN,我们希望了解它们对提高精度和效率有多大的贡 献。 表比较了骨干和 BiFPN 的影响。 从具有 ResNet-50 骨 干和自顶向下 FPN 的视网膜网络检测器开始,我们首先用 高效的 Net-B3 替换骨干,这提高了大约 3AP 的精度,参数 和 FLOP 略少。通过进一步取代 FPN 与我们提出的 BiFPN, 我们实现了额外的 4AP 增益与更少的参数和 FLOP。 这些 结果表明,有效的网络骨干和 BiFPN 都是我们的最终模型 的关键。 8 6.2. 双 FPN 跨尺度连接 5 表显示了图中列出的具有不同跨尺度连接的特征网 络的准确性和模型复杂性,值得注意的是,原始 FPN 和 PANET 只有一个自上而下或自下而上的流,但是 2.[22][25] 重置 Net50+FPN 高效的 Net-B3+FPN 高效的 Net-B3+BiFPN AP 37.0 40.3 44.4 参数 34 米 21 米 12 时 FLOPs 97b 75b 24b 表 4 : 从 标 准 视 网 膜 网 (ResNet50+FPN) 中 分 离 骨 干 和 BiFPN,我们首先用高效的 Net-B3 替换骨干,然后用我们 提出的 BiFPN 替换基线 FPN。 为了进行公平的比较,这里我们重复了它们中的每一个, 并将所有的卷积替换为深度可分离的卷积,这与 BiFPN 相 同。我们使用相同的骨干和类/盒预测网络,所有实验都使 用相同的训练设置。 正如我们所看到的,传统的自顶向下 FPN 本质上受到单向信息流的限制,因此具有最低的精度。 虽然重复 FPN+PANet 比 NASFPN 获得了略好的精度,但 它也需要更多的参数和 FLOP。 我们的 BiFPN 实现了类似 的精度重复 FPN+PANET,但使用更少的参数和 FLOP。通 过附加加权特征融合,我们的 BiFPN 以较少的参数和 FLOP 进一步达到了最佳的精度。[10]
分享到:
收藏