logo资料库

YOLOV4论文全文翻译.pdf

第1页 / 共24页
第2页 / 共24页
第3页 / 共24页
第4页 / 共24页
第5页 / 共24页
第6页 / 共24页
第7页 / 共24页
第8页 / 共24页
资料共24页,剩余部分请下载后查看
YOLOv4:目标检测的最佳速度和精度 摘要 有 许 多 功 能 可 以 提 高 卷 积 神 经 网 络 (CNN) 的 准 确 性 。 需 要 在 大 型 数 据 集 上 对 这 些 特 征 的 组 合 进 行 实 际 测 试 , 并 对 结 果 进 行 理 论 证 明 。 某 些 功 能 只 能 在 某 些 模 型 上 使 用 , 某 些 问 题 只 能 在 某 些 模 型 上 使 用 , 或 者 仅 适 用 于 小 型 数 据 集 ; 而 某 些 功 能 ( 例 如 批 归 一 化 和 残 差 连 接 ) 适 用 于 大 多 数 模 型 , 任 务 和 数 据 集 。 我 们 尝 试 此 类 通 用 功 能 包 括 加 权 残 差 连 接 (WRC) , 跨 阶 段 部 分 连 接 (CSP) , 跨 小 批 量 标 准 化 (CmBN) , 自 对 抗 训 练 (SAT) 和 Mish 激 活 。 我 们 使 用 以 下 新 功 能 : WRC , CSP , CmBN , SAT , Mish 激 活 , 马 赛 克 数 据 增 强 , CmBN , DropBlock 正 则 化 和 CIoU 损 失 函 数 ,并 结 合 使 用 其 中 的 一 些 功 能 以 实 现 最 新 的 结 果 :43.5% 的 AP(65.7 在 Tesla V100 上 ,MS COCO 数 据 集 的 实 时 速 度 约 为 65 FPS。源 代 码 位 于 https://github.com/AlexeyAB/darknet。 1、介绍 大 多 数 基 于 CNN 的 物 体 检 测 器 仅 适 用 于 推 荐 系 统 。 例 如 , 通 过 慢 速 精 确 模 型 执 行 通 过 城 市 摄 像 机 搜 索 空 闲 停 车 位 的 过 程 , 而 汽 车 碰 撞 警 告 则 与 快 速 不 精 确 模 型 有 关 。 提 高 实 时 物 体 检 测 器 的 精 度 不 仅 可 以 将 它 们 用 于 提 示 生 成 推 荐 系 统 , 还 可 以 用 于 独 立 的 过 程 管 理 和 人 工 输 入 减 少 。常 规 图 形 处 理 单 元(GPU) 上 的 实 时 对 象 检 测 器 操 作 允 许 它 们 以 可 承 受 的 价 格 进 行 大 量 使 用 。 最 精 确 的 现 代 神 经 网 络 不 能 实 时 运 行 , 并 且 需 要 大 量 的 GPU 来 进 行 大 批 量 的 训 练 。 我 们 通 过 创 建 可 在 常 规 GPU 上 实 时 运 行 的 CNN 来 解 决 此
类 问 题 , 而 对 于 CNN 而 言 , 训 练 只 需 一 个 常 规 GPU。 这 项 工 作 的 主 要 目 标 是 在 生 产 系 统 中 设 计 一 个 快 速 运 行 速 度 的 目 标 检 测 器 并 优 化 并 行 计 算 , 而 不 是 低 计 算 量 理 论 指 标 (BFLOP) 。 我 们 希 望 可 以 轻 松 地 训 练 和 使 用 设 计 的 对 象 。例 如 ,任 何 使 用 常 规 GPU 进 行 训 练 和 测 试 的 人 都 可 以 获 得 实 时 , 高 质 量 和 令 人 信 服 的 对 象 检 测 结 果 , 如 图 1 所 示 的 YOLOv4 结 果 。 我 们 的 贡 献 总 结 如 下 : 1. 我 们 开 发 了 一 种 高 效 而 强 大 的 物 体 检 测 模 型 。它 使 每 个 人 都 可 以 使 用 1080 Ti 或 2080 Ti GPU 来 训 练 超 快 速 和 准 确 的 物 体 检 测 器 。 2. 我 们 在 探 测 器 培 训 期 间 ,验 证 了 最 新 的 Bag of freebies 和 Bag of specials 检 测 方 法 的 影 响 。 3. 我 们 修 改 了 最 先 进 的 方 法 ,使 它 们 更 有 效 ,更 适 合 单 GPU 训 练 ,包 括 CBN [89],PAN [49],SAM [85]等 。 2、相关 工作 2.1 目标 检测 模型 现 代 检 测 器 通 常 由 两 部 分 组 成 ,一 个 是 在 ImageNet 上 预 训 练 的 骨 架 ,另 一 个 是 用 来 预 测 物 体 的 类 别 和 边 界 框 的 头 部 。对 于 在 GPU 平 台 上 运 行 的 检 测 器 ,其 主 干 可 以 是 VGG [68],ResNet [26],ResNeXt [86]或 DenseNet [30]。 对 于 在 CPU 平 台 上 运 行 的 检 测 器 , 其 主 干 可 以 是 SqueezeNet [31],MobileNet [28、66、27、 74]或 ShuffleNet [97、53]。 至 于 头 部 , 通 常 分 为 两 类 , 即 一 级 对 象 检 测 器 和 二 级 对 象 检 测 器 。最 有 代 表 性 的 两 级 对 象 检 测 器 是 R-CNN [19]系 列 ,包 括 快 速 R-CNN
[18] , faster R-CNN [64] , R-FCN [9] 和 Libra R-CNN [58] 。 也 有 可 能 使 二 级 对 象 检 测 器 成 为 无 锚 对 象 检 测 器 ,例 如 RepPoints [87]。对 于 一 级 目 标 检 测 器 ,最 具 代 表 性 的 模 型 是 YOLO [61、62、63],SSD [50]和 RetinaNet [45]。近 年 来 ,开 发 了 无 锚 的 一 级 物 体 检 测 器 。这 种 检 测 器 是 CenterNet [13],CornerNet [37、38],FCOS [78]等 。近 年 来 开 发 的 对 象 检 测 器 通 常 在 骨 架 和 头 部 之 间 插 入 一 些 层 ,这 些 层 通 常 用 于 从 不 同 的 阶 段 收 集 特 征 图 。 我 们 可 以 称 其 为 对 象 检 测 器 的 颈 部 。 通 常 , 颈 部 由 几 个 自 下 而 上 的 路 径 和 几 个 自 上 而 下 的 路 径 组 成 。 配 备 此 机 制 的 网 络 包 括 功 能 金 字 塔 网 络(FPN)[44],路 径 聚 合 网 络(PAN)[49],BiFPN [77]和 NAS-FPN [17]。 除 上 述 模 型 外 , 一 些 研 究 人 员 还 强 调 直 接 构 建 用 于 对 象 检 测 的 新 主 干 ( DetNet [43],DetNAS [7]) 或 新 的 整 个 模 型 (SpineNet [12],HitDetector [20]) 。 综 上 所 述 , 普 通 的 物 体 检 测 器 由 以 下 几 部 分 组 成 : 2.2 Bag of freebies 通 常 , 常 规 的 物 体 检 测 器 是 离 线 训 练 的 。 因 此 , 研 究 人 员 总 是 喜 欢 利 用 这 一 优 势 , 并 开 发 出 更 好 的 训 练 方 法 , 以 使 物 体 检 测 器 获 得 更 好 的 精 度 而 又 不 增 加 推 理 成 本 。我 们 称 这 些 方 法 为“bag of freebies”,仅 改 变 培 训 策 略 或 仅 增 加 培 训 成 本 。 数 据 增 强 是 对 象 检 测 方 法 经 常 采 用 的 并 且 符 合 免 费 赠 物 袋 定 义 的 方 法 。 数 据 增 强 的 目 的 是 增 加 输 入 图 像 的 可 变 性 , 从 而 设 计 的 物 体 检 测 模 型 对 从 不 同 环 境 获 得 的
图 像 具 有 更 高 的 鲁 棒 性 。 例 如 , 光 度 失 真 和 几 何 失 真 是 两 种 常 用 的 数 据 扩 充 方 法 , 它 们 无 疑 有 益 于 物 体 检 测 任 务 。 在 处 理 光 度 失 真 时 , 我 们 调 整 图 像 的 亮 度 , 对 比 度 , 色 相 , 饱 和 度 和 噪 点 。 对 于 几 何 变 形 , 我 们 添 加 了 随 机 缩 放 , 裁 剪 , 翻 转 和 旋 转 。 上 面 提 到 的 数 据 扩 充 方 法 都 是 逐 像 素 调 整 , 并 且 保 留 了 调 整 区 域 中 的 所 有 原 始 像 素 信 息 。 此 外 , 一 些 从 事 数 据 增 强 的 研 究 人 员 将 重 点 放 在 模 拟 对 象 遮 挡 问 题 上 。 他 们 在 图 像 分 类 和 目 标 检 测 中 取 得 了 良 好 的 效 果 。 例 如 , 随 机 擦 除 [100] 和 CutOut [11] 可 以 随 机 选 择 图 像 中 的 矩 形 区 域 , 并 填 充 零 的 随 机 或 互 补 值 。 至 于 捉 迷 藏[69]和 网 格 遮 罩[6],他 们 随 机 或 均 匀 地 选 择 图 像 中 的 多 个 矩 形 区 域 并 将 其 替 换 为 全 零 。 如 果 类 似 的 概 念 应 用 于 特 征 图 , 则 有 DropOut [71] , DropConnect [80] 和 DropBlock [16]方 法 。另 外 ,一 些 研 究 人 员 提 出 了 将 多 个 图 像 一 起 用 于 执 行 数 据 增 强 的 方 法 。 例 如 ,MixUp [92]使 用 两 个 图 像 以 不 同 的 系 数 比 率 进 行 乘 法 和 叠 加 , 然 后 使 用 这 些 叠 加 比 率 来 调 整 标 签 。 对 于 CutMix [91], 它 是 将 裁 切 后 的 图 像 覆 盖 到 其 他 图 像 的 矩 形 区 域 , 并 根 据 混 合 区 域 的 大 小 调 整 标 签 。 除 了 上 述 方 法 之 外 , 样 式 转 移 GAN [15]还 用 于 数 据 增 强 ,并 且 这 种 用 法 可 以 有 效 地 减 少 CNN 所 学 习 的 纹 理 偏 差 。 与 上 面 提 出 的 各 种 方 法 不 同 , 其 他 一 些 免 费 赠 品 方 法 专 用 于 解 决 数 据 集 中 语 义 分 布 可 能 存 在 偏 差 的 问 题 。 在 处 理 语 义 分 布 偏 差 问 题 时 , 一 个 非 常 重 要 的 问 题 是 , 不 同 类 之 间 存 在 数 据 不 平 衡 的 问 题 , 而 对 于 两 阶 段 目 标 检 测 该 问 题 通 常 通 过 硬 否 定 示 例 挖 掘 [72]或 在 线 硬 示 例 挖 掘[67]解 决 。 但 是 示 例 挖 掘 方 法 不 适 用 于 一 级 目 标 检 测 器 , 因 为 这 种 检 测 器 属 于 密 集 预 测 体 系 结 构 。 因 此 林 等 。 [45]提 出 了 焦 点 损 失 , 以 解 决 各 种 类 别 之 间 存 在 的 数 据 不 平 衡 问 题 。 另 一 个 非 常 重 要 的 问 题 是 , 很 难 用 一 键 式 硬 表 示 来 表 达 不 同 类 别 之 间 的 关 联 度 关 系 。 执 行 标 记 时 经 常 使 用 此 表 示 方 案 。在[73]中 提 出 的 标 签 平 滑 是 将 硬 标 签 转 换 为 软 标 签 以 进 行 训 练 ,这 可 以 使 模 型 更 健 壮 。为 了 获 得 更 好 的 软 标 签 ,Islam 等 。 [33]介 绍 了 知 识 蒸 馏 的 概 念 来 设 计 标 签 细 化 网 络 。 最 后 bag of freebies 是 边 界 框 (BBox) 回 归 的 目 标 函 数 。 传 统 的 对 象 检 测 器 通 常 使 用 均 方 误 差 (MSE) 直 接 对 BBox 的 中 心 点 坐 标 以 及 高 度 和 宽 度 执 行 回 归 , 即{xcenter,ycenter,w,h}或 左 上 角 和 右 下 角 点 ,即{xtop lef t,ytop lef t,xbottom right , ybottom right} 。 对 于 基 于 锚 的 方 法 , 将 估 计 相 应 的 偏 移 量 , 例 如 {f 集 的
xcenter,f 集 的 ycenter,wof f 集 ,hof f 集}和{fset 的 xtop lef t,f set 的 ytop lef t 设 置 , 则 f 设 置 在 xbottom 的 右 边 ,f 设 置 在 ybottom 的 右 边}。 但 是 , 直 接 估 计 BBox 的 每 个 点 的 坐 标 值 是 将 这 些 点 视 为 独 立 变 量 ,但 实 际 上 并 未 考 虑 对 象 本 身 的 完 整 性 。为 了 使 这 个 问 题 得 到 更 好 的 处 理 ,一 些 研 究 人 员 最 近 提 出 了 IoU 损 失[90], 它 考 虑 了 预 测 的 BBox 区 域 和 地 面 真 实 BBox 区 域 的 覆 盖 范 围 。 IoU 损 耗 计 算 过 程 将 通 过 使 用 基 本 事 实 执 行 IoU,然 后 将 生 成 的 结 果 连 接 到 整 个 代 码 中 ,从 而 触 发 BBox 的 四 个 坐 标 点 的 计 算 。由 于 IoU 是 尺 度 不 变 表 示 ,因 此 可 以 解 决 传 统 方 法 计 算{x,y,w,h}的 l1 或 l2 损 失 时 , 损 耗 会 随 尺 度 增 加 的 问 题 。 最 近 , 一 些 研 究 人 员 继 续 改 善 IoU 损 失 。 例 如 ,GioU 损 失 [65]除 了 覆 盖 区 域 外 还 包 括 对 象 的 形 状 和 方 向 。 他 们 建 议 找 到 可 以 同 时 覆 盖 预 测 的 BBox 和 地 面 真 值 BBox 的 最 小 面 积 BBox, 并 使 用 该 BBox 作 为 分 母 来 代 替 最 初 用 于 IoU 损 失 的 分 母 。 至 于 DIoU 损 失[99], 它 还 考 虑 了 对 象 中 心 的 距 离 , 而 CIoU 损 失[99]同 时 考 虑 了 重 叠 区 域 , 中 心 点 之 间 的 距 离 和 纵 横 比 。 CIoU 可 以 在 BBox 回 归 问 题 上 实 现 更 好 的 收 敛 速 度 和 准 确 性 。 2.3 Bag of specials 对 于 那 些 仅 增 加 少 量 推 理 成 本 但 可 以 显 着 提 高 对 象 检 测 准 确 性 的 插 件 模 块 和 后 处 理 方 法 ,我 们 将 其 称 为“Bag of specials”。一 般 而 言 ,这 些 插 件 模 块 用 于 增 强 模 型 中 的 某 些 属 性 , 例 如 扩 大 接 受 域 , 引 入 注 意 力 机 制 或 增 强 特 征 集 成 能 力 等 , 而 后 处 理 是 用 于 筛 选 模 型 预 测 结 果 的 方 法 。 可 以 用 来 增 强 感 受 野 的 常 用 模 块 是 SPP [25] , ASPP [5] 和 RFB [47] 。 SPP 模 块 起 源 于 空 间 金 字 塔 匹 配 (SPM) [39],SPM 的 原 始 方 法 是 将 特 征 图 分 割 为 几 个 d×d 个 相 等 的 块 , 其 中 d 可 以 为{1,2,3,...}, 因 此 形 成 空 间 金 字 塔 , 然 后 提 取 词 袋 特 征 。 SPP 将 SPM 集 成 到 CNN 中 , 并 使 用 最 大 池 操 作 而 不 是 单 词 袋 操 作 。 由 于 He 等 人 提 出 的 SPP 模 块 [25]将 输 出 一 维 特 征 向 量 , 在 全 卷 积 网 络 (FCN) 中 应 用 是 不 可 行 的 。因 此 ,在 YOLOv3 [63]的 设 计 中 ,Redmon 和 Farhadi 将 SPP 模 块 改 进 为 内 核 大 小 为 k×k 的 最 大 池 输 出 的 级 联 ,其 中 k = {1,5,9,13},步 幅 等 于 1。 在 这 种 设 计 下 , 较 大 的 k× k 最 大 池 有 效 地 增 加 了 骨 干 特 征 的 接 收 场 。 在 添 加 了 改 进 版 本 的 SPP 模 块 之 后 ,YOLOv3-608 在 MS COCO 对 象 检 测 任 务 上 将 AP50 升 级 了 2.7% , 而 额 外 的 计 算 成 本 为 0.5% 。 ASPP [5]模 块 和 改 进 的 SPP 模 块 之 间 的 操 作 差 异 主 要 在 于 原 始 k× k 内 核 大 小 , 步 幅 的 最 大 池 等 于 1 到 几 个 3×3 内
核 大 小 , 膨 胀 比 等 于 k, 步 幅 等 于 在 膨 胀 卷 积 运 算 中 为 1。 RFB 模 块 将 使 用 k×k 内 核 的 几 个 膨 胀 卷 积 ,膨 胀 比 等 于 k,步 幅 等 于 1,以 获 得 比 ASPP 更 全 面 的 空 间 覆 盖 。 RFB [47]仅 花 费 7% 的 额 外 推 理 时 间 , 即 可 将 MS COCO 上 SSD 的 AP50 提 高 5.7% 。 物 体 检 测 中 经 常 使 用 的 注 意 力 模 块 主 要 分 为 通 道 注 意 和 点 注 意 , 这 两 种 注 意 模 型 的 代 表 是 挤 压 和 激 发(SE)[29]和 空 间 注 意 模 块(SAM)[ 85]。尽 管 SE 模 块 可 以 将 ImageNet 图 像 分 类 任 务 中 的 ResNet50 的 功 能 提 高 1% 至 top-1 精 度 , 但 其 代 价 仅 是 将 计 算 工 作 量 增 加 2% ,但 是 在 GPU 上 通 常 会 增 加 大 约 10% 的 推 理 时 间 , 因 此 更 适 合 在 移 动 设 备 中 使 用 。 但 是 对 于 SAM , 它 只 需 要 支 付 0.1% 的 额 外 费 用 即 可 在 ImageNet 图 像 分 类 任 务 上 将 ResNet50-SE 的 top-1 准 确 性 提 高 0.5% 。 最 棒 的 是 , 它 根 本 不 影 响 GPU 上 的 推 理 速 度 。 在 特 征 集 成 方 面 , 早 期 的 实 践 是 使 用 跳 过 连 接[51]或 超 列[22]将 低 层 物 理 特 征 集 成 到 高 层 语 义 特 征 。 由 于 诸 如 FPN 的 多 尺 度 预 测 方 法 已 变 得 流 行 , 因 此 提 出 了 许 多 集 成 了 不 同 特 征 金 字 塔 的 轻 量 级 模 块 。 这 种 模 块 包 括 SFAM [98],ASFF [48] 和 BiFPN [77]。 SFAM 的 主 要 思 想 是 使 用 SE 模 块 在 多 尺 度 级 联 特 征 图 上 执 行 通 道 级 重 加 权 。至 于 ASFF,它 使 用 softmax 作 为 逐 点 级 别 的 权 重 ,然 后 添 加 不 同 比 例 的 特 征 图 。 在 BiFPN 中 , 提 出 了 多 输 入 加 权 残 差 连 接 以 执 行 按 比 例 的 级 别 重 新 加 权 , 然 后 添 加 不 同 比 例 的 特 征 图 。 在 深 度 学 习 的 研 究 中 , 有 些 人 专 注 于 寻 找 良 好 的 激 活 功 能 。 良 好 的 激 活 函 数 可 以 使 梯 度 更 有 效 地 传 播 ,同 时 不 会 引 起 过 多 的 额 外 计 算 成 本 。 Nair 和 Hinton [56] 在 2010 年 提 出 ReLU 来 实 质 上 解 决 传 统 的 tanh 和 S 形 激 活 函 数 中 经 常 遇 到 的 梯 度 消 失 问 题 。 随 后 ,LReLU [54], PReLU [24], ReLU6 [28], 比 例 指 数 线 性 单 位 ( SELU) [35], Swish [59] , hard-Swish [27] 和 Mish [55]等 。 还 提 出 了 用 于 解 决 梯 度 消 失 问 题 的 方 法 。 LReLU 和 PReLU 的 主 要 目 的 是 解 决 输 出 小 于 零 时 ReLU 的 梯 度 为 零 的 问 题 。 至 于 ReLU6 和 Hard-Swish, 它 们 是 专 门 为 量 化 网 络 设 计 的 。 为 了 对 神 经 网 络 进 行 自 归 一 化 , 提 出 了 SELU 激 活 函 数 来 满 足 该 目 标 。 要 注 意 的 一 件 事 是 ,Swish 和 Mish 都 是 连 续 可 区 分 的 激 活 函 数 。 基 于 深 度 学 习 的 对 象 检 测 中 常 用 的 后 处 理 方 法 是 NMS, 它 可 以 用 来 过 滤 那 些 不 好 地 预 测 同 一 对 象 的 BBox, 并 仅 保 留 响 应 速 度 更 快 的 候 选 BBox。 NMS 尝 试 改 进 的 方 法 与 优 化 目 标 函 数 的 方 法 一 致 。 NMS 提 出 的 原 始 方 法 没 有 考 虑 上 下 文 信
息 , 因 此 Girshick 等 。 [19] 在 R-CNN 中 添 加 了 分 类 置 信 度 得 分 作 为 参 考 , 并 根 据 置 信 度 得 分 的 顺 序 , 按 从 高 分 到 低 分 的 顺 序 执 行 贪 婪 的 NMS。 对 于 软 网 络 管 理 系 统 [1], 它 考 虑 到 一 个 问 题 , 即 物 体 的 遮 挡 可 能 会 导 致 带 有 IoU 分 数 的 贪 婪 的 网 络 管 理 系 统 的 置 信 度 得 分 下 降 。 DIoU NMS [99]开 发 人 员 的 思 维 方 式 是 在 软 NMS 的 基 础 上 将 中 心 点 距 离 的 信 息 添 加 到 BBox 筛 选 过 程 中 。值 得 一 提 的 是 ,由 于 上 述 后 处 理 方 法 都 没 有 直 接 涉 及 捕 获 的 图 像 特 征 , 因 此 在 随 后 的 无 锚 定 方 法 开 发 中 不 再 需 要 后 处 理 。 3、方法 基 本 目 标 是 在 生 产 系 统 中 使 用 神 经 网 络 以 更 快 的 速 度 运 行 , 并 优 化 并 行 计 算 , 而 不 是 使 用 低 计 算 量 理 论 指 标(BFLOP)。我 们 提 供 了 实 时 神 经 网 络 的 两 种 选 择 : 1. 对 于 GPU , 我 们 在 卷 积 层 中 使 用 少 量 组 ( 1-8 ) : CSPResNeXt50 / CSPDarknet53 2. 对 于 VPU-我 们 使 用 分 组 卷 积 ,但 我 们 避 免 使 用 挤 压 和 激 发(SE)块-特 别 是 其 中 包 括 以 下 型 号 : EfficientNet-lite / MixNet [76] / GhostNet [21] / MobileNetV3 3.1 架构 选择 我 们 的 目 标 是 在 输 入 网 络 分 辨 率 , 卷 积 层 数 , 参 数 数 ( 过 滤 器 大 小 2 *过 滤 器 *通 道/组 )和 层 输 出( 过 滤 器 )的 数 量 之 间 找 到 最 佳 平 衡 。例 如 ,我 们 的 大 量 研 究 表 明 , 就 ILSVRC2012( ImageNet) 数 据 集 上 的 对 象 分 类 而 言 , CSPResNext50 比 CSPDarknet53 更 好 。 但 是 , 相 反 , 在 检 测 MS COCO 数 据 集 上 的 对 象 方 面 , CSPDarknet53 优 于 CSPResNext50 [46]。 下 一 个 目 标 是 针 对 不 同 的 检 测 器 级 别 从 不 同 的 主 干 级 别 中 选 择 其 他 块 来 增 加 接 收 场 和 参 数 聚 集 的 最 佳 方 法 : FPN,PAN,ASFF,BiFPN。 对 于 分 类 而 言 最 佳 的 参 考 模 型 对 于 检 测 器 而 言 并 不 总 是 最 佳 的 。 与 分 类 器 相 比 , 检 测 器 需 要 满 足 以 下 条 件 : •更 高 的 输 入 网 络 尺 寸 ( 分 辨 率 )–用 于 检 测 多 个 小 型 物 体
•更 高 的 层–用 于 更 高 的 接 收 场 , 以 覆 盖 输 入 网 络 尺 寸 的 增 大 •更 多 的 参 数–用 于 模 型 检 测 更 大 尺 寸 的 多 个 物 体 的 能 力 单 张 图 片 假 设 地 说 , 我 们 可 以 假 设 应 选 择 一 个 具 有 较 大 接 收 场 大 小 ( 具 有 大 量 3×3 卷 积 层 )和 大 量 参 数 的 模 型 作 为 主 干 。表 1 显 示 了 CSPResNeXt50,CSPDarknet53 和 EfficientNet B3 的 信 息 。 CSPResNext50 仅 包 含 16 个 卷 积 层 3×3 , 一 个 425×425 接 收 场 和 20.6 M 参 数 , 而 CSPDarknet53 包 含 29 个 卷 积 层 3×3, 一 个 725×725 接 收 场 和 27.6 M 参 数 。这 种 理 论 上 的 论 证 ,再 加 上 我 们 的 大 量 实 验 ,表 明 CSPDarknet53 神 经 网 络 是 两 者 的 最 佳 模 型 , 是 检 测 器 的 骨 干 。 不 同 大 小 的 接 收 场 的 影 响 总 结 如 下 : •取 决 于 对 象 的 大 小-允 许 查 看 整 个 对 象 •取 决 于 网 络 的 大 小-允 许 查 看 对 象 周 围 的 上 下 文 •超 出 网 络 的 大 小-增 加 图 像 点 和 最 终 激 活 之 间 的 连 接 数 我 们 在 CSPDarknet53 上 添 加 了 SPP 块 ,因 为 它 显 着 增 加 了 接 收 域 ,分 离 出 最 重 要 的 上 下 文 特 征 , 并 且 几 乎 不 会 降 低 网 络 运 行 速 度 。 我 们 使 用 PANet 作 为 来 自 不 同 主 干 级 别 , 针 对 不 同 检 测 器 级 别 的 参 数 聚 合 方 法 , 而 不 是 YOLOv3 中 使 用 的 FPN。 最 后 , 我 们 选 择 CSPDarknet53 骨 干 ,SPP 附 加 模 块 ,PANet 路 径 聚 合 瓶 颈 和 YOLOv3( 基 于 锚 ) 头 作 为 YOLOv4 的 体 系 结 构 。 将 来 ,我 们 计 划 大 幅 扩 展 用 于 探 测 器 的 免 费 赠 物 袋(BoF)的 内 容 ,从 理 论 上 讲 , 它 可 以 解 决 一 些 问 题 并 提 高 探 测 器 的 准 确 性 , 并 以 实 验 方 式 依 次 检 查 每 个 功 能 的 影 响 。 我 们 不 使 用 跨 GPU 批 量 标 准 化 (CGBN 或 SyncBN) 或 昂 贵 的 专 用 设 备 。 这 使 任 何 人 都 可 以 在 常 规 图 形 处 理 器 上 重 现 我 们 的 最 新 技 术 成 果 ,例 如 GTX 1080Ti 或 RTX 2080Ti。 3.2 BoF 和 BoS 的选 择 为 了 改 进 对 象 检 测 训 练 ,CNN 通 常 使 用 以 下 方 法 : •激 活 :ReLU,leaky-ReLU,参 数 化 ReLU,ReLU6,SELU,Swish 或 Mish• 边 界 框 回 归 损 失 :MSE,IoU,GIoU,CIoU,DIoU •数 据 扩 充 :CutOut,MixUp,CutMix
分享到:
收藏