Faster R-CNN:
Towards Real-Time Object Detection
with Region Proposal Networks
Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun
Microsoft Research, NIPS 2015
Faster R-CNN创新点
解决的问题:
• Fast R-CNN网络已经接近实时,但Selective Search是速度瓶颈,大
约2s/帧,EdgeBoxes也要0.2s/帧
Faster R-CNN主要创新:
• Region Proposal Network(RPN)替代Selective Search
• RPN与Fast R-CNN网络共享卷积特征
成绩:
• 在VGG16上达到5fps
• 73.2% mAP on VOC 07, 70.4% mAP on VOC 12 (300 proposals)
Faster R-CNN结构
Faster R-CNN ≈ RPN + Fast R-CNN
Region Proposal Network(RPN)
RPN是一种全卷积网络(FCN)
在feature map上slide window
小型fully convolutional
network:
•目标分类
•bbox回归
slide window size= n*n,文中
n=3,对应原图感受野171
(ZF)或228(VGG)
FCN:J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for
semantic segmentation, CVPR, 2015.
RPN——多尺度样本
三种方法:
•
Image/Feature金字塔
• Filter金字塔
Anchor金字塔
RPN——Anchor
• 每个位置N个anchors
• Anchors具有平移不变性
•
regression计算Anchors的
偏移量
• Classification计算每个bbox
属于obj的概率
Anchors:
三种面积:{1282,2562,5122}×
三种比例:{1:1,1:2,2:1}×
对HxW特征图,共HxWx9个Anchor
RPN——过程详解
1.对feature map进行卷积,n*n*256 (256-d for ZF and 512-d for VGG)
2.对1得到结果进行卷积,分别用于分类和回归
a. 分类:卷积核1*1*18(9个anchors, 每个anchor是/否前景)
b. 回归:卷积核1*1*36(9个anchors, 每个anchor四个位置调节参数)
RPN——Anchor样本
Anchor正负样本的划分:
a. 与ground-truth的IoU最大的anchor记为前景样本
b. IoU>0.7,记为前景样本;IoU<0.3,记为背景样本
c. 其余anchor及超出图像边界的anchor,弃去不用。