知识面的盲点那么多,为什么不看看
星标/置顶 深度学习干货分享❤
————
论文题目:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
论文地址:https://arxiv.org/abs/1506.01497
项目地址:https://github.com/endernewton/tf-faster-rcnn
ppt之后发
解读
流程如下:
输入测试图像,将整张图片输入CNN,进行特征提取;
用RPN生成一堆Anchor box,对其进行裁剪过滤后通过softmax判断anchors是前景(foreground)还是背景(background),即是物体or不是物体,另一分支bounding box regression修正anchor box,得到较精确的proposal(这里的较精确是相对于后面全连接层的再一次box regression而言);
把网络建议窗口映射到CNN的最后一层卷积feature map上;
通过RoI pooling层使每个RoI生成固定尺寸的feature map;
利用Softmax Loss(探测分类概率) 和Smooth L1 Loss(探测边框回归)对分类概率和边框回归(Bounding box regression)联合训练。
说到rpn自然得讲anchor,那么anchor是什么?
通熟易懂说法就是一组生成的矩形,这个矩形框和边界框意思及坐标表示相同,不同比例的anchor在feature map上映射生成几十万个框,来选择positive和negative,如下图。
底图是feature map;anchor面积128,256,512;每种面积宽高比例为1: 1, 1: 2, 2: 1。
sliding后,通过卷积操作输出256维度的置信分数和位置;2k用来分类前后景,所以是2倍;4k是框坐标位置。
3.proposal前景分数排序
p为预测框,G为gt,为了让p更接近真实框,对框的中心坐标做平移、缩放得到G'更接近真实框。(这种方法只有在粗定位后才能用,未定位不能用)
事实上是对porposal进行分类,属于图像识别
RPN表现
使用 fast R-CNN 探测器和 VGG-16的 PASCAL VOC 2007/2012 测试集的结果
目标检测数据集的结果(%) ,模型是 VGG-16
Faster-CNN 关于 PASCAL VOC 2007测试集和2012测试集的检测图。模型是 VGG-16。“ COCO”是指 COCO trainval 系列用于训练。另见表6和表7
使用 Faster R-CNN 系统的 PASCAL VOC 2007测试集的目标检测结果的选定例子。模型为 VGG-16,训练数据为07 + 12 trainval (2007年测试集的 mAP 为73.2%)。我们的方法检测范围广泛的尺度和宽高比对象。每个输出框都与类别标签和[ 0,1]中的 softmaxscore 相关联。0.6的得分阈值用于显示这些图像。获得这些结果的运行时间为每张图像198毫秒,包括所有步骤。
欢迎留言/私信、互相讨论,感谢支持~
我是休柏,一颗向阳的种子。
留言说说你的看法吧~
本文使用 文章同步助手 同步