DenseBox(思想超前的早期Anchor-free研究|DenseBox:思想超前的早期Anchor-free研究 | CVPR 2015)

DenseBox检测算法的设计十分超前,如今很多Anchor-free方法有其影子,如果当时不是比Faster R-CNN晚了一点出现,可能目标检测领域很早就开始往Anchor-free的方向发展了
?
来源:晓飞的算法工程笔记 公众号
论文: DenseBox: Unifying Landmark Localization withEnd to End Object Detection
DenseBox(思想超前的早期Anchor-free研究|DenseBox:思想超前的早期Anchor-free研究 | CVPR 2015)
文章图片

  • 论文地址:https://arxiv.org/abs/1509.04874
Introduction ? DenseBox是早期的Anchor-free目标检测算法,当时R-CNN系列在小物体的检测上有明显的瓶颈,所以作者提出DenseBox,在小物体的检测也有不错的表现。在DenseBox提出的早些时间,著名的Faster R-CNN出现了,其强大的性能主导了目标检测算法往anchor-based的方向发展。直到FPN的出现后,Anchor-free算法的性能才有了很大的提升,更多的工作开始涉及Anchor-free领域。目前很多Anchor-free目标检测研究都有DenseBox的影子,所以DenseBox的设计思路还是很超前的。
DenseBox for Detection 【DenseBox(思想超前的早期Anchor-free研究|DenseBox:思想超前的早期Anchor-free研究 | CVPR 2015)】DenseBox(思想超前的早期Anchor-free研究|DenseBox:思想超前的早期Anchor-free研究 | CVPR 2015)
文章图片

? DenseBox的整体设计如图1所示,单个卷积网络同时输出多个预测框及其类别置信度,输出的特征图大小为$5\times \frac{m}{4}\times \frac{n}{4}$。假设像素$i$位于$(x_i, y_i)$,其期望的5维向量为$\hat{t}_i=\{\hat{s}, \hat{dx^t}=x_i - x_t, \hat{dy^t}=y_i - y_t, \hat{dx^b}=x_i - x_b, \hat{dy^b}=y_i - y_b \}$,第一个为分类置信度,后四个为像素位置到目标边界的距离,最后,将所有像素的输出转化为预测框,经过NMS处理后进行最后的输出。
Ground Truth Generation
DenseBox(思想超前的早期Anchor-free研究|DenseBox:思想超前的早期Anchor-free研究 | CVPR 2015)
文章图片

? DenseBox在训练时没有将完整的图片作为输入,而是截取包含目标以及足够背景的较大区域进行训练。在训练时,将截取的图片resize大$240\times 240$,保证人脸位于截取区域的中心以及高度大约50像素,输出$5\times 60\times 60$的特征图。正样本区域是目标中心点半径为$r_c$内的圆,$r_c$与目标的大小相关,论文设置为0.3。如果截取的区域包含多个人脸,仅保留中心点在截取区域中心0.8到1.25范围内的人脸,其它均认为是负样本。
Model Design
DenseBox(思想超前的早期Anchor-free研究|DenseBox:思想超前的早期Anchor-free研究 | CVPR 2015)
文章图片

? DenseBox的网络结构如图3所示,包含16个卷积层,前12个卷积层由VGG19初始化,网络也添加了一些不同层之间的特征融合,可以综合不同感受域的特征。
Multi-Task Training
? 网络同时进行分类和位置预测,网络由两个任务共同学习,分类任务的损失值直接通过L2损失计算:
DenseBox(思想超前的早期Anchor-free研究|DenseBox:思想超前的早期Anchor-free研究 | CVPR 2015)
文章图片

? 位置预测任务的损失值也通过L2损失计算:
DenseBox(思想超前的早期Anchor-free研究|DenseBox:思想超前的早期Anchor-free研究 | CVPR 2015)
文章图片

? 由于论文采用了截取图片的方式进行训练,就会面临样本制作的问题,而DenseBox在正负样本制作以及学习上面做了一些工作:
  • Ignoring Gray Zone,灰色区域是处于正负点之间的过渡区域,不参与损失值的计算。对于一个非正样本点,如果其半径为2的范围内存在正样本点,则归入灰色区域。
  • Hard Negative Mining,在训练过程中,根据公式1将样本排序,取top 1%作为hard-negative,能够帮助网络重点学习这些难样本。
  • Loss with Mask,根据像素点的类型定义特征图的掩膜$M(\hat{t}_i)$,并结合公式1、公式2以及掩膜输出最终的损失值:
DenseBox(思想超前的早期Anchor-free研究|DenseBox:思想超前的早期Anchor-free研究 | CVPR 2015)
文章图片

DenseBox(思想超前的早期Anchor-free研究|DenseBox:思想超前的早期Anchor-free研究 | CVPR 2015)
文章图片

? 除了上面的几点,为了更好地挖掘负样本的作用,论文也通过随机裁剪训练集以生成足够的随机负样本。在训练时,正样本图片和随机负样本图片以1:1比例输入网络。此外,为了增强网络的鲁棒性,进行了一些数据增强:
  • 随机抖动每个截取的图片
  • 左右翻转
  • 水平移动25像素内
  • 随机缩放[0.8, 1.25]
Landmark Localization
DenseBox(思想超前的早期Anchor-free研究|DenseBox:思想超前的早期Anchor-free研究 | CVPR 2015)
文章图片

? 基于上面的设计,DenseBox也可用于标记点定位,仅需要在原有的基础上添加一些层用于预测标记即可。论文还发现,可通过融合标记点分支和分类分支进一步调整检测结果,具体做法如图4所示,调整输出的损失函数跟分类损失一样采用L2函数。此时,完整的网络损失变为:
DenseBox(思想超前的早期Anchor-free研究|DenseBox:思想超前的早期Anchor-free研究 | CVPR 2015)
文章图片

Experiments DenseBox(思想超前的早期Anchor-free研究|DenseBox:思想超前的早期Anchor-free研究 | CVPR 2015)
文章图片

? 人脸关键点上的性能对比。
DenseBox(思想超前的早期Anchor-free研究|DenseBox:思想超前的早期Anchor-free研究 | CVPR 2015)
文章图片

? 车辆关键点检测任务上的性能对比。
Conclusion ? DenseBox检测算法的设计十分超前,如今很多Anchor-free方法有其影子,如果当时不是比Faster R-CNN晚了一点出现,可能目标检测领域很早就开始往Anchor-free的方向发展了。
?
?
?
如果本文对你有帮助,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】
DenseBox(思想超前的早期Anchor-free研究|DenseBox:思想超前的早期Anchor-free研究 | CVPR 2015)
文章图片

    推荐阅读