深度学习论文研读|目标检测网络R-CNN系列与yolov1算法原理概述目标检测|网络|算法

一、R-CNN算法简介
R-CNN算法流程
1、将一张图像生成1k-2k个候选区域（使用ss算法）
2、对于每个候选区域，使用深度网络来提取特征
3、将特征送入每一类的SVM分类器，判别是否属于该类。(有多少类别就有多少个SVM分类器)
4、使用回归器精细修正候选框位置
R-CNN算法缺陷
1、测试速度慢
2、训练速度慢，过程繁琐
3、训练所需的空间很大
FAST-R-CNN算法流程

文章图片

与R-CNN相比，训练时间快九倍，测试推理时间快213倍，准确率提升至66%
1、将一张图像生成1k-2k个候选区域（使用ss算法）
2、将图像输入网络得到相应的特征图，将SS算法生成的候选框投影到特征图上获得相应的特征矩阵
3、将每个特征矩阵通过ROI pooling层缩放到7*7大小的特征图，接着将特征图展平通过一系列的全连接层得到预测结果
4、使用softmax输出预测概率，其具有N+1个概率分布；使用回归器调整候选框位置。 loU:图像的交并比。
FASTER-R-CNN算法流程

文章图片

推理速度在GPU上达到了5fps（包括候选区域的生成）
1、将图像输入网络得到对应的特征图
2、使用RPN结构生成候选框，将RPN生成的候选框投影到特征图上获得特征矩阵
3、将每个特征矩阵通过ROI pooling层缩放到7*7大小的特征图，接着将特征图展平通过一系列的全连接层得到预测结果
RPN+FAST-R-CNN
使用了RPN代替ss算法，或的速度上的提升。
Region Proposal Network
在特征图上使用滑动窗口生成一维向量，该向量分别连接两个全连接层，来输出目标概率以及边界框回归参数。通过特征图的中心点，生成anchor box，然后
预测每个anchor box是前景还是背景的该率，anchorbox的尺寸根据经验得到
将输入图像首先生成k个anchorbox，对于RPN生成的候选框部分存在大量重叠，因此基于候选框的cls得分，采用非极大值抑制，loU设为0.7，这样每张图片只
剩下少部分候选框
训练数据的采样分为正负样本，规定anchor与实际标注的物体框之间的loU大于0.7即为正样本，低于0.3规定为负样本。位于两区间的anchor全部丢弃。
Faster-R-CNN训练过程：
原论文采用分别训练RPN以及Fast-R-CNN方法
1、利用Imagenet预训练分类模型初始化前置卷积网络层参数，并开始单独训练RPN网络参数
2、固定RPN网络独有的卷积层以及全连接层，再利用ImageNet预训练的分类模型初始化前置卷积网络参数，并利用RPN网络生成的目标建议框去训练Fast-R-CNN
网络参数
3、固定利用Fast RCNN训练好的前置卷积网络层参数，去微调RPN网络独有的卷积层以及全连接层参数。
4、同样保持固定前置卷积网络层参数，去微调Fast-RCNN网络的全连接层参数，最后RPN网络与Fast-RCNN网络共享前置卷积网络层参数，构成一个同一网络
网络结果：

文章图片

二、YOLO检测算法

文章图片

【深度学习论文研读|目标检测网络R-CNN系列与yolov1算法原理概述】YOLO算法属于one-stage（单阶段）检测算法：即就使用一个cnn网络做一个分类回归来获得结果。该方法的优势在于速度非常快，适合做实时检测任务。缺点是效果上不会太好。
mAP:算法效果评价指标,在检测任务中，精确值（precision）与召回值（recall），可以用真实的标签box与实际网络结果box进行对比，基于置信度（低于置信度的检测框将被丢弃）来得到结果。
m A P = a r e a ( P ? R 曲线） ∈ [ 0 , 1 ] mAP=area(P-R曲线）∈[0, 1] mAP=area(P?R曲线）∈[0,1]
Yolo算法原理：
1、V1版本
在v1版本中，yolo网络将一张输入图片划分为许多的网格，然后对每个网格均进行预测其是否存在物体，对于图片中某一物体的中心网格（处于几何中心位置），该网格还需要预测该物体属于哪一种类。
注:在这一步，感觉有点和frcnn里面先判断前景还是背景的步骤有点相似

文章图片

根据中心点，来生成不同尺寸比例的box，用来框选检测到的物体，这些尺寸由经验获得例如1：2、2：1、1：1…
过滤掉低置信度的候选框，置信度即网络判断当前框内是存在物体的信心分数。
根据候选框与真实物体框（标签）的IoU(交并比）来获得最佳候选框。
网络整体架构：

文章图片

在v1版中，输入图像大小固定为448x448x3，原因是后续全连接层的参数是固定大小，根据矩阵乘法：
F = W ? x + b F=W*x+b F=W?x+b
权重矩阵必须满足能和卷积层输出的最终特征进行相乘。
损失函数：

文章图片

该损失函数有五项组成，可以将其划分为四部分，其中第一、二项作为第一部分称为位置误差公式，主要是对box框地位置进行调整，B表示生成框地数量，论文中设置为2；
第三项作为第二部分，称为含对象的置信度误差，该项可以对预测该网格内存在物体与真实该网格内存在物体做对比，生成损失函数；
第四项作为第三部分，负责对不含对象的置信度误差比对，与上部分功能内类，多出来的权重参数平衡样本不均衡问题（因为在获取到的样本中，背景要多于前景）
第五项作为第四部分，最后一项代表分类误差，即分类结果与真实结果比对。
在结尾处，作者阐述了yolov1算法的不足之处，由于每个网格仅仅只能预测分为一个类别，而且box只有两种，所以对于一些堆在一起的多个物体，就很难达到好的检测效果。而且出现在前景里面的小物体比如小鸟等，也没办法检测出来。

深度学习论文研读|目标检测网络R-CNN系列与yolov1算法原理概述

推荐阅读

秋葵常见的病虫害及防治方法图片秋葵常见的病虫害及防治方法

经期吃什么排污血？

黄码变绿码申请一般几个小时能通过

怎样做肠仔面包

无主之地dlc3黑客分析

股票xd开头是什么意思给大家具体讲解一下

英雄联盟情暖七夕活动怎么玩 lol情暖七夕活动介绍

为什么私有方法上的Spring Cache注解不生效（）

苹果6s拍星空的软件苹果6s怎么拍星空

沙窝萝卜吃了会解药性吗

盆腔积液能吃榴莲吗

痛风多吃什么蔬菜痛风多吃什么蔬菜和水果

kpi 的数据分析,店铺KPI数据分析有哪些

Pro/e5.0玩具车轮胎建模

DNF泰波尔斯装备免费送,这些福利满满的活动你都知道嘛？

遇到方太灶具的点火方法怎么办？3个处理方法帮助你

赛博朋克2077角色技能有哪些角色技能点属性介绍

上海杨浦区共有产权保障房申请时间2023

公司对公账户借条怎么写借钱不肯写借条怎么办？

厂名怎么取名比较吉祥简单好记