重磅！13篇基于Anchor free的目标检测方法

会员服务 ·

重磅！13篇基于Anchor free的目标检测方法

2019 年 5 月 22 日 CVer

点击上方“CVer”，选择加"星标"或“置顶”

重磅干货，第一时间送达

作者：黄浴

https://zhuanlan.zhihu.com/p/64563186

作者简介：黄浴

职业经历

奇点汽车美研中心 · 首席科学家兼总裁
上海大学 · 兼职教授
百度美研 · 软件架构师
英特尔总部 · 架构师

教育经历

伊利诺伊大学厄本那香槟分校 (UIUC) · 计算机视觉
埃尔朗根-纽伦堡大学 · 模式识别
清华大学 · 人机交互/多媒体

个人简介

专业领域：图像视频处理，计算摄影，机器学习，计算机视觉和数据可视化。
从事的工业界：安防，多媒体，电讯，半导体，互联网。

个人信息来源：

https://www.zhihu.com/people/yuhuang2019/activities

正文

感觉是回归吧，以前是没有anchor的，现在觉得还是去掉anchor（“锚”？）好，主要是灵活性强，今后硬件芯片兼容性好。

回顾一下，目标检测分单步和两步，单步法的历史中从SSD和YOLO-2开始引入锚框(anchor
box)，而两步法直到Faster RCNN才开始采用“锚”的想法。

什么是锚框呢?其实就是固定的参考框。锚框的出现，使得训练时可以预设一组不同尺度不同位置的锚框，覆盖几乎所有位置和尺度，每个锚框负责检测与其区域交叉比(intersection over union, IOU)大于阈值的目标，这样问题就转换为"这个锚框中有没有认识的目标，目标框偏离锚框多远"的问题。

UnitBox: An Advanced Object Detection Network
Densebox
Yolo-1/（-2/3）
CornerNet
ExtremeNet
FSAF: Feature Selective Anchor-Free
FCOS: Fully Convolutional One-Stage
FoveaBox
Center and Scale Prediction: A Box-free Approach for Object Detection
Region Proposal by Guided Anchoring(GA-RPN)
CenterNet: Objects as Points
CenterNet: Keypoint Triplets for Object Detection
CornerNet-Lite: Efficient Keypoint Based Object Detection

UnitBox: An Advanced Object Detection Network

主要思想：Intersection over Union (IoU) loss function for bounding box prediction

DenseBox: Unifying Landmark Localization and Object Detection

基本思想：直接预测目标框和目标类。

系统流水线:

1) 图像金字塔.

2) 类似编码器-解码器.

3) feature map 转换成 bounding boxes，加NMS处理。

You Only Look Once (YOLO) for Object Detection

检测定义为一个张量的回归问题，直接通过张量的估计得到目标框位置和类别概率。

注：之后YOLO-2/3版采用了anchor方法，这里也加在一起参考。

YOLO9000: Better, Faster, Stronger

Darknet-19: 19 convolutional layers and 5 max-pooling layers

WordTree with 9418 classes

Combining datasets using WordTree hierarchy

Bounding boxes with dimension priors and location prediction

Clustering box dimensions on VOC and COCO

YOLOv3: An Incremental Improvement

CornerNet: Detecting Objects as Paired Keypoints

把检测目标框变成一对关键点的问题，即左上角和右下角，这样就消除了锚框的设计麻烦。另外，采用的角点池化（corner pooling）技术帮助CNN更好地定位角点位置。下图给出了系统流程图：CNN模型输出两个关键点的各自热图（heatmap），同时各跟一个嵌入向量。同一个目标的角点，训练后的神经网络会预测类似的嵌入。

Detect an object as a pair of bounding box corners grouped together

下图是定位的角点池化技术：每个特征图通道沿着两个方向取最大值，然后求和。

测试流程图：沙漏型的核心网络的后面跟着两个预测模块定位和聚类焦点。

定义loss函数聚类corner：push和pull

ExtremeNet: Bottom-up Object Detection by Grouping Extreme and Center Points

FSAF: Feature Selective Anchor-Free Module

FCOS: Fully Convolutional One-Stage Object Detection

FoveaBox: Beyond Anchor-based Object Detector

主要思想：直接学习目标存在的概率和目标框的坐标位置，其中包括预测类别相关的语义图和生成类别无关的候选目标框，目标框的大小和特征金字塔的表示相关（如图所示）。

FoveaNet的网络结构如图，一个基于ResNet的特征金字塔网络（FPN）送入两个子网络, 一个做分类，一个做预测。

Region Proposal by Guided Anchoring (GA-RPN)

CenterNet: Objects as Points

把目标定义成一个单点，即目标框的中心点（下图），检测器采用关键点估计找到中心点并从其关键点的特征回归其他目标特性，如大小，3D位置，朝向和姿势。

object as the center point of its bounding box

(a) Standard anchor based detection. (b) Center point based detection

下面是CenterNet的模型框图，其中数字是步进（stride）量：(a) 沙漏网络；(b) 带转置卷积的ResNet，在每个上采样层前面加了个3 × 3 可变形卷积层（deformable convolutional layer）；(c) 语义分割的DLA-34 (Deep layer aggregation)；(d) 修正的 DLA-34，在可变形卷积层加更多的跳线（skip connections）上采样步骤。