最先进的对象检测器竟对大象“视而不见”

2020 年 1 月 4 日 AI科技评论

作者 | 刘平平

编辑 | 丛末

现在常用的对象检测器存在一些显而易见而又极易被忽视的问题，正如同对“屋里的大象”视而不见。分析和优化这些问题对于图像识别技术的进步显得尤为重要。

现今，图像识别技术在自动驾驶、医学影像以及大热的机器视觉等领域发挥着不可或缺的作用，而稳定的系统对于图像识别的优劣起着关键作用。但即使是最先进的对象检测器也存在一些常见的故障：当将一个图像中的对象移植到另一个图像中，将导致对象检测器识别产生偏差甚至无法识别。

究竟是什么原因导致识别故障？是否有方法优化解决这个问题？约克大学的Amir Rosenfeld、John K. Tsotsos和多伦多大学Richard Zemel等人发表的《The Elephant in the Room》详细研究并回答了这些问题。

发现问题

研究人员提取一幅图片中的“大象”作为目标移植到另一幅图片中，发现几个明显的问题（如图1）：

图 1

1、监测不稳定：目标可能不能被检测到且被检测到的概率大大降低；

2、报告的对象身份不一致：根据位置，该目标可能被检测为多种不同的类别；

3、目标会引起非局部影响：与目标不重叠的对象可以切换身份、边界框或完全消失。

为进一步验证上述问题是否存在，研究人员又随机选取大量图片进一步实验。

不出所料：当将一个图像中的对象移植到另一个图像中，将导致对象检测器的识别产生偏差甚至无法识别。且在现行最精准的检测器faster_rcnn_nas_coco 上运用几种不同的模型均不同程度出现这种问题。

上述实验均为随机选取的图片，因此所选取的对象是两个从未在一张图片中出现的特定组合。但是，网络成功处理此类图片及组合很困难。为排除此问题对实验造成的干扰，研究人员从一个图像中复制一个对象，并将其复制到同一图像中的另一个位置。

图 2

结果表明，当移动目标时，部分遮蔽以及上下文都对识别产生一定的影响（图2）。例如，在 b 栏奶牛的脚在靠近电视时变成了遥控器。在 d 栏当植物的一部分被遮挡而人的手在附近时，植物的底部被识别为手提包或杯子。

原因分析

为何对象检测器会出现这个问题？研究人员进一步进行实验试图探索此问题。

研究人员选取一张图片，图片中的一只仅露出局部身体的猫被错误地识别为斑马。研究人员分别做了以下实验：

1、丢弃检测边界框之外的所有像素：不能固定对象的分类，猫仍被识别为斑马，这表明ROI (region-of-interest)内的特征可能会引起混淆；

2、丢弃ROI内的所有非猫像素，猫被识别为猫，分类固定；

3、在边界框外的范围内再次添加随机噪声：猫再次被识别为斑马，检测不正确。

这个实验表明ROI外的特征会影响最终的检测结果。

研究人员通过匹配探测器在原始图像和修改后的图像中生成的一组边界框来计算场景的识别发生了多少次变化。计算公式如下：

通过识别计算29张不同图片，他们统计了已移植对象导致对任何原始对象的检测被修改的位置的平均位置百分比，结果如下表。阈值τ是最小重叠，以将两个相同类别的边界框计算为匹配项。

Affected-class-Agnostic: 边界框之间的类别不可知匹配的结果；
Affected-Occluded-20: 结果仅计算每个原始对象最多20％的区域被目标对象覆盖的情况；
Affected-No-Occ: 目标对象不会遮挡任何物体的结果。

几点推论

通过上述实验，研究人员针对对象检测器存在常见故障发生的原因有以下几个推论：

1、部分遮盖：部分遮盖仍是对象检测器发展的一大挑战。但已有科学家提出数据驱动、局部证据定义目标等方法解决因目标遮盖而设别偏差的问题。

2、超出分布的示例：研究人员将目标移植到另一张图片中会使得目标边框产生突变边缘，边缘修改后的图像在训练集的图像分布下发生的可能性很小。且这些轻微的扰动如边缘突变也会造成网络输出发生巨大变化，从而导致识别偏差。

3、信号保存：空间池因其效率和不变形使得它对空间变形问题很有效，但是目前研究表明空间池分层阻碍了网络的位移不变。

4、上下文推理：现有的对象检测器不具备上下文推理能力，而网络推理会对对象类别及其相对空间布局之间的相互作用进行编码，这些上下文推理往往会造成识别偏差，如图2。

5、非极大值抑制：由于存在非极大值抑制，移植对象过程中使得其他对象遮盖状态发生变化，使得距被移植对象较远的对象识别也出现问题。

6、功能干扰：现行对象检测器使用从卷积层获得的特征，以生成最终的物体类别和矩形边界框预测。这使得边界框以内的非对象部分也成为识别对象的一部分，虽然在对象特征不明显时能根据非对象部分上下文推测对象类别，但是同时也会干扰对象正确识别。

在所有原因中，功能干扰是最为根本的原因，而由部分遮挡或上下文推理引起的影响是这个问题的具体体现。

即使这个问题现在很难解决，科学家Tsotsos仍然提出了解决模型：一旦完成了对视觉层次的第一遍处理，主导信号便向下传播通过层次结构，执行空间和特征衰减，以便信号的下一层将包含有关感兴趣对象的信息，即较少与周围特征纠缠在一起。这个模有望减轻识别偏差问题，而在将来是否会确实会发作用，我们拭目以待。

招聘

AI 科技评论希望能够招聘科技编辑/记者一名

办公地点：北京

职务：以参与学术顶会报道、人物专访为主

工作内容：

1、参加各种人工智能学术会议，并做会议内容报道；

2、采访人工智能领域学者或研发人员；

3、关注学术领域热点事件，并及时跟踪报道。

要求：

1、热爱人工智能学术研究内容，擅长与学者或企业工程人员打交道；

2、有一定的理工科背景，对人工智能技术有所了解者更佳；

3、英语能力强（工作内容涉及大量英文资料）；

4、学习能力强，对人工智能前沿技术有一定的了解，并能够逐渐形成自己的观点。

感兴趣者，可将简历发送到邮箱：jiawei@leiphone.com

点击“阅读原文” 观看 AAAI 2020 论文预讲直播视频

登录查看更多

相关内容

对象检测

关注 1

最新《自然场景中文本检测与识别》综述论文，26页pdf

专知会员服务

70+阅读 · 2020年6月10日

【CVPR2020 旷视研究院】探索类别正则化的领域自适应对象检测

专知会员服务

24+阅读 · 2020年4月22日

【CVPR2020-Uber】物理上可实现的对抗性的例子，用于激光雷达的目标检测，Physically Realizable Adversarial Examples for LiDAR Object Detection

专知会员服务

22+阅读 · 2020年4月16日

【CVPR2020】MSG-GAN:用于稳定图像合成的多尺度梯度GAN

专知会员服务

29+阅读 · 2020年4月6日

【旷视-CVPR2020】领域自适应对象检测的探索类别正则化，Exploring Categorical Regularization for Domain Adaptive Object Detection

专知会员服务

38+阅读 · 2020年3月23日

【厦门大学-CVPR2020】协调可迁移性与可判别性的自适应目标检测器，Adapting Object Detectors

专知会员服务

26+阅读 · 2020年3月16日

【新加坡国立大学】深度学习时代数据库：挑战与机会

专知会员服务

35+阅读 · 2020年3月6日

图像分类最新技术综述论文: 21种半监督、自监督和无监督学习方法一较高低

专知会员服务

184+阅读 · 2020年2月22日

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

专知会员服务

52+阅读 · 2020年1月8日

【目标检测 | 2019最新综述】目标检测的最新进展，附40页PDF，Recent Advances in Deep Learning for Object Detection

专知会员服务

85+阅读 · 2019年11月15日

病理图像的全景分割

人工智能前沿讲习班

16+阅读 · 2019年6月1日

卷积神经网络简介

AI研习社

7+阅读 · 2019年4月24日

语义分割和转置卷积

AI研习社

10+阅读 · 2018年6月22日

深度剖析卷积神经网络

云栖社区

7+阅读 · 2018年5月27日

详解计算机视觉五大技术：图像分类、对象检测、目标跟踪、语义分割和实例分割

AI100

5+阅读 · 2018年4月19日

SSD多盒实时目标检测教程

论智

13+阅读 · 2018年4月5日

论文 | 用于密集对象检测的 Focal Loss 函数

七月在线实验室

9+阅读 · 2018年1月4日

【学界】继图像识别后，图像标注系统也被对抗样本攻陷!

GAN生成式对抗网络

6+阅读 · 2017年12月11日

学界 | 继图像识别后，图像标注系统也被对抗样本攻陷!

机器之心

11+阅读 · 2017年12月10日

目标检测101：一文带你读懂深度学习框架下的目标检测

大数据文摘

23+阅读 · 2017年9月27日

Improving Candidate Generation for Low-resource Cross-lingual Entity Linking

Arxiv

8+阅读 · 2020年3月3日

Gaussian YOLOv3: An Accurate and Fast Object Detector Using Localization Uncertainty for Autonomous Driving

Arxiv

6+阅读 · 2019年4月9日

Fast and Accurate, Convolutional Neural Network Based Approach for Object Detection from UAV

Arxiv

4+阅读 · 2019年1月4日

Softer-NMS: Rethinking Bounding Box Regression for Accurate Object Detection

Arxiv

4+阅读 · 2018年9月23日

Deep Adaptive Proposal Network for Object Detection in Optical Remote Sensing Images

Arxiv

6+阅读 · 2018年7月19日

Pooling Pyramid Network for Object Detection

Arxiv

6+阅读 · 2018年7月9日

Object detection at 200 Frames Per Second

Arxiv

5+阅读 · 2018年5月16日

Chinese NER Using Lattice LSTM

Arxiv

14+阅读 · 2018年5月15日

A Robust Real-Time Automatic License Plate Recognition based on the YOLO Detector

Arxiv

13+阅读 · 2018年3月1日

Video Classification With CNNs: Using The Codec As A Spatio-Temporal Activity Sensor

Arxiv

4+阅读 · 2017年12月19日

VIP会员