这5种计算机视觉技术，刷新你的世界观

2018 年 11 月 27 日 AI研习社

本文为 AI 研习社编译的技术博客，原标题：

The 5 Computer Vision Techniques That Will Change How You See The World

作者 | James Le

翻译 | jinlilei

校对 | 酱番梨整理 | 菠萝妹

原文链接：

https://heartbeat.fritz.ai/the-5-computer-vision-techniques-that-will-change-how-you-see-the-world-1ee19334354b

注：本文的相关链接请点击文末【阅读原文】进行访问

计算机视觉是目前深度学习领域最热门的研究领域之一。它位于许多学术科目的交汇点，如计算机科学（图形学，算法，理论，系统，建筑），数学（信息检索，机器学习），工程学（机器人学，语音，自然语言处理，图像处理），物理学（光学），生物学（神经科学）和心理学（认知科学）。由于计算机视觉代表了对视觉环境及其背景的相对理解，许多科学家认为，该领域由于其跨域掌握为人工智能铺平了道路。

那么什么是计算机视觉？以下是一些正式的教科书定义：

“从图像中构建明确，有意义的物理对象描述”（Ballard＆Brown，1982）
“从一个或多个数字图像计算3D世界的属性”（Trucco＆Verri，1998）
“根据感知的图像做出有关真实物体和场景的有用决策”（Sockman＆Shapiro，2001）

为何学习计算机视觉？最明显的答案是，从这一研究领域衍生出的快速增长的有用的应用集合。以下是其中的一小部分：

人脸识别：Snapchat和Facebook使用面部检测算法应用卷积核并在图片中识别出你。
图像检索：Google图像使用基于内容的查询来搜索相关图像。算法分析查询图像中的内容，并根据最匹配的内容返回结果。
游戏和控制：Microsoft Kinect是使用立体视觉的游戏中的一个很好的商业产品。
监视：监控摄像机在公共场所无处不在，它用于检测可疑行为。
生物识别：指纹，虹膜和面部匹配仍然是生物识别中的一些常用方法。
智能汽车：视觉仍然是检测交通标志和信号灯以及其他视觉特征的主要信息来源。

我最近完成了斯坦福大学关于使用卷积神经网络进行视觉识别的精彩CS231n课程。视觉识别任务，如图像分类，定位和检测，是计算机视觉的关键组成部分。神经网络和深度学习方法的最新发展极大地提高了这些最先进的视觉识别系统的性能。该课程是一个非凡的资源，它教会了我在顶端计算机视觉研究中使用深度学习架构的细节。在本文中，我想分享我学到的5种主要计算机视觉技术，以及使用每种技术主要的深度学习模型和应用。

1--图像分类

图像分类的问题是这样的：给定一组单一类别标注的图像，要求我们对一组新的测试集预测这些类别并且测试预测的准确率。关于这个任务有很多挑战，包括视点变化，尺度变换，类内变化，图像变形，图像遮挡，条件，以及杂乱的背景。

我们如何来编写一个能将图像分成不同类别的算法？计算机视觉研究人员已经提出一种数据驱动的方法来解决这个问题。他们不是试图直接在代码中指定每个感兴趣的图像类别，而是为计算机提供每张图像类的许多样本，然后开发学习算法，查看这些样本并了解每个类的视觉外观。换句话说，他们首先收集一个带标注图像的训练集，然后将它传给计算机去处理这个数据。

鉴于这一事实，整个图像分类的过程可形式化如下：

我们的输入是一个训练集，包括N 个图像，用K 个不同的类别给每个图像进行标注。
然后，我们用这个训练集来训练分类器以了解每个类别像什么。
最后，我们通过让这个分类器预测一组它之前没见过的新的图像集来评估分类器的效果。然后我们将这些图像的真实标签与分类器预测的标签进行比较。

卷积神经网络（CNNs）是用于图像分类最流行的架构。CNNs一个典型的用例是你传给这个网络图像，然后网络对这些数据分类。CNNs往往从输入”扫描器“ 开始，它不打算一次解析所有的训练数据。比如，输入一张100×100像素的图像，你不需要具有10,000节点的图层。相反，你会创建一个10×10大小的扫描输入层，你可以为图像的前10×10像素提供图像。通过该输入后，通过将扫描器向右移动一个像素，可以输入下一个10×10像素。这个技术称为滑动窗口。

然后，通过卷积层而不是正常层馈送输入数据。每个节点仅仅关注与自身相邻的部分。这些卷积层随着网络的变深也趋于收缩，主要是通过输入的易分解因素。除了卷积层，它们通常还具有特征池化层。池化是一个过滤细节的方法：常见的池化技术是最大池化，我们采用2×2像素，并传递具有最大量特定属性的像素。

目前大多数图像分类技术都是在ImageNet上面训练的，它是一个约120万个高分辨率的训练图像的数据集。测试图像不显示初始注释（没有分割或者标签），并且算法必须生成指定图像中存在的对象的标签。Oxford、INRIA、XRCE 等机构的领先计算机视觉小组用已有的最好计算机视觉方法应用于这个数据集。通常，计算机视觉系统是复杂的多级系统，往往需要在早期阶段通过手动调试优化参数。

第一届ImageNet 竞赛的冠军 Alex Krizhevsky (NIPS 2012) 由 Yann LeCun 开创的深度卷积神经网络。其结构包括7个隐藏层，不包括一些最大池化层。前5层是卷积层，最后2层是全连接层。每个隐藏层的激活函数是ReLU。这些训练比逻辑单元更快更有表达力。除此之外，当相近的单元有更强的激活值，它还用竞争的归一化来抑制隐藏的活动。这有助于强度的变化。

在硬件要求方面，Alex在2个Nvidia GTX 580 GPU（超过1000个快速小内核）上使用了非常有效的卷积网络实现。 GPU非常适合矩阵矩阵乘法，并且具有非常高的存储器带宽。这使他能够在一周内训练网络，并在测试时快速组合10个补丁的结果。如果我们能够足够快地传达状态，我们可以在多个核心上传播网络。随着核心变得越来越便宜而数据集越来越大，大型神经网络的改进速度将超过老式的计算机视觉系统。自AlexNet以来，已有多种新型号使用CNN作为其骨干架构，并在ImageNet中取得了出色的成果：ZFNet（2013），GoogLeNet（2014），VGGNet（2014），ResNet（2015），DenseNet（2016）等。

2--目标检测

在图像中定义目标的任务通常涉及单个目标的边界框和标签的输出。这与分类/定位任务的不同之处在于，它将分类和定位应用于许多目标，而不仅仅是一个主导目标。你只有2类目标分类，即目标边界框和非目标边界框。例如，在汽车检测中，您必须使用其边界框检测给定图像中的所有汽车。

如果我们就像对图像进行分类和定位的方式使用滑动窗口技术，我们需要将CNN应用于图像的许多不同位置。因为CNN将每个位置分类为目标或背景，我们需要在CNN中应用许多的位置和不同比例，计算上是非常昂贵的！

为了处理这种情况，神经网络研究人员已经提出使用区域来代替，在那里我们找到可能包含目标的“blobby”图像区域。这个区域运行起来相对较快。第一个引人注目的模型是 R-CNN（基于区域的卷积神经网络）。在R-CNN中，我们首先使用称为选择性搜索的算法扫描输入图像以寻找可能的目标，生成约2,000个候选区域。然后我们在每个区域框的基础上运行CNN。最后，我们获取每个CNN的输出并将其输入到SVM以对区域进行分类，并使用线性回归来收紧目标的边界框。

基本上，我们将目标检测转变成了图像分类问题。但是，存在一些问题 - 训练缓慢，需要大量磁盘空间，推理也很慢。

R-CNN的直接后代是快速R-CNN，它通过2次增强提高了检测速度：1）在侯选区域之前执行特征提取，因此在整个图像上仅运行一个CNN，以及2）用softmax层替换SVM ，从而扩展神经网络的预测，而不是创建一个新的模型。

快速R-CNN在速度方面表现得更好，因为它只为整个图像训练一个CNN。但是，选择性搜索算法仍然需要花费大量时间来生成候选区域。

因此，发现了更快的R-CNN，它现在是用于基于深度学习的目标检测的规范模型。通过插入区域生成网络（RPN）来预测来自特征的区域，它用快速神经网络取代慢的选择性搜索算法。RPN用于决定“在哪里”以减少整个推理过程的计算要求。RPN快速有效地扫描每个位置，以评估是否需要在给定区域中进行进一步处理。它通过输出k个边界框区域来做到这一点，每个区域具有2个分数，表示每个位置处目标的概率。

一旦我们获得了我们的候选区域，我们就会直接将它们提供给基本上是快速R-CNN的内容。我们添加了一个池化层，一些全连接层，最后是一个softmax分类层和边界框回归器。

总而言之，更快的R-CNN实现了更好的速度和更高的精度。值得注意的是，尽管未来的模型在提高检测速度方面做了很多工作，但很少有模型能够以更高的优势超越更快的R-CNN。换句话说，更快的R-CNN可能不是最简单或最快的目标检测方法，但它仍然是表现最好的方法之一。

近年来的主要目标检测趋势已转向更快，更有效的检测系统。这在诸如You Only Look Once（YOLO），Single Shot MultiBox Detector（SSD）和基于区域的完全卷积网络（R-FCN）等方法中可见，作为在整个图像上共享计算的一种方法。因此，这些方法将自己与3种R-CNN技术相关联的昂贵子网区分开来。这些趋势背后的主要原因是避免让单独的算法孤立地关注各自的子问题，因为这通常会增加训练时间并降低网络准确性。

3--目标跟踪

目标跟踪指的是在给定场景下跟踪特定感兴趣的一个或者多个目标。传统上，它应用在视频和现实世界的交互中，它们在初始目标检测之后进行观察。现在，它对自动驾驶系统至关重要，例如优步和特斯拉等公司的自动驾驶车辆。

目标跟踪方法可以根据观察模型分为两类：生成方法和判别方法。生成方法使用生成模型来描述表观特征并最小化重建误差以搜索目标，例如PCA。判别方法可用于区分目标和背景，其性能更加鲁棒，它逐渐成为跟踪的主要方法。判别方法也称为检测跟踪，深度学习属于这一类。为了通过检测实现跟踪，我们检测所有帧的候选目标，并使用深度学习从候选者中识别所需目标。可以使用两种基本网络模型：栈式自动编码器（SAE）和卷积神经网络（CNN）。

使用SAE跟踪任务的最流行的深度网络是深度学习跟踪器，它提出了离线预训练和在线微调网络。这个过程是这样的：

离线无监督预训练使用大规模自然图像数据集的栈式去噪自动编码器以获得一般目标表示。通过在输入图像中添加噪声并重建原始图像，栈式去噪自动编码器可以获得更鲁棒的特征表达能力。
将预训练网络的编码部分与分类器组合以获得分类网络，然后使用从初始帧获得的正样本和负样本来微调网络，这可以区分当前目标和背景。DLT使用粒子滤波器作为运动模型来产生当前帧的候选补丁。分类网络输出这些补丁的概率分数，表示其分类的置信度，然后选择这些补丁中最高的补丁作为目标。
在模型更新中，DLT使用限制阈值的方式。

由于其在图像分类和目标检测方面的优越性，CNN已成为计算机视觉和视觉跟踪的主流深度模型。一般而言，大规模CNN既可以作为分类器也可以作为跟踪器进行训练。2个代表性的基于CNN的跟踪算法是完全卷积网络跟踪器（FCNT）和多域CNN （MD Net）。

FCNT成功分析并利用VGG模型的特征图，这是一个经过预先训练的ImageNet，并产生以下观察结果：

CNN特征图可用于定位和跟踪。
许多CNN特征图区分特定目标与其背景的任务是嘈杂的或不相关的。
较高层捕获对象类别的语义概念，而较低层编码更多的判别特征以捕获类内变异。

由于这些观察，FCNT设计了特征选择网络，以在VGG网络的conv4-3和conv5-3层上选择最相关的特征图。然后，为了避免在噪声上过拟合，它还分别为两个层的选定特征图设计了额外的两个通道（称为SNet和GNet）。GNet捕获目标的类别信息，而SNet将目标位置为中心的感兴趣区域（ROI）。最后，通过SNet和GNet，分类器获得两个预测热图，并且跟踪器根据是否存在干扰者来决定将使用哪个热图来生成最终跟踪结果。FCNT的流程如下所示。

与FCNT的想法不同，MD Net使用视频的所有序列来跟踪其中的移动物体。上述网络使用不相关的图像数据来减少跟踪数据的训练需求，这种想法与跟踪有一些偏差。此视频中一个类的目标可以是另一个视频中的背景，因此MD Net提出了多域的概念，以独立区分每个域中的目标和背景。域表示包含相同类型目标的一组视频。

如下所示，MD Net分为两部分：共享层和特定域层的K分支。每个分支包含一个具有softmax损失的二进制分类层，用于区分每个域中的目标和背景，以及共享层与所有域共享以确保一般性表示。

近年来，深度学习研究人员尝试了不同的方法来适应视觉跟踪任务的特征。他们已经探索了许多方向：应用其他网络模型，如递归神经网络和深度置信网络，设计网络结构以适应视频处理和端到端学习，优化过程，结构和参数，或者甚至将深度学习与传统的计算机视觉方法或语言处理和语音识别等其他领域的方法相结合。

4--语义分割

计算机视觉的核心是分割过程，它将整个图像分成像素组，然后可以对其进行标记和分类。特别是，语义分割试图在语义上理解图像中每个像素的作用（例如，它是汽车，摩托车还是其它类型的类？）。例如，在上图中，除了识别人，道路，汽车，树木等之外，我们还必须描绘每个物体的边界。因此，与分类不同，我们需要从模型中进行密集的逐像素预测。

与其他计算机视觉任务一样，CNN在分割问题上取得了巨大成功。其中一种流行的初始方法是通过滑动窗口进行补丁分类，其中每个像素使用其周围的图像分别分为类。然而，这在计算上是非常低效的，因为我们不重用重叠补丁之间的共享特征。

相反，解决方案是加州大学伯克利分校的全卷积网络（FCN），它推广了端到端的CNN架构，用于密集预测而无需任何全连接层。这允许为任何大小的图像生成分割图，并且与补丁分类方法相比也快得多。几乎所有后续的语义分割方法都采用了这种范式。

然而，仍然存在一个问题：原始图像分辨率下的卷积将非常昂贵。为了解决这个问题，FCN在网络内部使用下采样和上采样。下采样层称为条纹卷积，而上采样层称为反卷积。

尽管采用了上采样/下采样层，但由于在池化期间信息丢失，FCN会生成粗分割图。 SegNet 是一种比使用最大池化和编码 - 解码器框架的FCN更高效的内存架构。在SegNet中，从更高分辨率的特征映射引入快捷/跳跃连接，以改善上采样/下采样的粗糙度。

最近的语义分割研究在很大程度上依赖于全卷积网络，例如扩张卷积，DeepLab和RefineNet。

5--实例分割

除了语义分割之外，实例分割将不同类的实例分段，例如用5种不同颜色标记5辆汽车。在分类中，通常有一个图像，其中一个目标作为焦点，任务是说这个图像是什么。但是为了分割实例，我们需要执行更复杂的任务。我们看到复杂的景点有多个重叠的物体和不同的背景，我们不仅要对这些不同的物体进行分类，还要确定它们之间的界限，差异和关系！

到目前为止，我们已经看到了如何以许多有趣的方式使用CNN特征来有效地定位带有边界框的图像中的不同目标。我们可以扩展这些技术来定位每个目标的精确像素而不仅仅是边界框吗？使用称为Mask R-CNN的架构在Facebook AI上探索该实例分割问题。

就像Fast R-CNN和Faster R-CNN一样，Mask R-CNN的潜在原理很简单。鉴于 Faster R-CNN在目标检测中运行得非常好，我们是否可以扩展它以进行像素级分割？

Mask R-CNN通过向 Faster R-CNN添加分支来完成此操作，该分支输出二进制掩码，该掩码表示给定像素是否是目标的一部分。该分支是基于CNN的特征图之上的全卷积网络。给定CNN特征图作为输入，网络在像素属于目标的用1s在所有位置输出矩阵，在其他地方输出0（这称为二进制掩码）。

另外，当在原始Faster R-CNN架构上运行而没有修改时，由RoIPool（感兴趣区域池化）选择的特征图的区域与原始图像的区域略微不对准。由于图像分割需要像素级特异性，与边界框不同，这自然会导致不准确。Mask R-CNN通过使用称为RoIAlign（感兴趣区域对齐）的方法调整RoIPool以更精确地对齐来解决此问题。从本质上讲，RoIAlign使用双线性插值来避免舍入误差，从而导致检测和分割不准确。

一旦生成了这些掩模，Mask R-CNN将它们与来自Faster R-CNN的分类和边界框组合在一起，以生成如此精确的分割：

结论

这5种主要的计算机视觉技术可以帮助计算机从一个或一系列图像中提取，分析和理解有用的信息。我还没有谈到许多其他先进技术，包括样式转移，着色，动作识别，3D对象，人体姿势估计等。事实上，计算机视觉领域的成本太高而无法深入探讨，我鼓励您进一步探索，无论是通过在线课程，博客教程还是正式文档。对于初学者，我强烈推荐CS231n课程，因为您将学习如何实现，训练和调试自己的神经网络。作为奖励，您可以从我的GitHub存储库获取所有演讲幻灯片和作业指南。我希望它能指导你改变对世界的看法！

想要继续查看该篇文章相关链接和参考文献？

长按链接点击打开或点击底部【阅读原文】：

http://ai.yanxishe.com/page/TextTranslation/1251

AI研习社每日更新精彩内容，观看更多精彩内容：