一文带你读懂计算机视觉

2018 年 12 月 10 日 AI研习社

本文为 AI 研习社编译的技术博客，原标题：

Learning computer vision

作者 | Romain Beaumont

翻译 | 黄伟聪、chesc

校对 | 酱番梨整理 | 菠萝妹

原文链接：

https://towardsdatascience.com/learning-computer-vision-41398ad9941f

注：本文的相关链接请点击文末【阅读原文】进行访问

最近，我已经阅读了很多与计算机视觉相关的资料并做了大量实验，这里介绍了在该领域学习和使用过程中有意思的内容。

自动驾驶的图像分割

近年来，计算机视觉取得了很大进展。这些是我将在这里提到的主题：

技术：

人脸检测：Haar，HOG，MTCNN，Mobilenet
人脸识别：CNN，Facenet
目标识别：alexnet，inceptionnet，resnet
迁移学习：在一个新场景上用很少的资源重新训练大型神经网络
图像分割：rcnn
生成式对抗网络
计算机视觉所需硬件：选择什么，关键是GPU
集成视觉的UI应用程序：ownphotos

应用：

个人图片整理
自动驾驶汽车
自动无人机
验证码识别/OCR
过滤网站/应用程序上的图片
自动标记应用程序的图片
从视频（电视节目，电影）中提取信息
视觉问答
艺术

关注的人：

重要的深度学习创始人：andrew ng，yann lecun，bengio yoshua，hinton joffrey
adam geitgey 主页有很多计算机视觉方面的有趣文章，比如链接有完整的人脸检测/对齐/识别流程

课程：

coursera 网站里的 deep learning 课程
coursera 网站里的 machine learning 课程

相关领域：

深度强化学习：把包含CNN的PPO和DPN看作输入层
与自然语言处理的交互：lstm 2 cnn

人脸检测

人脸检测是在脸部周围标记方框

人脸检测是检测脸部的任务。有好几种算法可以做到这一点。

https://github.com/nodefluxio/face-detector-benchmark 提供了这些方法在速度上的基准，并且易于重用实现代码。

Haar分类器

这些是自2000年以来在opencv中出现的旧的计算机视觉方法。在这篇论文：http://wearables.cc.gatech.edu/paper_of_week/viola01rapid.pdf 中做了介绍。

这是一种机器学习模型，专门用于目标检测的特征提取。Haar分类器速度快但准确度低。

请参阅：https://docs.opencv.org/3.4.3/d7/d8b/tutorial_py_face_detection.html 中有关于如何使用它的更详细解释和示例。

HOG：方向梯度直方图

HOG是一种用于目标检测的提取特征的新方法：它自2005年开始使用。该方法基于计算图像像素的梯度。然后将这些特征馈送到机器学习算法，例如SVM。这种方法具有比Haar分类器更好的精度。

这种方法的实现在dlib中，就是在face_recognition ( https://github.com/ageitgey/face_recognition ) lib中。

MTCNN

一种使用CNNs的变量来检测图像的新方法。精度更高但速度稍慢。请参阅：https://kpzhang93.github.io/MTCNN_face_detection_alignment/index.html

MobileNet

目前用于人脸检测的最好和最快的方法，基于通用的mobile net架构。请参阅：https://arxiv.org/abs/1704.04861

目标检测

目标检测可以使用与人脸检测类似的方法来实现

这里有2篇文章介绍了实现它的最新方法。这些方法有时甚至也提供了目标的类别（实现目标识别）：

https://towardsdatascience.com/review-r-fcn-positive-sensitive-score-maps-object-detection-91cd2389345c r-fcn
https://towardsdatascience.com/r-cnn-fast-r-cnn-faster-r-cnn-yolo-object-detection-algorithms-36d53571365e a comparison of r-cnn, fast r-cnn, faster r-cnn and yolo

卷积神经网络

最近深度学习的迅速发展，可以看到许多新架构取得了很大成功。
使用许多卷积层的神经网络就是其中之一。一个卷积层利用图像的2D结构在神经网络的下一层中生成有用信息。
有关什么是卷积的详细说明，请参阅： https://towardsdatascience.com/intuitively-understanding-convolutions-for-deep-learning-1f6f42faee1

目标识别

目标识别是将物体分类为特定类别（如猫，狗，......）的一般性问题。

基于卷积的深度神经网络在目标识别任务上取得了很好的效果。
ILSVR会议一直在ImageNet（http://www.image-net.org/ 一个有许多图片的数据集，包括猫，狗等物品标签）上举办竞赛。

越成功的神经网络使用的层数会越来越多。

ResNet架构是迄今为止对目标进行分类的最好网络架构。

要正确地训练ResNet，需要使用数百万张图像，并且即使使用数十个昂贵的GPU，也需要花费大量时间。

为了避免每次都要在这些大数据集上进行重新训练，找到一些其他代替方法是十分重要的，而迁移学习和嵌入embeddings就是这样的方法。

有关resnet的预训练模型，请访问： https://github.com/tensorflow/tensor2tensor#image-classification

人脸识别

人脸识别就是要弄清楚谁是一张脸。

历史方法

解决该任务的历史方法是将特征工程应用于标准机器学习（例如svm），或把深度学习方法应用于目标识别。

这些方法的问题是它们需要每个人的大量数据。实际上，数据并不总是可以得到的。

Facenet

谷歌研究人员在2015年推出了Facenet https://arxiv.org/abs/1503.03832.它提出了一种识别人脸的方法，而不需要为每个人提供大量的人脸样本。

这种方法是通过拍摄大量脸部的图片数据集（例如 http://vis-www.cs.umass.edu/lfw/ ）来有效工作的。

然后采用现有的计算机视觉架构，例如inception（或resnet），再用计算脸部的嵌入层替换目标识别神经网络的最后一层。

对于数据集中的每个人，（使用启发式方法）选择三张脸（负样本，正样本，第二正样本）并将其馈送到神经网络。这产生了3个嵌入embeddings。利用这3个嵌入，计算triplet loss，这使得正样本与任何其他正样本之间的距离最小化，并且最大化位置样本与任何其他负样本之间的距离。

最终结果是每张脸（即使在原始训练集中不存在的脸）现在也可以表示为一个嵌入embedding（128维的向量），该嵌入与其他人的脸部嵌入有很大距离。

然后，这些嵌入可以与任何机器学习模型（甚至简单的诸如knn）一起使用来识别人。

关于facenet和face embeddings非常有趣的事情就是使用它你可以识别只有几张照片或者只有一张照片的人。

请参阅实现它的lib： https://github.com/ageitgey/face_recognition

这是它的一个tensorflow实现： https://github.com/davidsandberg/facenet

这是人脸识别流程背后的思想的一个很酷的应用，就是识别熊脸：https://hypraptive.github.io/2017/01/21/facenet-for-bears.html

迁移学习

在自定义数据集上快速重新训练准确的神经网络

训练非常深的神经网络（如resnet）是非常耗费资源的，并且还需要大量的数据。

计算机视觉是高度计算密集型的（在多个gpu上进行数周的训练）并且需要大量数据。为了解决这个问题，我们已经讨论过为人脸计算出通用的嵌入embeddings。另一种方法是采用现有网络并在其他数据集上重新训练，训练时仅仅训练其中的几层。

这是一个教程： codelab tutorial 。它建议你重新训练一个初始模型，从而去训练未知的花类。

在进行迁移学习时，该选择哪一层来重新训练，以下地址提供了很好的指导：https://medium.com/@14prakash/transfer-learning-using-keras-d804b2e04ef8

图像分割

用于自动驾驶的图像分割

近年来，图像分割可能是一项令人印象深刻的新任务。它包括识别图像的每个像素。

该任务与目标检测有关。实现它的其中一种算法是mask r-cnn，有关详细信息，请参阅此文章： https://medium.com/@jonathan_hui/image-segmentation-with-mask-r-cnn-ebe6d793272

GAN

生成式对抗网络，是由ian goodfellow提出，这个网络架构分为2部分：判别器和生成器。

判别器检测一张图片是否属于某个类别，它通常是在目标分类数据集上进行预训练。
生成器为给定的类别生成一张图像。

在学习期间调整生成器的权重，目标是使生成的图像与该类的真实图像尽可能相似，以至于判别器无法区分出来。

以下是最大的GAN（https://arxiv.org/abs/1809.11096）生成的图像示例。

关于GAN在keras上的实现，请参阅： https://github.com/eriklindernoren/Keras-GAN

计算机视觉所需硬件

要训练大型模型，需要用到大量资源。实现这一目标有两种方法。首先是使用云服务，比如google cloud或者aws。第二种方法是自己组装一台带有GPU的计算机。

只需1000美元，就可以组装一台相当好的机器来训练深度学习模型。

更多细节请参阅： https://hypraptive.github.io/2017/02/13/dl-computer-build.html

计算机视觉的用户界面

ownphotos的face仪表盘

Ownphotos 是一个令人惊叹的用户界面，允许您导入照片并自动计算脸部嵌入，进行目标识别和人脸识别。

它用到的算法：

人脸识别：face_recognition
目标检测：densecap, places365

应用

计算机视觉有很多应用：

个人图片整理
自动驾驶汽车
自动无人机
验证码识别/OCR
过滤网站/应用程序上的图片
自动标记应用程序的图片
从视频（电视节目，电影）中提取信息
视觉问答：结合自然语言处理和计算机视觉
艺术：生成式对抗网络

结论

正如我们这里所见，上述视觉领域各方面的实现中诞生了许多新的有趣的方法和应用。

我认为人工智能最有趣的，在各领域尤其在视觉领域中，是学习可再使用的算法。让这些方法适用于处理越来越多的任务而不需要更多算力资源和数据 :

迁移学习 : 使快速重新训练预处理了的大型神经网络成为可能
嵌入 (例如facenet) : 使识别许多类而无需对这些类进行训练成为可能

想要继续查看该篇文章相关链接和参考文献？

长按链接点击打开或点击底部【阅读原文】：

https://ai.yanxishe.com/page/TextTranslation/1286

AI研习社每日更新精彩内容，观看更多精彩内容：

从语言学角度看词嵌入模型

深度网络揭秘之深度网络背后的数学

如何将深度学习应用于无人机图像的目标检测

Python高级技巧：用一行代码减少一半内存占用

等你来译：

五个很厉害的 CNN 架构

用Pytorch做深度学习（第一部分）

让你的电脑拥有“视力”，用卷积神经网络就可以！

让神经网络说“我不知道”——用Pyro/PyTorch实现贝叶斯神经网络

【AI求职百题斩】已经悄咪咪上线啦，你还不赶紧来答题？！

点击 阅读原文 查看本文更多内容↙

登录查看更多

相关内容

目标识别

关注 18

目标识别是指一个特殊目标（或一种类型的目标）从其它目标（或其它类型的目标）中被区分出来的过程。它既包括两个非常相似目标的识别，也包括一种类型的目标同其他类型目标的识别。

近期必读的六篇计算机视觉顶会ECCV 2020【目标检测】相关论文

专知会员服务

59+阅读 · 2020年7月7日

斯坦福2020硬课《分布式算法与优化》

专知会员服务

123+阅读 · 2020年5月6日

专知会员服务

106+阅读 · 2020年4月9日

【WF-IoT-普渡大学】低功耗深度学习和计算机视觉方法综述

专知会员服务

46+阅读 · 2020年3月26日

南京大学吴建鑫教授「卷积神经网络CNN」笔记，35页pdf初学者学习指南理解CNN数学原理

专知会员服务

125+阅读 · 2020年2月23日

【2020新书】深度学习视觉系统，Deep Learning for Vision Systems, 396页pdf

专知会员服务

171+阅读 · 2020年2月18日

【新书】使用OpenCV学习计算机视觉，深度学习CNNs和RNNs，Learn Computer Vision Using OpenCV With Deep Learning CNNs and RNNs，附163页pdf，

专知会员服务

111+阅读 · 2020年1月22日

自动驾驶汽车的计算机视觉全面综述论文：问题、数据集和现状，附283页PDF下载

专知会员服务

113+阅读 · 2019年12月20日

计算机视觉最佳实践、代码示例和相关文档

专知会员服务

20+阅读 · 2019年10月9日

MIT新书《强化学习与最优控制》

专知会员服务

282+阅读 · 2019年10月9日

1500+ FPS！目前最快的CNN人脸检测算法开源

极市平台

25+阅读 · 2019年3月15日

一文带你读懂 SegNet（语义分割）

AI研习社

19+阅读 · 2019年3月9日

这5种计算机视觉技术，刷新你的世界观

AI研习社

5+阅读 · 2018年11月27日

针对计算机视觉一些问题的分析

AI研习社

6+阅读 · 2018年8月20日

为什么深度学习不能取代传统的计算机视觉技术？

人工智能头条

3+阅读 · 2018年3月14日

一文读懂最近流行的CNN架构（附学习资料）

数据派THU

6+阅读 · 2018年1月14日

ImageNet冠军带你入门计算机视觉：卷积神经网络

AI前线

9+阅读 · 2017年12月8日

【机器视觉】计算机视觉这一年：这是最全的一份CV技术报告

产业智能官

9+阅读 · 2017年11月28日

计算机视觉这一年：这是最全的一份CV技术报告

炼数成金订阅号

6+阅读 · 2017年11月27日

目标检测101：一文带你读懂深度学习框架下的目标检测

大数据文摘

23+阅读 · 2017年9月27日

Fast and Accurate, Convolutional Neural Network Based Approach for Object Detection from UAV

Arxiv

4+阅读 · 2019年1月4日

Unsupervised Image Captioning

Arxiv

7+阅读 · 2018年11月27日

Tiny-DSOD: Lightweight Object Detection for Resource-Restricted Usages

Arxiv

5+阅读 · 2018年7月29日

Viewpoint Estimation-Insights & Model

Arxiv

3+阅读 · 2018年7月3日

Inducing Grammars with and for Neural Machine Translation

Arxiv

4+阅读 · 2018年5月28日

SINet: A Scale-insensitive Convolutional Neural Network for Fast Vehicle Detection

Arxiv

10+阅读 · 2018年5月16日

The Best of Both Worlds: Combining Recent Advances in Neural Machine Translation

Arxiv

4+阅读 · 2018年4月26日

Group Normalization

Arxiv

7+阅读 · 2018年3月22日

Good Features to Correlate for Visual Tracking

Arxiv

10+阅读 · 2018年3月10日

Caffeinated FPGAs: FPGA Framework For Convolutional Neural Networks

Arxiv

10+阅读 · 2016年9月30日

VIP会员