【机器视觉】孙剑：如何在公司做好计算机视觉的研究

2017 年 10 月 31 日 产业智能官 深度学习大讲堂

编者按：正如视觉是人类智能的重要感知来源，计算机视觉也是人工智能的重要依托。计算机视觉的研究水平，直接影响人工智能的整体智能化水平。因此，目前无论是学术界还是工业界，都在大力开展计算机视觉的研究。在本文中，旷视科技(Face++)首席科学家、旷视研究院院长孙剑博士将为大家讲述，如何在大公司和创业公司做好计算机视觉的研究。

非常高兴来到VALSE。第一次来是在西安，当时可能有几百人，第二次在成都，当时的参会者已经多了不少。华尔兹从小团体到今天这么大的规模，超出了我的想象，可能也超出了发起人的预想，希望华尔兹能够越办越好。看到这么多同学关心深度学习和计算机视觉，真是觉得赶上了一个好时代。我今天分享一下如何在大公司和创业公司做好计算机视觉的研究。

（一）孙剑博士个人经历

西安交通大学人工智能与机器人研究所

首先介绍一下我的求学经历。我在西安交通大学人工智能与机器人研究所（人机所）攻读硕士和博士学位，上面是去年我们人机所30年所庆时由无人机拍摄的照片。当年能加入人机所，我感到非常幸运。如今，人机所成立30年，恰好人工智能的发展是60年。

人机所也培养了非常多的老师。上面是昨天我们在厦门的人机所的师兄弟一起聚会的照片，可以看到昨天的两位讲者：薛建儒教授和程洪教授，右边这位老师是我们人机所的一位大师兄，叫李翠华教授，他在厦门大学计算机系做了多年的系主任。非常高兴能够在厦门这个地方和师兄弟们团聚。

微软亚洲研究院

我毕业后加入了微软亚洲研究院，做了一些论文工作，但我最自豪的是培养了不少优秀的学生和人才。

旷视科技 Face++

去年夏天，我加入了旷视科技Face++。简单来说，这家公司是用深度学习做计算机视觉的。

（二）计算机视觉与旷视科技Face++

大方向来看，在人工智能这个大的版图中，计算机视觉占了非常重要的一块。人们把它分成感知智能和认知智能，《人类简史》这样写到：感知智能是指“这里看到一只狮子”这件事情，而认知智能是指“这里明天下午会出现一只狮子”这件没有发生的事情，只是对未来的预测，甚至说狮子是我们的守护神，这是更抽象、更不存在的事情。今天最大的突破还是在感知智能这方面。我们旷视科技Face++也是在感知智能——这个计算机视觉领域做一些工作。

计算机视觉有非常多的应用，上图所示是我列出的一些潜力非常大的方向，如智能传感器网络、安防、人脸识别、医学图像、无人车，机器人、AR、VR。

旷视科技现在聚焦在前两个方向：

一个是智能传感器网络，是指如何把一个相机做的更智能, 更好地处理相机输出的视频信息；
另外一个是AI的云计算能够把智能放到云上，比如说在线人脸识别。

到今天，旷视科技已经发展到第五个年头了。开始的前几年，做的是一些面向用户、面向开发者的工作，最近几年的工作主要集中在泛金融和泛loT，希望将来能做更好的人工智能平台。

公司从创立到现在一直都在回答这个问题：

——如果机器能自动理解一张图像或一段视频，我们能做什么？

——对应人工智能，我们叫它视觉智能。

如何做这些事情呢？

一个很自然的方式是，首先去构建视觉智能，通过做产品，收集到真实场景的数据。众所周知，深度学习需要非常多的、海量的数据才能做得非常好，真的有可能做到接近于人的水平。所以，这样的一个循环是非常重要的。公司是从做技术到产品、从产品到商务的方向，以达到这样的闭环为出发点的。

（三）深度学习工作分享

我们旷视研究院的主要任务是给公司提供这样的核心技术。

核心技术主要集中在计算机视觉的4个基本问题上：

分类——对整幅图像做分类
检测——对一个区域学习
分割——对一个像素做分类
序列学习——对输入的一段视频或一串文字做基于序列的学习

接下来，我将详细地介绍下我们在这些方向的一些研究。我今天的报告可能不会深入一些特别细节的东西，希望能够尽可能地分享我们对这些问题的一些看法。

上图所示是我在微软亚洲研究院时，我们的团队做的工作，叫ResNet。

ResNet是第一个能够把网络做到上百层的，它的核心是深度卷积网络。它有两个非常强的特性：

一个是非线性；
另外一个是端到端学习。

这是深度学习最重要的两个点。

——如果给一个这样的端到端学习，我们这些研究员们应该去做什么呢？

——以前是以设计特征为主，今天可能就不是以设计特征为主了。

返回来再看这样的网络结构可以得知，其实它还有部分不是学习到的，而是手工设计的。现在，很多人的工作也都集中在如何手工设计这样的网络。当然，还有些新的方向可以探索，比如，用增强学习方法来学这个结构，但是目前还不太成熟。

卷积神经网络在设计空间有几个重要的维度，比如深度、卷积核个数，卷积核大小以及特征图，每一层的计算复杂度完全取决于这几个参数。

我们目前得出的结论是：一个网络的真正性能，主要取决于其计算复杂度。如果新的网络结构没有大的变化，基本是计算力决定这个网络性能有多好。

这里是一些网络设计原理：

增加卷积核的数目，减小图片分辨率；
用规模非常小的卷积核；
用1*1的卷积，它是一种低质分解的方式。

今天，标准的卷积神经网络还在运用这些方式。

2015年，我们研究了“深度”这个因素到底有何影响，当时的结论是，当网络结构大致属于某一类时，如果给定计算复杂度，上面提到的这些参数是最重要的，应该先调整这几个参数。当时，我们通过很多实验得出的结论是，深度是第一优先级的，应该先把深度调整好，调整到一定程度，才可以考虑别的参数。

深度的重要性日趋明显

2012年，AlexNet用8层网络——这在当时已经被认为很深了，论文中专门有一段论证8层比5层好，证明深度是有用的。后来，有些人写了一些论文，试图用更浅的网络来逼近，试图来推翻这个深度有用的说法。可见，当时大家对深度是否真的有用还是存疑的。

两年后，VGG和GoogleNet推出了如上图所示20几层的网络，性能提高了很多。

2015年，我在微软研究院的团队提出了ResNet 152层的网络。

上图所示是我们同事以前做的一个动画，用来展示这个152层的网络里面到底有多少层。

ResNet思想非常简单，它引用跳层连接的实现方式，来完成残差学习的功能。

这里大概说下我们对它的解释。当然，这个后来有很多的解释，具体哪个解释更正确，这个可以讨论。我们的一个解释是，在一个ResNet的训练过程中，有一个shallow-to-deep的动态过程，在训练初期，可以认为它在训练一个浅层网络，随着训练的慢慢深入，其实它是在训练一个深层网络。

另外，从反向传播来看，它有一个非常好的特性，就是它从数学上有效地消除了梯度消失的问题，因为最后的梯度会传到中间层去，这样梯度幅度就不会变得很小。

深度学习：破除魔咒之旅

上面所示是Geoffrey Hinton的一些观点。就之前深度神经网络broke的问题，这里列了一些他的看法。我们的ResNet也有这样的一些启示，就是以前设计的网络结构其实是对优化不友好的，如果有一个对优化更友好的网络结构，是可以破除之前认为深度神经网络没有用的这样一个魔咒的。

其实，残差连接也不限于做计算机视觉，如上所示是在语音识别中的应用，这是去年微软做的语音识别系统，它替换了以前使用了很多年的浅层网络。

还可以将该网络很有效地应用在自然语言处理领域，比如说神经机器翻译。从以前浅层的LSTM模型切换到非常多层的LSTM模型，这个思想是通用的。

深度网络实用化

我来到Face++面临的一个问题是，如何将这个网络实用化。

我们需要把算法运行到一些计算力很小的设备上。如上面左图所示，横轴指的是网络的性能，纵轴指的是网络的计算复杂度。右图所示的16 GFLOPs是一个典型的在ImageNet上可以取得很好性能的网络，但是，在实际运用中，我们可能需要一个百分之一或者千分之一的更小的网络。

如何做更好更小的网络

我们在Face++也开展了一系列研究，研究如何做更好更小的网络。我们大概从三个方向着手。

第一个方向：设计更好的网络结构。

上图所示是我列出的最近几年一些比较好的、比较经济有效的、比较高效的网络结构。当然还有其他更多的结构。

第二个方向：对网络做一些剪枝。

这里有几种方式：

第一种称为稀疏连接

把连接幅值比较小的地方去掉。但是，这样虽然能降低网络的规模，但在运行时并不会降掉，因为这样的稀疏结构对很多设备是不友好的。

第二种方法是Tensor 分解。

它试图把一个三维的卷积核分解成一些更少的、计算力更小的卷积核的组合。

一会我会介绍第三种方法。

上图所示是我们以前做的一个工作，简单来说，是把一个3D的卷积用卷积核分解的方法拆成3个连续的卷积，这样每一组卷积都可以更小更快。该方法第一次在VGG上达到了4倍加速，在ImageNet上几乎不减任何性能。

上图所示是我们Face++最近做的一个工作（已经被ICCV2017收录），这个方法更简单粗暴。它直接训练好一个网络，然后直接砍掉一些通道，砍掉的通道然会有一些关联效应，比如砍掉这层的通道可能会影响到前一层或者后一层，我们很快会在新的论文上进行阐述这个，主要是关于我们如何简单砍掉这些通道的特性的。而且这个方法不但对VGG管用，对今天的最新型的ResNet，XceptionNet都管用。以前的低秩分解，很难应用到目前更现代的网络结构上。

第三个方向：Low-bit表示。

把内部的数表示从浮点型，切换到定点或者更低位的表示，它可以是网络中的权重，也可以是网络中的特征。

我们Face++的研究员设计了一个DoReFa-Net，把这个方向更推进一步。训练中的梯度也可以用Low-bits表示，因为这个网络的weight，activation，以及gradients分别用一位、两位、以及四位来表示，所以我们研究院就叫这个网络DoReFa-Net。

这三种方式组合在一起，就可以做非常快且有效的推理。

人脸识别

上图所示是一个视频（截图），可以看到，我们在一个非常低功耗的FPGA上可以做到实时的、1080p高清的、视频的、没有任何跟踪环节的逐帧检测。

当然，图像识别最重要的一个应用是做人脸识别。人脸识别大致可以被当作两种任务来做，一种是classification ,一种是当metric learning。

人脸识别进展非常快，上图所示是2013年我在微软的团队做的一个叫高维特征的工作，在著名的公开评测集LFW上的效果非常好，但在当时与人类识别性能还是有差距的。在2014年，Facebook的作者杨明等第一次很有效地用深度学习系统来做人脸识别工作，他们的结果非常接近人类识别性能。后来，大家快速地使用深度学习，并用更大量的数据，在这个数轴上，可以看出，大家（包括我们Face++）的结果都可以超过人类的性能。

但是可能有人会问，到底是不是真正能超过人类的性能呢？

我们在Face++也做了一些应用，比如说1:1的验证。截至到去年，我们的互联网身份认证系统已经为超过一亿人提供过这样的1:1的人脸身份认证，而且我们在上亿规模的人脸数据库上，可以完成非常有意义的搜索。

当然，人脸识别还有很多难点，比如，在大规模库中做1:N比对还是非常有挑战性的。

另外一个问题叫做活体检测，比如怎样识别这是真脸，还是假脸？这个其实已经超出了学术意义上的人脸识别范畴。

我们非常感兴趣的另外一个问题是“如何做复杂光照下的‘熟人’的识别”。这个其实跟今天机器要解决的问题是不一样的。比如，当机器人在光照环境非常复杂的家里时，就算人脸识别方法很好，解决这个问题还是非常困难的。

以上是第一部分。

物体检测

第二部分我会介绍一下我们关心的另外一个问题——物体检测。

在深度学习出现之前，对于物体检测，我们大概能在人脸和车这些方面做到大概 60、70分的程度。

有了深度学习和这样的深层网络以后，就可以做非常复杂的物体检测问题。

上图所示是在COCO上的一些例子。

R-CNN

这其中最重要的突破是Ross做的Region-CNN。我这边列出了一些后来的工作，也包括我们的一些工作。

R-CNN的核心思想是对一个Region做分类，但是它存在的问题是，需要用Region-proposal 的方式，对大概一两千个窗口做分类，这是非常慢的。

SPP-Net

后来，我们就思考怎样能够快一些，于是我们设计了SPP-net，就是在ECCV2014上的一个工作。其实思想很简单，就是试着把滑动窗口从图像放到特征图上，看到底行不行。在尝试之前，我们还是很怀疑的，因为feature map 这么小，怎么能做这么好的分类任务？但是后来实验发现，在上面做的效果和在原图上几乎是类似的。当时就认为有了这样的方法后，就可以把上千次的分类任务给消除掉。

Fast R-CNN

有了SPP-net后，Ross自己写了一篇论文——Fast R-CNN。因为他发现SPP-net前向的一部分是不finetune的，只有最后一段是finetune的，他就把整个放到SPP-net上，同时把前面的feature也finetune了，这就形成了叫做Fast R-CNN，结果非常好。可见，端到端学习在深度学习系统中有多重要。

尚存的问题是Region Proposal当时还不是深度学习的方法。

怎么做呢？

Faster R-CNN

我们提出了Faster R-CNN，其实还是基于SPP-net的。将特征做卷积以后，在feature map上选取一些很可能是物体的区域，然后通过Fast R-CNN，就可以做成Faster R-CNN。整个过程是端到端学习的。

这个方法第一次消除了Region Proposal，整个系统可以达到100ms到200ms这样的速度。

上图所示是一些结果。这个过程也让我意识到深度特征的强大。一个很小的3*3的feature在最高层的时候，可以预测非常丰富的信息，甚至不同尺度，不同大小的物体，都可以通过feature点预测出来。

上图所示是一些例子。

当时这个方法在ImageNet和COCO上是最好的方法。

上图所示是最近一篇google的方法，该方法具体比较了SSD，Fast R-CNN 和R-CNN。R-FCN也是我在微软领导的小组中一名同事的工作。

目前，COCO最好的系统还是R-CNN这样的系统（Google复现的）。

文本检测工作

我们也不是只关心物体检测，我们也关心文本检测。昨天白翔教授已经非常详细地讲述了文本检测的一些背景白翔：趣谈“捕文捉字”-- 场景文字检测 | VALSE2017之十，我在这跳过一些细节。

以前的文本检测过程都是非常冗长的，需要非常多的步骤。也可以用深度学习方法，其核心是端到端学习。

上图所示是我们今年在CVPR上提出的一个方法。它的核心是FCN。它不但要预测哪个点是文本，还要预测文本的方向，文本包围核的几何信息，然后可以列出一串很详细的预测的东西。这样一个 Geometry map training的FCN能够非常有效地把以前文本检测的冗长过程在很大程度上简化下来，而且取得了非常好的效果。

上图所示是我们同事录制的一段实时文本检测的视频。它通过一个FCN就可以预测出所有文本的bounding box的位置。

语义分割工作

我们关心的第三个问题是，如何对整个图像做语义分割。

核心方法也是FCN。

我们自己也研究FCN，它和分类也是有区别的。它需要一些更局部的信息，而分类是需要一个更全局的信息。如果简单拿分类预训练过来的东西做FCN，会存在一些感受野不够大的问题。

Face++的一个实习生研究FCN后，得出结论：相对于简单地运用分类网络，FCN用更大的卷积核，能够覆盖更大的感受野，这样才能把大的物体和小的物体做好。

他提出了Large Kernels FCN的方法，上图所示是一些具体的网络结构。

上图所示是在VOC上的一些结果。

这个方法是当时排名最高的。

序列学习

另外，我们还关心序列学习的问题。就是输入可能是一个或者多个，输出可能是多个或一个。

一个典型例子是OCR。先输入图像，这里隐含一个一维的顺序，卷积之后，通过编解码的方法，把这些文字都抽取出来，这其实是文字识别的问题。

Face++开放平台也提供这样的一些OCR的开放能力，比如对证件照、对一些单据、对一些文档做OCR功能。

核心方法是基于注意力机制的RNN，这个在现在发展比较快。我列的这篇文章也是最近对这个方向的一个很好的总结。

产生式模型

我们还关心最近发展比较热的产生式模型，它的核心方法是如何生成虚拟样本，如何能sample一个没有标签的数据分布。

上图所示是去年业界的一些结果。

上图所示是今年的一些结果，尤其是最近的WGAN或者它的加强版，可以使GAN的训练从以前非常不稳定到非常稳定，非常鲁棒。之前，GAN 存在非常难优化问题，但是现在随着聪明人的投入，这些问题真的会在很大程度上被逐渐解决掉。

上图所示是我们做的一个具体应用。先捕捉这样一些人脸照片，但是GAN能做什么呢？如果简单生成一些样本照人脸去训练识别，这样一般是没有用的。

如果增加条件，比如增加头发、眼镜、胡子，甚至都加上去，可以看到这样求出来的一些阴影(shadow)非常真实，这样可以很大程度上丰富我们的训练数据。

3D感知

我们感兴趣的另外一个方向是3D感知。

上图所示是我们Face++的一个研究员做的工作，大致是如何通过输入图像，输出一个3D点集。

以前最主要的问题是如何表示3D，过去有mesh的表示、有深度的表示。但是，以前的方式在表示上都有很强的不连续性，这样会给end-to-end的学习带来很大障碍。我们Face++的研究员提出了最后一种点云的表示。

这里不再累述具体细节。大致是有一个这样的数据集和一个方法，可以生成一些非常 impressive的结果，即通过单张图推理3D。

上图所示是它的合成数据的样本。

在论文提交之前，在办公室也拍了一些真实的物体，然后生成了一些对应的3D效果。

大家如果有兴趣可以看看论文，上面有更多的有趣结果。

系统及研究平台

上图所示是我们目前在研究的一些技术。我们也有一个系统及研究平台，我们内部叫做Brain++。它是数据管理、标注、训练、GPU集群管理、以及模型发布的集成的平台，目的是，让加入我们公司的每个研究员和实习生，都可以把工程工作极大地简化，把大家聚焦在研究和提出系列思想上。其中内部一个核心是MegBrain。MegBrain相当于是我们Face++的“tensorflow”，已经研发了超过两年多，是内部一直在使用的、自己研发的深度学习引擎。

（四）Face++视觉产品

有了这些技术后，我们希望通过这些技术打造一些产品。Face++现在大致有两条产品线：

一个是人工智能云上云计算的智能方式、智能算法和智能服务；
还有一个是Smart Camera。

人工智能开放平台

上图所示是Face++开放人工智能开放平台。该平台上，API日调用量上千万次，后面是不断提供的一些新的能力。

FaceID在线身份认证服务

第二个是FaceID在线身份认证服务。目的是在网上认证“你到底是不是你”。因为目前网上有身份证的高清照片，所以可以做这个业务。

具体来说，就是自己拍手机并与身份证照片一起通过客户端的活体检测、云端的活体检测和识别，来完成这样的相关认证服务。

该服务目前服务于非常多的银行、保险、证券等一些互联网金融和银行客户。

Smart Camera

另一个分支是Smart Camera。上图所示是我们最近两年做的一些智能的传感器，尤其是与相机相关的，包括人脸识别的、物体检测的一些模块或计算单元。

目的是用这样的Smart Camera，对家庭安防、或者公共安防有一个革新。

视频结构化

上面是我们做的一个视频结构化的例子。可以看出，通过前端智能方式或者后端智能方式，行人、车辆、它的属性、还有一些分类信息能够有效地被提取出来，希望这样能够对视频有搜索功能。因为今天全世界50%的摄像头都在中国，全世界50%以上的硬盘都在存储这些视频，但是其实并没有人看，所以我们做视觉智能想回答的是，有这样的视频，机器到底能不能看得懂，如果能看得懂，能做什么？

另外还有一些有趣的商业应用，比如人员通行、或者是会议人脸识别注册系统。

智能门禁系统

上面是我们公司的门禁系统。来我们公司，不管是实习还是工作，上班是不用带工卡的，只要带着自己的人脸来就可以了。这个是公司在一开始，用来检验人脸识别能不能很好地工作的一个demo。我们公司建立了一个，后来发现非常好用。现在已经有几百家这样的商业客户使用我们这样的智能门禁系统。

智能商业

我们还想做得更多的是在智能商业上，包括园区、企业零售。真的希望能够通过智能传感器网络或者智能摄像头，升级现在园区、企业、零售这样的产业形态。

上面是上周北京马拉松时，从我们公司搬到前门的智能门禁系统。它能够帮助马拉松选手进行身份认证。人脸识别做了这么多年，到今天，真的看到层出不穷的、各种千奇百怪的很多应用，有些是我们想也想不到的。

智能机器

在未来我们会关注智能机器。今天是对这些球型机器人提供一些智能识别模块。当然，今天真的想做好智能服务机器人，只是有这个模块还是不足够的。如果这个智能服务机器人在家里真的能服务的话，需要更好的导航避障系统、更好的抓取功能、更好的和人交互的功能，这也是我们对这个方向非常看好的地方。

大数据

有了这么多的产品，第三步是如何搜集这样的数据。

这里我列出一些数字，大家可以看一下红色框中的两个数集，可以看到通过我们提供的这么多的服务，有多少次调用。去年有62亿次通过我们产品的调用，而且我们去年提供了1.12亿人的在线身份认证服务。

通过这么多的数字、通过和不同的行业结合，这也是目前的一个AI+的概念。

其实，我们希望最终从视觉智能、到产品、再到数据，能够达到这样一个非常健康的闭环，把技术推向更高。

（五）如何在公司做计算机视觉研究？

最后，跟大家分享一下我对人工智能的一些看法：如何在大公司，或者是小公司、创业公司做计算机视觉研究？

当然，现在人工智能已经非常热了，但是还存在非常困难的问题，大家可以看到为什么左边这个感知智能能做好，因为大多数任务是拟合一个函数就可以了。今天的深度神经网络，特别是上百层上千层的网络做这件事情非常在行，所以大家在这方面进展比较大。但右边的过程就非常复杂了，因为它涉及一个多步的过程，不是简单的拟合一个f（x）就可以，而且最大的问题是，大家不知道怎么把这个训练数据和训练环境喂给计算机，即最大的挑战是我们很难去教计算机来做这件事情。

那么，下一步该怎么做呢？

上图所示是我非常推荐的一本书，叫《ON INTELLIGENCE》，希望在座的学生如果没读过这本书，都读一读。这是大概十几年前的一本书，它的作者以前是Palm的创始人，他开了一家研究院，致力于研究人工智能。里面有非常好的思想，可以对如何打造一个这样的人工智能有很好的认识。

上图所示是我自己非常认可的里面的两个观点，也是现在研究领域非常热的方向。

一个是基于Memory的机制。如何让神经网络或者某个系统有内存机制，需要解决很多问题，需要理解里面到底要存什么，存的东西怎么样检索。它肯定不是这样简单copy出来的，它是需要通过联想记忆功能来存储的，而且存的形式不是简单地存下去，而是需要一些序列形式，比如，记一首歌可以正着把它记下来，可能反着就没法把它唱出来。就是说，人在记忆的过程中，一定有很强的序列形式，而且记忆的东西特别是知识，也是分结构的。
另外一个方向是无监督的预测，由于时间限制，这里不再详细地分享。

上图所示是我们2011年的一篇paper，叫做“Memory-Prediction Model”。在deep learning 之前，试图用这样的NN搜索的方法。它能够解决大pose、人脸识别的问题，今天也许能用不同的方式来做，但这在当时是一个尝试。

另外一个工作是关于Image Completion的。猜测南瓜后面到底有什么东西，这其实是一种预测。在我们的物理世界中，其实有海量的这样的监督信号等待我们去挖掘。

人工智能没有那么容易，但是是非常有希望的。我们通过技术、商业、数据的方式来做，当然，如果想做好这个，我个人认为要对技术有热情，对商业有洞察，对大规模数据能耐心地观察。

为什么说我对AI有很大期望呢？

大家可以看到，全球的最最聪明的人都投入到了人工智能的浪潮中，上面是去年我在GTC的会议上拍的一张照片。GTC以前是跟游戏相关的会议，但是最近几年，GTC所有的参会者关心的都是如何做深度学习，如何做人工智能。

（六）Face ++研究院人才战略

Face++的研究是开放型的，我们鼓励我们的实习生和研究员公布代码和成果。

不管是对找工作的同学，还是对想来我们这实习的同学，我们的准则一直是不变的。我们一直希望寻找“三好学生”——数学好，编程好，态度好。但是大家不用害怕，我们的“三好”是“或”的关系，只要有一条好就行了。

我们Face++的研究院在北京北四环中关村的一个核心地带，叫融科资讯中心，旁边是Google 、Intel，办公环境非常好。

我们提供业界最有竞争力的薪资和待遇。

最重要的是我们到底和什么样的一群人一起工作。我们与这些非常强的小朋友一起工作，我们也提供一个非常大的GPU共享集群，上面这张照片中是我们买下的GPU卡扔下的盒子，我们买了大规模的GPU。在我们这很多的实习生用到的GPU卡的数量超过他在学校用到的GPU一个或两个数量级。我们这有上千万级甚至上亿级的真实数据，大家可以来做这些真实的问题，做出的东西可以真正的服务于我们身边的客户。我们的一个研究员有天自豪的说，他有天排队，前面一个人在用支付宝的刷脸支付，他当时感到特别自豪，因为上面的功能是他做的。

最后，我想简单分享一下我从大公司到创业公司感到怎样的变化，如何在创业公司做好研究。

上面是别人经常问我的一些问题。

我们遵照柳传志先生讲的，任何一个组织，包括研发部门的三要素：使命定位、人员组成、研发方式，分别对应他讲的定战略、搭班子、和带队伍。

我们旷视研究院的使命是做最好的计算机视觉技术，让最好的技术落地，推动公司的快速发展。

在我们的班子里，我可能是唯一一个不写code的人。我们研究院的价值观是追求、极致、简单、可靠。

我们的班子组成人员都非常年轻。

我们研究院具体的管理形式是非常动态的，大概是分成两到四个人的小组，而且每个季度都会调整，没有长期的项目，有短期的项目。定目标、找代码、做改新，大的小的改新都有。组织管理形势非常典型。最后我们会选择性地将一些研究成果公开到学术论文上去。

研究院也开展了西雅图的研究室，我们希望将更多的Face++的研究开设到不同的地方。

上面是我们研究院认为如何能够带好我们研究员所遵照的一些准则。

我们提供了非常好的基础设施。

从公司创立到今天，我们始终想回答的问题是，对一张照片或者一段视频，我们到底能做什么，对应的就是我们要研究的视觉智能。

谢谢大家！

作者信息：

作者简介：

孙剑，目前在旷视科技（Face++）担任首席科学家、旷视研究院院长。孙剑博士2003年毕业于西安交通大学人工智能与机器人研究所，其主要研究方向是计算摄影学、人脸识别和基于深度学习的图像理解。

自2002年以在CVPR，ICCV，ECCV，SIGGRAPH，PAMI五个顶级学术会议和期刊上发表学术论文100+篇，Google Scholar引用20,000+次，H-index 58，两次获得CVPR Best Paper Award（2009,2016）。孙剑博士于2010年被美国权威技术期刊MIT Technology Review 评选为“全球35岁以下杰出青年创新者”。孙剑博士带领的团队于2015年获得图像识别国际大赛五项冠军（ImageNet分类，检测和定位，MS COCO检测和分割），其团队开发出来的“深度残差网络”和“基于区域的快速物体检测”技术已经被广泛应用在学术和工业界。同时孙剑带领的团队的研究成果也广泛被应用在微软Windows，Office，Bing，Azure，Surface，Xbox等多条产品线上。目前孙剑博士正在带领旷视科技的研究团队推进计算机视觉技术的进步，和探索其在工业和商业上的实践。

何晖光：“深度学习类脑吗？”--- 基于视觉信息编解码的深度学习类脑机制研究

来源：深度学习大讲堂

编者按：深度学习中最经典的卷积神经网络，其命名的初衷，即是向人脑中的神经网络致敬。而深度学习的提出，在很大程度上，也是受到了大脑的启发。然而，深度学习是否类脑？目前并没有统一的认识。对深度学习的类脑机制研究将有助于加深理解深度学习。

本文中，来自中科院自动化所的何晖光研究员，将从视觉信息编解码的角度出发，建立人类视觉系统与外界视觉刺激信息之间的映射模型，探索大脑视觉信息处理的过程和机理，希望利用机器智能实现对人类视觉感知功能的模拟，从而提升计算机处理视觉信息的能力。大讲堂特别在文末提供文中提及所有文章以及模型代码的下载链接。

深度学习是否类脑，目前并没有统一的认识。我将从视觉信息编解码的角度来介绍我们关于深度学习和类脑的思考。

我们通过fMRI信号，建立人脑响应与外界视觉刺激信息之间的映射模型，探索大脑视觉信息处理的过程和机理。与此同时，我们还将研究深度学习所得到的视觉特征与大脑视觉信息处理的关系，理解各层特征在大脑皮层的神经表达，并利用深度学习建立视觉信息的神经编解码模型。最后介绍我们利用多视图贝叶斯深度学习从fMRI信号重构图像的工作。我的汇报包括以下几个方面的内容：

研究背景
国内外研究现状
研究内容和研究结果
总结及展望

研究背景

众所周知，视觉是至关重要的，人类从外界接收的各种信息中，约80%是通过视觉系统获得的。因此，视觉研究一直是热点问题，近年来有关视觉的报道如雨后春笋般涌现。

计算机视觉 VS 人类视觉

近年来，计算机视觉的研究取得了极大的进展，在目标检测、分类、识别等各领域已有很多优秀的工作，但是它依然难以处理复杂背景下的物体识别。相对而言，人类视觉具有高效、鲁棒、抗噪等特点。因此，一个自然而然的想法就是：

——如何将人类视觉特性引入计算机视觉模型呢？

——我们考虑从视觉信息编解码的角度来尝试回答这个问题。

基于fMRI技术研究人脑视觉编解码机制

最近fMRI（功能性磁共振成像）技术发展迅速，它可以无损地检测大脑活动。我简单介绍一下fMRI的成像原理：

人类大脑接受外界刺激会引起神经元的兴奋，导致血液内含氧血红蛋白的增多，通过MRI（核磁共振成像）可以检测出这样的信号，从而检测出兴奋的区域，比如说话时语言中枢会比较兴奋，当接受视觉刺激时，视觉中枢会比较兴奋。

这是fMRI的一个实验步骤：人躺在共振成像的设备中，通过投影设备给他一些视觉刺激和任务，可以得到分别在静息和受刺激时的大脑反应，通过二者状态的差值能够检测出受刺激时相关的大脑反应区。

编码和解码是什么样的过程呢?

比如针对一个刺激S，大脑会有一个响应R，建立从刺激S到响应R的映射关系过程就是一个编码过程，当提供一个新的刺激时，就能够据此预测大脑的响应；反而言之，如果已知大脑响应，去推测受到什么样的刺激，这就是一个解码过程。解码过程可以看作是编码过程的一个逆过程。

如果建立一个好的编码模型，可以通过模型求逆得到解码模型，当模型不能够求逆时，可以通过最大后验估计或者贝叶斯估计来推出解码模型。因此，编码是一个非常重要的步骤。

国内外研究现状

2001年Haxby在Science上发表了一部分工作，通过fMRI实验，他将颞叶皮层的激活模式作为特征，对客体进行分类识别，在一些物体上达到了90%以上的分类准确率。后来有人在脑电上进行了类似的分类工作。

在客体识别上，UC伯克利的研究组利用Gabor金字塔建立了从图像到大脑信号的模拟V1感受野的模型。当接收到一个新的fMRI信号后，将信号和感受野模型的预测结果进行匹配，在120多张图片中可以达到90%以上的正确率。

Miyawaki发表在Neuron上的一个工作，进一步做了视觉信息重建，在客体分类和客体识别的基础上，重建出人类所看到的图像细节。

更进一步，Nishimoto组通过能量编码模型，可以大致重建出视频中物体的轮廓信息。

这是Gallant（神经科学家）在CVPR15上介绍的一个语义重建工作，Gallant是神经科学家，但是却受邀在CVPR上做KeyNote，这也反映了计算机视觉有必要与神经科学加以结合。受试者观看一个视频，同时采集他的fMRI信号。通过分析他的fMRI信号，就可以预测出人所看到的视频中包含的重要语义信息。

他们（Gallant组）发表在2016年Nature上的工作提出了几个重要观点：语义信息是在整个大脑皮层上都有响应的，且他们在不同个体上具有某种共性。

目前视觉信息编解码研究中的局限：

以上这些之前的研究取得了一些成绩，但是存在一定的局限性：编码较简单，如Gallant采用Gabor金字塔建立感受野模型，Mayawaki采用不同尺度的小方格来逼近视觉感受野。这只适合于初级视觉皮层，他们对高级视觉皮层，以及视觉皮层之间相关性信息的研究还不够。由此需要层次化的建模。

由于深度学习是一个层次化的模型，自然想到应用它来解决此问题，但是深度学习内在理论的研究还不完善，它常被当作黑盒子来使用。

研究发现，深度学习的层级特征和大脑皮层之间有一定的对应关系。比如，低层的Gabor滤波器类似于V1区识别图像中像素级别的局部特征，例如边缘信息；高级区域将低级特征组合成全局特征，形成复杂模式，甚至语义级别的信息。而对于中间层的映射关系，还有待进一步研究。

我们拿到了一个国家自然科学基金重点支持项目“视听觉信息的认知计算“，利用深度神经网络来进行视觉信息编码和解码，由此探索深度学习的类脑生物基础，并在一定程度上解释大脑视觉计算的机制。通过对视觉信息的编解码，引导深度神经网络建模。

研究内容和结果

我们的工作从几个方面展开：一方面，利用深度学习对图像进行分解，观察分解的特征在大脑皮层上的表达；另一方面，通过深度学习，进行视觉信息的神经编解码，理解人类视觉信息加工的特征空间以及在大脑中的组织规律，然后利用大脑的编解码来引导深度神经网络建模。

我们可以进行特征对比（比如将低层特征和fMRI特征进行对比）和特征选择，将其用在图像分类、检索和重建上。

特征表达

我们利用CNN对图像进行分解，得到不同层次的特征，然后观察不同层次特征和大脑体素信号的对应关系，由此可以建立体素的感受野模型，相当于特征在大脑皮层上的一个表达。

自编码模型用于神经信号编解码

很自然地想到CNN的自编码模型，输入图像通过CNN编码，可以在中间层得到图像的特征，然后通过反卷积重建出图像。因此，如果能够建立图像特征和大脑皮层响应关系，通过皮层响应就能重建出图像。这里涉及到两种方法：第一种，先做自动编码，再把中间层和大脑信号做一个回归。第二种，将自编码和回归同时进行。

通过建立上述模型，从图像到BOLD信号是一个编码的过程，从BOLD信号重建图像是一个解码的过程，这是在CNN框架下的一个工作。

多视图生成式自编码模型

考虑到“多视图”这个因素，也就是说，我们得到的视觉直观图像和大脑对其的响应具有一定的差异性，这两个view之间也具有一定的关系，我们需找到这两个view之间共同的表征，以便对其重建。

通过该通道，从图像到BOLD响应是一个编码过程。

通过该通道，从BOLD信号到图像的预测，就是一个解码的过程。

在这个框架下，我们给出了概率图模型和待优化的目标函数。

多视图生成式模型

这是我们的实验结果。第一排是原始的刺激，中间是其他人的一些方法和结果，最后一排是我们的结果。我们在三个数据库上进行了实验，结果表明，我们对数字、符号、字母的重建效果远高于其他方法。

我们还进行了一些定量分析，分别比较了相关性、重建误差、结构相似性，还对重建后的图像进行了分类，实验表明我们的算法对数字的分类正确率达100%，对字母的分类准确率也远高于对比方法。

卷积网络与人脑视觉皮层的功能对应

前面讲的是重建方面的工作。我们还尝试探索了深度网络与人脑视觉皮层的功能对应性。研究不同脑区和卷积层的对应关系。比如我们进行了量化的研究，上图右边是深度神经网络的第一个卷积层的感受野，由此推算出人脑视网膜的拓扑映射结构，左边是体素分布。

我们还探索了视觉皮层层级之间的联系。研究表明V1，V2，V3，V4之间有比较高的相似性，V3a和MT区也有比较高的相似度。虽然V3和V3a在解剖上距离很近，但是它们的相似度较低。这是因为V1，V2，V3，V4与客体识别相关，而MT和V3a区对运动信息更加敏感。

总结与展望

最后，对我们的工作进行一个总结。我们提出了一个基于多视图生成模型的重建框架，这个框架具有很好的扩展性，它可以挖掘不同模式之间的共同表征并建立两者之间的关系，这样使得Mind Reading成为可能。我们还研究了深度特征在大脑皮层上的表达，但是现在的研究还存在一些局限性，比如自然图像刺激的fMRI样本量很少，所以目前只能在数字、字母、符号上有较好的重建效果，对自然图像的重建效果还有待研究。而且，目前采用的是静态编解码，下一步将采用动态编解码，比如利用RNN，LSTM。此外，我们认为解决编解码问题的方法可以借鉴机器翻译中的对偶学习思想。值得一提的是，将VAE和GAN结合也值得尝试。

这个工作受到了基金委的支持，其中的主要工作是我的博士生杜长德完成的，谢谢。

文中引用文章的下载链接为：

http://pan.baidu.com/s/1i4JSId3

人工智能赛博物理操作系统

AI-CPS OS

“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能）分支用来的今天，企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中，利用AI-CPS OS形成数字化+智能化力量，实现行业的重新布局、企业的重新构建和自我的焕然新生。

AI-CPS OS的真正价值并不来自构成技术或功能，而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化，这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合，没有颠覆现状的意愿，这些将不可能实现。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量，领导者必须在行业、企业与个人这三个层面都保持领先地位：

重新行业布局：你的世界观要怎样改变才算足够？你必须对行业典范进行怎样的反思？
重新构建企业：你的企业需要做出什么样的变化？你准备如何重新定义你的公司？
重新打造自己：你需要成为怎样的人？要重塑自己并在数字化+智能化时代保有领先地位，你必须如何去做？

AI-CPS OS是数字化智能化创新平台，设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端，可以帮助企业将创新成果融入自身业务体系，实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉，形成了领导力模式，使数字化融入到领导者所在企业与领导方式的核心位置：

精细：这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切，进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。
智能：模型随着时间（数据）的变化而变化，整个系统就具备了智能（自学习）的能力。
高效：企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力，这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
不确定性：数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验，其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域：技术、文化、制度。
边界模糊：数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化，还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长：

创造虚拟劳动力，承担需要适应性和敏捷性的复杂任务，即“智能自动化”，以区别于传统的自动化解决方案；
对现有劳动力和实物资产进行有利的补充和提升，提高资本效率；
人工智能的普及，将推动多行业的相关创新，开辟崭新的经济增长空间。

给决策制定者和商业领袖的建议：

超越自动化，开启新创新模式：利用具有自主学习和自我控制能力的动态机器智能，为企业创造新商机；
迎接新一代信息技术，迎接人工智能：无缝整合人类智慧与机器智能，重新
评估未来的知识和技能类型；
制定道德规范：切实为人工智能生态系统制定道德准则，并在智能机器的开
发过程中确定更加明晰的标准和最佳实践；
重视再分配效应：对人工智能可能带来的冲击做好准备，制定战略帮助面临
较高失业风险的人群；
开发数字化+智能化企业所需新能力：员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说，创造兼具包容性和多样性的文化也非常重要。

子曰：“君子和而不同，小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和人工智能，像君子一般融合，一起体现科技就是生产力。

如果说上一次哥伦布地理大发现，拓展的是人类的物理空间。那么这一次地理大发现，拓展的就是人们的数字空间。在数学空间，建立新的商业文明，从而发现新的创富模式，为人类社会带来新的财富空间。云计算，大数据、物联网和区块链，是进入这个数字空间的船，而人工智能就是那船上的帆，哥伦布之帆！

新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。