孙剑：如何在公司做好计算机视觉的研究|VALSE2017之十三

2017 年 10 月 18 日 深度学习大讲堂 孙剑

点击上方“深度学习大讲堂”可订阅哦！

编者按：正如视觉是人类智能的重要感知来源，计算机视觉也是人工智能的重要依托。计算机视觉的研究水平，直接影响人工智能的整体智能化水平。因此，目前无论是学术界还是工业界，都在大力开展计算机视觉的研究。在本文中，旷视科技(Face++)首席科学家、旷视研究院院长孙剑博士将为大家讲述，如何在大公司和创业公司做好计算机视觉的研究。文末，大讲堂特别提供文中提到所有文章的下载链接。

非常高兴来到VALSE。第一次来是在西安，当时可能有几百人，第二次在成都，当时的参会者已经多了不少。华尔兹从小团体到今天这么大的规模，超出了我的想象，可能也超出了发起人的预想，希望华尔兹能够越办越好。看到这么多同学关心深度学习和计算机视觉，真是觉得赶上了一个好时代。我今天分享一下如何在大公司和创业公司做好计算机视觉的研究。

（一）孙剑博士个人经历

西安交通大学人工智能与机器人研究所

首先介绍一下我的求学经历。我在西安交通大学人工智能与机器人研究所（人机所）攻读硕士和博士学位，上面是去年我们人机所30年所庆时由无人机拍摄的照片。当年能加入人机所，我感到非常幸运。如今，人机所成立30年，恰好人工智能的发展是60年。

人机所也培养了非常多的老师。上面是昨天我们在厦门的人机所的师兄弟一起聚会的照片，可以看到昨天的两位讲者：薛建儒教授和程洪教授，右边这位老师是我们人机所的一位大师兄，叫李翠华教授，他在厦门大学计算机系做了多年的系主任。非常高兴能够在厦门这个地方和师兄弟们团聚。

微软亚洲研究院

我毕业后加入了微软亚洲研究院，做了一些论文工作，但我最自豪的是培养了不少优秀的学生和人才。

旷视科技 Face++

去年夏天，我加入了旷视科技Face++。简单来说，这家公司是用深度学习做计算机视觉的。

（二）计算机视觉与旷视科技Face++

大方向来看，在人工智能这个大的版图中，计算机视觉占了非常重要的一块。人们把它分成感知智能和认知智能，《人类简史》这样写到：感知智能是指“这里看到一只狮子”这件事情，而认知智能是指“这里明天下午会出现一只狮子”这件没有发生的事情，只是对未来的预测，甚至说狮子是我们的守护神，这是更抽象、更不存在的事情。今天最大的突破还是在感知智能这方面。我们旷视科技Face++也是在感知智能——这个计算机视觉领域做一些工作。

计算机视觉有非常多的应用，上图所示是我列出的一些潜力非常大的方向，如智能传感器网络、安防、人脸识别、医学图像、无人车，机器人、AR、VR。

旷视科技现在聚焦在前两个方向：

一个是智能传感器网络，是指如何把一个相机做的更智能, 更好地处理相机输出的视频信息；
另外一个是AI的云计算能够把智能放到云上，比如说在线人脸识别。

到今天，旷视科技已经发展到第五个年头了。开始的前几年，做的是一些面向用户、面向开发者的工作，最近几年的工作主要集中在泛金融和泛loT，希望将来能做更好的人工智能平台。

公司从创立到现在一直都在回答这个问题：

——如果机器能自动理解一张图像或一段视频，我们能做什么？

——对应人工智能，我们叫它视觉智能。

如何做这些事情呢？

一个很自然的方式是，首先去构建视觉智能，通过做产品，收集到真实场景的数据。众所周知，深度学习需要非常多的、海量的数据才能做得非常好，真的有可能做到接近于人的水平。所以，这样的一个循环是非常重要的。公司是从做技术到产品、从产品到商务的方向，以达到这样的闭环为出发点的。

（三）深度学习工作分享

我们旷视研究院的主要任务是给公司提供这样的核心技术。

核心技术主要集中在计算机视觉的4个基本问题上：

分类——对整幅图像做分类
检测——对一个区域学习
分割——对一个像素做分类
序列学习——对输入的一段视频或一串文字做基于序列的学习

接下来，我将详细地介绍下我们在这些方向的一些研究。我今天的报告可能不会深入一些特别细节的东西，希望能够尽可能地分享我们对这些问题的一些看法。

上图所示是我在微软亚洲研究院时，我们的团队做的工作，叫ResNet。

ResNet是第一个能够把网络做到上百层的，它的核心是深度卷积网络。它有两个非常强的特性：

一个是非线性；
另外一个是端到端学习。

这是深度学习最重要的两个点。

——如果给一个这样的端到端学习，我们这些研究员们应该去做什么呢？

——以前是以设计特征为主，今天可能就不是以设计特征为主了。

返回来再看这样的网络结构可以得知，其实它还有部分不是学习到的，而是手工设计的。现在，很多人的工作也都集中在如何手工设计这样的网络。当然，还有些新的方向可以探索，比如，用增强学习方法来学这个结构，但是目前还不太成熟。

卷积神经网络在设计空间有几个重要的维度，比如深度、卷积核个数，卷积核大小以及特征图，每一层的计算复杂度完全取决于这几个参数。

我们目前得出的结论是：一个网络的真正性能，主要取决于其计算复杂度。如果新的网络结构没有大的变化，基本是计算力决定这个网络性能有多好。

这里是一些网络设计原理：

增加卷积核的数目，减小图片分辨率；
用规模非常小的卷积核；
用1*1的卷积，它是一种低质分解的方式。

今天，标准的卷积神经网络还在运用这些方式。

2015年，我们研究了“深度”这个因素到底有何影响，当时的结论是，当网络结构大致属于某一类时，如果给定计算复杂度，上面提到的这些参数是最重要的，应该先调整这几个参数。当时，我们通过很多实验得出的结论是，深度是第一优先级的，应该先把深度调整好，调整到一定程度，才可以考虑别的参数。

深度的重要性日趋明显

2012年，AlexNet用8层网络——这在当时已经被认为很深了，论文中专门有一段论证8层比5层好，证明深度是有用的。后来，有些人写了一些论文，试图用更浅的网络来逼近，试图来推翻这个深度有用的说法。可见，当时大家对深度是否真的有用还是存疑的。

两年后，VGG和GoogleNet推出了如上图所示20几层的网络，性能提高了很多。

2015年，我在微软研究院的团队提出了ResNet 152层的网络。

上图所示是我们同事以前做的一个动画，用来展示这个152层的网络里面到底有多少层。

ResNet思想非常简单，它引用跳层连接的实现方式，来完成残差学习的功能。

这里大概说下我们对它的解释。当然，这个后来有很多的解释，具体哪个解释更正确，这个可以讨论。我们的一个解释是，在一个ResNet的训练过程中，有一个shallow-to-deep的动态过程，在训练初期，可以认为它在训练一个浅层网络，随着训练的慢慢深入，其实它是在训练一个深层网络。

另外，从反向传播来看，它有一个非常好的特性，就是它从数学上有效地消除了梯度消失的问题，因为最后的梯度会传到中间层去，这样梯度幅度就不会变得很小。

深度学习：破除魔咒之旅

上面所示是Geoffrey Hinton的一些观点。就之前深度神经网络broke的问题，这里列了一些他的看法。我们的ResNet也有这样的一些启示，就是以前设计的网络结构其实是对优化不友好的，如果有一个对优化更友好的网络结构，是可以破除之前认为深度神经网络没有用的这样一个魔咒的。

其实，残差连接也不限于做计算机视觉，如上所示是在语音识别中的应用，这是去年微软做的语音识别系统，它替换了以前使用了很多年的浅层网络。

还可以将该网络很有效地应用在自然语言处理领域，比如说神经机器翻译。从以前浅层的LSTM模型切换到非常多层的LSTM模型，这个思想是通用的。

深度网络实用化

我来到Face++面临的一个问题是，如何将这个网络实用化。

我们需要把算法运行到一些计算力很小的设备上。如上面左图所示，横轴指的是网络的性能，纵轴指的是网络的计算复杂度。右图所示的16 GFLOPs是一个典型的在ImageNet上可以取得很好性能的网络，但是，在实际运用中，我们可能需要一个百分之一或者千分之一的更小的网络。

如何做更好更小的网络

我们在Face++也开展了一系列研究，研究如何做更好更小的网络。我们大概从三个方向着手。

第一个方向：设计更好的网络结构。

上图所示是我列出的最近几年一些比较好的、比较经济有效的、比较高效的网络结构。当然还有其他更多的结构。

第二个方向：对网络做一些剪枝。

这里有几种方式：

第一种称为稀疏连接

把连接幅值比较小的地方去掉。但是，这样虽然能降低网络的规模，但在运行时并不会降掉，因为这样的稀疏结构对很多设备是不友好的。

第二种方法是Tensor 分解。

它试图把一个三维的卷积核分解成一些更少的、计算力更小的卷积核的组合。

一会我会介绍第三种方法。

上图所示是我们以前做的一个工作，简单来说，是把一个3D的卷积用卷积核分解的方法拆成3个连续的卷积，这样每一组卷积都可以更小更快。该方法第一次在VGG上达到了4倍加速，在ImageNet上几乎不减任何性能。

上图所示是我们Face++最近做的一个工作（已经被ICCV2017收录），这个方法更简单粗暴。它直接训练好一个网络，然后直接砍掉一些通道，砍掉的通道然会有一些关联效应，比如砍掉这层的通道可能会影响到前一层或者后一层，我们很快会在新的论文上进行阐述这个，主要是关于我们如何简单砍掉这些通道的特性的。而且这个方法不但对VGG管用，对今天的最新型的ResNet，XceptionNet都管用。以前的低秩分解，很难应用到目前更现代的网络结构上。

第三个方向：Low-bit表示。

把内部的数表示从浮点型，切换到定点或者更低位的表示，它可以是网络中的权重，也可以是网络中的特征。

我们Face++的研究员设计了一个DoReFa-Net，把这个方向更推进一步。训练中的梯度也可以用Low-bits表示，因为这个网络的weight，activation，以及gradients分别用一位、两位、以及四位来表示，所以我们研究院就叫这个网络DoReFa-Net。

这三种方式组合在一起，就可以做非常快且有效的推理。

人脸识别

上图所示是一个视频（截图），可以看到，我们在一个非常低功耗的FPGA上可以做到实时的、1080p高清的、视频的、没有任何跟踪环节的逐帧检测。

当然，图像识别最重要的一个应用是做人脸识别。人脸识别大致可以被当作两种任务来做，一种是classification ,一种是当metric learning。

人脸识别进展非常快，上图所示是2013年我在微软的团队做的一个叫高维特征的工作，在著名的公开评测集LFW上的效果非常好，但在当时与人类识别性能还是有差距的。在2014年，Facebook的作者杨明等第一次很有效地用深度学习系统来做人脸识别工作，他们的结果非常接近人类识别性能。后来，大家快速地使用深度学习，并用更大量的数据，在这个数轴上，可以看出，大家（包括我们Face++）的结果都可以超过人类的性能。

但是可能有人会问，到底是不是真正能超过人类的性能呢？

我们在Face++也做了一些应用，比如说1:1的验证。截至到去年，我们的互联网身份认证系统已经为超过一亿人提供过这样的1:1的人脸身份认证，而且我们在上亿规模的人脸数据库上，可以完成非常有意义的搜索。

当然，人脸识别还有很多难点，比如，在大规模库中做1:N比对还是非常有挑战性的。

另外一个问题叫做活体检测，比如怎样识别这是真脸，还是假脸？这个其实已经超出了学术意义上的人脸识别范畴。

我们非常感兴趣的另外一个问题是“如何做复杂光照下的‘熟人’的识别”。这个其实跟今天机器要解决的问题是不一样的。比如，当机器人在光照环境非常复杂的家里时，就算人脸识别方法很好，解决这个问题还是非常困难的。

以上是第一部分。

物体检测

第二部分我会介绍一下我们关心的另外一个问题——物体检测。

在深度学习出现之前，对于物体检测，我们大概能在人脸和车这些方面做到大概 60、70分的程度。

有了深度学习和这样的深层网络以后，就可以做非常复杂的物体检测问题。

上图所示是在COCO上的一些例子。

R-CNN

这其中最重要的突破是Ross做的Region-CNN。我这边列出了一些后来的工作，也包括我们的一些工作。

R-CNN的核心思想是对一个Region做分类，但是它存在的问题是，需要用Region-proposal 的方式，对大概一两千个窗口做分类，这是非常慢的。

SPP-Net

后来，我们就思考怎样能够快一些，于是我们设计了SPP-net，就是在ECCV2014上的一个工作。其实思想很简单，就是试着把滑动窗口从图像放到特征图上，看到底行不行。在尝试之前，我们还是很怀疑的，因为feature map 这么小，怎么能做这么好的分类任务？但是后来实验发现，在上面做的效果和在原图上几乎是类似的。当时就认为有了这样的方法后，就可以把上千次的分类任务给消除掉。

Fast R-CNN

有了SPP-net后，Ross自己写了一篇论文——Fast R-CNN。因为他发现SPP-net前向的一部分是不finetune的，只有最后一段是finetune的，他就把整个放到SPP-net上，同时把前面的feature也finetune了，这就形成了叫做Fast R-CNN，结果非常好。可见，端到端学习在深度学习系统中有多重要。

尚存的问题是Region Proposal当时还不是深度学习的方法。

怎么做呢？

Faster R-CNN

我们提出了Faster R-CNN，其实还是基于SPP-net的。将特征做卷积以后，在feature map上选取一些很可能是物体的区域，然后通过Fast R-CNN，就可以做成Faster R-CNN。整个过程是端到端学习的。

这个方法第一次消除了Region Proposal，整个系统可以达到100ms到200ms这样的速度。

上图所示是一些结果。这个过程也让我意识到深度特征的强大。一个很小的3*3的feature在最高层的时候，可以预测非常丰富的信息，甚至不同尺度，不同大小的物体，都可以通过feature点预测出来。

上图所示是一些例子。

当时这个方法在ImageNet和COCO上是最好的方法。

上图所示是最近一篇google的方法，该方法具体比较了SSD，Fast R-CNN 和R-CNN。R-FCN也是我在微软领导的小组中一名同事的工作。

目前，COCO最好的系统还是R-CNN这样的系统（Google复现的）。

文本检测工作

我们也不是只关心物体检测，我们也关心文本检测。昨天白翔教授已经非常详细地讲述了文本检测的一些背景白翔：趣谈“捕文捉字”-- 场景文字检测 | VALSE2017之十，我在这跳过一些细节。

以前的文本检测过程都是非常冗长的，需要非常多的步骤。也可以用深度学习方法，其核心是端到端学习。

上图所示是我们今年在CVPR上提出的一个方法。它的核心是FCN。它不但要预测哪个点是文本，还要预测文本的方向，文本包围核的几何信息，然后可以列出一串很详细的预测的东西。这样一个 Geometry map training的FCN能够非常有效地把以前文本检测的冗长过程在很大程度上简化下来，而且取得了非常好的效果。

上图所示是我们同事录制的一段实时文本检测的视频。它通过一个FCN就可以预测出所有文本的bounding box的位置。

语义分割工作

我们关心的第三个问题是，如何对整个图像做语义分割。

核心方法也是FCN。

我们自己也研究FCN，它和分类也是有区别的。它需要一些更局部的信息，而分类是需要一个更全局的信息。如果简单拿分类预训练过来的东西做FCN，会存在一些感受野不够大的问题。

Face++的一个实习生研究FCN后，得出结论：相对于简单地运用分类网络，FCN用更大的卷积核，能够覆盖更大的感受野，这样才能把大的物体和小的物体做好。

他提出了Large Kernels FCN的方法，上图所示是一些具体的网络结构。

上图所示是在VOC上的一些结果。

这个方法是当时排名最高的。

序列学习

另外，我们还关心序列学习的问题。就是输入可能是一个或者多个，输出可能是多个或一个。

一个典型例子是OCR。先输入图像，这里隐含一个一维的顺序，卷积之后，通过编解码的方法，把这些文字都抽取出来，这其实是文字识别的问题。

Face++开放平台也提供这样的一些OCR的开放能力，比如对证件照、对一些单据、对一些文档做OCR功能。

核心方法是基于注意力机制的RNN，这个在现在发展比较快。我列的这篇文章也是最近对这个方向的一个很好的总结。

产生式模型

我们还关心最近发展比较热的产生式模型，它的核心方法是如何生成虚拟样本，如何能sample一个没有标签的数据分布。

上图所示是去年业界的一些结果。

上图所示是今年的一些结果，尤其是最近的WGAN或者它的加强版，可以使GAN的训练从以前非常不稳定到非常稳定，非常鲁棒。之前，GAN 存在非常难优化问题，但是现在随着聪明人的投入，这些问题真的会在很大程度上被逐渐解决掉。

上图所示是我们做的一个具体应用。先捕捉这样一些人脸照片，但是GAN能做什么呢？如果简单生成一些样本照人脸去训练识别，这样一般是没有用的。

如果增加条件，比如增加头发、眼镜、胡子，甚至都加上去，可以看到这样求出来的一些阴影(shadow)非常真实，这样可以很大程度上丰富我们的训练数据。

3D感知

我们感兴趣的另外一个方向是3D感知。

上图所示是我们Face++的一个研究员做的工作，大致是如何通过输入图像，输出一个3D点集。

以前最主要的问题是如何表示3D，过去有mesh的表示、有深度的表示。但是，以前的方式在表示上都有很强的不连续性，这样会给end-to-end的学习带来很大障碍。我们Face++的研究员提出了最后一种点云的表示。

这里不再累述具体细节。大致是有一个这样的数据集和一个方法，可以生成一些非常 impressive的结果，即通过单张图推理3D。

上图所示是它的合成数据的样本。

在论文提交之前，在办公室也拍了一些真实的物体，然后生成了一些对应的3D效果。

大家如果有兴趣可以看看论文，上面有更多的有趣结果。

系统及研究平台

上图所示是我们目前在研究的一些技术。我们也有一个系统及研究平台，我们内部叫做Brain++。它是数据管理、标注、训练、GPU集群管理、以及模型发布的集成的平台，目的是，让加入我们公司的每个研究员和实习生，都可以把工程工作极大地简化，把大家聚焦在研究和提出系列思想上。其中内部一个核心是MegBrain。MegBrain相当于是我们Face++的“tensorflow”，已经研发了超过两年多，是内部一直在使用的、自己研发的深度学习引擎。

（四）Face++视觉产品

有了这些技术后，我们希望通过这些技术打造一些产品。Face++现在大致有两条产品线：

一个是人工智能云上云计算的智能方式、智能算法和智能服务；
还有一个是Smart Camera。

人工智能开放平台

上图所示是Face++开放人工智能开放平台。该平台上，API日调用量上千万次，后面是不断提供的一些新的能力。

FaceID在线身份认证服务

第二个是FaceID在线身份认证服务。目的是在网上认证“你到底是不是你”。因为目前网上有身份证的高清照片，所以可以做这个业务。

具体来说，就是自己拍手机并与身份证照片一起通过客户端的活体检测、云端的活体检测和识别，来完成这样的相关认证服务。

该服务目前服务于非常多的银行、保险、证券等一些互联网金融和银行客户。

Smart Camera

另一个分支是Smart Camera。上图所示是我们最近两年做的一些智能的传感器，尤其是与相机相关的，包括人脸识别的、物体检测的一些模块或计算单元。

目的是用这样的Smart Camera，对家庭安防、或者公共安防有一个革新。

视频结构化

上面是我们做的一个视频结构化的例子。可以看出，通过前端智能方式或者后端智能方式，行人、车辆、它的属性、还有一些分类信息能够有效地被提取出来，希望这样能够对视频有搜索功能。因为今天全世界50%的摄像头都在中国，全世界50%以上的硬盘都在存储这些视频，但是其实并没有人看，所以我们做视觉智能想回答的是，有这样的视频，机器到底能不能看得懂，如果能看得懂，能做什么？

另外还有一些有趣的商业应用，比如人员通行、或者是会议人脸识别注册系统。

智能门禁系统

上面是我们公司的门禁系统。来我们公司，不管是实习还是工作，上班是不用带工卡的，只要带着自己的人脸来就可以了。这个是公司在一开始，用来检验人脸识别能不能很好地工作的一个demo。我们公司建立了一个，后来发现非常好用。现在已经有几百家这样的商业客户使用我们这样的智能门禁系统。

智能商业

我们还想做得更多的是在智能商业上，包括园区、企业零售。真的希望能够通过智能传感器网络或者智能摄像头，升级现在园区、企业、零售这样的产业形态。

上面是上周北京马拉松时，从我们公司搬到前门的智能门禁系统。它能够帮助马拉松选手进行身份认证。人脸识别做了这么多年，到今天，真的看到层出不穷的、各种千奇百怪的很多应用，有些是我们想也想不到的。

智能机器

在未来我们会关注智能机器。今天是对这些球型机器人提供一些智能识别模块。当然，今天真的想做好智能服务机器人，只是有这个模块还是不足够的。如果这个智能服务机器人在家里真的能服务的话，需要更好的导航避障系统、更好的抓取功能、更好的和人交互的功能，这也是我们对这个方向非常看好的地方。

大数据

有了这么多的产品，第三步是如何搜集这样的数据。

这里我列出一些数字，大家可以看一下红色框中的两个数集，可以看到通过我们提供的这么多的服务，有多少次调用。去年有62亿次通过我们产品的调用，而且我们去年提供了1.12亿人的在线身份认证服务。

通过这么多的数字、通过和不同的行业结合，这也是目前的一个AI+的概念。

其实，我们希望最终从视觉智能、到产品、再到数据，能够达到这样一个非常健康的闭环，把技术推向更高。

（五）如何在公司做计算机视觉研究？

最后，跟大家分享一下我对人工智能的一些看法：如何在大公司，或者是小公司、创业公司做计算机视觉研究？

当然，现在人工智能已经非常热了，但是还存在非常困难的问题，大家可以看到为什么左边这个感知智能能做好，因为大多数任务是拟合一个函数就可以了。今天的深度神经网络，特别是上百层上千层的网络做这件事情非常在行，所以大家在这方面进展比较大。但右边的过程就非常复杂了，因为它涉及一个多步的过程，不是简单的拟合一个f（x）就可以，而且最大的问题是，大家不知道怎么把这个训练数据和训练环境喂给计算机，即最大的挑战是我们很难去教计算机来做这件事情。

那么，下一步该怎么做呢？

上图所示是我非常推荐的一本书，叫《ON INTELLIGENCE》，希望在座的学生如果没读过这本书，都读一读。这是大概十几年前的一本书，它的作者以前是Palm的创始人，他开了一家研究院，致力于研究人工智能。里面有非常好的思想，可以对如何打造一个这样的人工智能有很好的认识。

上图所示是我自己非常认可的里面的两个观点，也是现在研究领域非常热的方向。

一个是基于Memory的机制。如何让神经网络或者某个系统有内存机制，需要解决很多问题，需要理解里面到底要存什么，存的东西怎么样检索。它肯定不是这样简单copy出来的，它是需要通过联想记忆功能来存储的，而且存的形式不是简单地存下去，而是需要一些序列形式，比如，记一首歌可以正着把它记下来，可能反着就没法把它唱出来。就是说，人在记忆的过程中，一定有很强的序列形式，而且记忆的东西特别是知识，也是分结构的。
另外一个方向是无监督的预测，由于时间限制，这里不再详细地分享。

上图所示是我们2011年的一篇paper，叫做“Memory-Prediction Model”。在deep learning 之前，试图用这样的NN搜索的方法。它能够解决大pose、人脸识别的问题，今天也许能用不同的方式来做，但这在当时是一个尝试。

另外一个工作是关于Image Completion的。猜测南瓜后面到底有什么东西，这其实是一种预测。在我们的物理世界中，其实有海量的这样的监督信号等待我们去挖掘。

人工智能没有那么容易，但是是非常有希望的。我们通过技术、商业、数据的方式来做，当然，如果想做好这个，我个人认为要对技术有热情，对商业有洞察，对大规模数据能耐心地观察。

为什么说我对AI有很大期望呢？

大家可以看到，全球的最最聪明的人都投入到了人工智能的浪潮中，上面是去年我在GTC的会议上拍的一张照片。GTC以前是跟游戏相关的会议，但是最近几年，GTC所有的参会者关心的都是如何做深度学习，如何做人工智能。

（六）Face ++研究院人才战略

Face++的研究是开放型的，我们鼓励我们的实习生和研究员公布代码和成果。

不管是对找工作的同学，还是对想来我们这实习的同学，我们的准则一直是不变的。我们一直希望寻找“三好学生”——数学好，编程好，态度好。但是大家不用害怕，我们的“三好”是“或”的关系，只要有一条好就行了。

我们Face++的研究院在北京北四环中关村的一个核心地带，叫融科资讯中心，旁边是Google 、Intel，办公环境非常好。

我们提供业界最有竞争力的薪资和待遇。

最重要的是我们到底和什么样的一群人一起工作。我们与这些非常强的小朋友一起工作，我们也提供一个非常大的GPU共享集群，上面这张照片中是我们买下的GPU卡扔下的盒子，我们买了大规模的GPU。在我们这很多的实习生用到的GPU卡的数量超过他在学校用到的GPU一个或两个数量级。我们这有上千万级甚至上亿级的真实数据，大家可以来做这些真实的问题，做出的东西可以真正的服务于我们身边的客户。我们的一个研究员有天自豪的说，他有天排队，前面一个人在用支付宝的刷脸支付，他当时感到特别自豪，因为上面的功能是他做的。

最后，我想简单分享一下我从大公司到创业公司感到怎样的变化，如何在创业公司做好研究。

上面是别人经常问我的一些问题。

我们遵照柳传志先生讲的，任何一个组织，包括研发部门的三要素：使命定位、人员组成、研发方式，分别对应他讲的定战略、搭班子、和带队伍。

我们旷视研究院的使命是做最好的计算机视觉技术，让最好的技术落地，推动公司的快速发展。

在我们的班子里，我可能是唯一一个不写code的人。我们研究院的价值观是追求、极致、简单、可靠。

我们的班子组成人员都非常年轻。

我们研究院具体的管理形式是非常动态的，大概是分成两到四个人的小组，而且每个季度都会调整，没有长期的项目，有短期的项目。定目标、找代码、做改新，大的小的改新都有。组织管理形势非常典型。最后我们会选择性地将一些研究成果公开到学术论文上去。

研究院也开展了西雅图的研究室，我们希望将更多的Face++的研究开设到不同的地方。

上面是我们研究院认为如何能够带好我们研究员所遵照的一些准则。

我们提供了非常好的基础设施。

从公司创立到今天，我们始终想回答的问题是，对一张照片或者一段视频，我们到底能做什么，对应的就是我们要研究的视觉智能。

谢谢大家！

文中所有引用文章下载链接为：

链接:http://pan.baidu.com/s/1pL5AQKj

致谢：

本文主编袁基睿，诚挚感谢志愿者杨茹茵、高春乐、范琦、李珊如对本文进行了细致的整理工作

该文章属于“深度学习大讲堂”原创，如需要转载，请联系 astaryst。

作者信息：

作者简介：

孙剑，目前在旷视科技（Face++）担任首席科学家、旷视研究院院长。孙剑博士2003年毕业于西安交通大学人工智能与机器人研究所，其主要研究方向是计算摄影学、人脸识别和基于深度学习的图像理解。

自2002年以在CVPR，ICCV，ECCV，SIGGRAPH，PAMI五个顶级学术会议和期刊上发表学术论文100+篇，Google Scholar引用20,000+次，H-index 58，两次获得CVPR Best Paper Award（2009,2016）。孙剑博士于2010年被美国权威技术期刊MIT Technology Review 评选为“全球35岁以下杰出青年创新者”。孙剑博士带领的团队于2015年获得图像识别国际大赛五项冠军（ImageNet分类，检测和定位，MS COCO检测和分割），其团队开发出来的“深度残差网络”和“基于区域的快速物体检测”技术已经被广泛应用在学术和工业界。同时孙剑带领的团队的研究成果也广泛被应用在微软Windows，Office，Bing，Azure，Surface，Xbox等多条产品线上。目前孙剑博士正在带领旷视科技的研究团队推进计算机视觉技术的进步，和探索其在工业和商业上的实践。

VALSE是视觉与学习青年学者研讨会的缩写，该研讨会致力于为计算机视觉、图像处理、模式识别与机器学习研究领域内的中国青年学者提供一个深层次学术交流的舞台。2017年4月底，VALSE2017在厦门圆满落幕，近期大讲堂将连续推出VALSE2017特刊。VALSE公众号为：VALSE，欢迎关注。