ResNet成为AlphaGo Zero核心技术，孙剑详解Zero的伟大与局限

2017 年 10 月 21 日 新智元 闻菲

【AI WORLD 2017世界人工智能大会倒计时 18 天】

“AI达摩”齐聚世界人工智能大会，AI WORLD 2017议程嘉宾重磅发布

大会早鸟票已经售罄，现正式进入全额票阶段。还记得去年一票难求的AI WORLD 2016盛况吗？今年，即将于2017年11月8日在北京国家会议中心举办的AI World 2017世界人工智能大会上，我们请到旷视科技Face++首席科学家、旷视研究院院长孙剑博士，腾讯优图实验室杰出科学家贾佳亚教授，以及硅谷知名企业家、IEEE Fellow Chris Rowen，共论人脸识别等前沿计算机视觉技术。想现场感受顶级科学家的风采和CMU的学风与氛围，或者是现场向他们请教技术问题？点击文末阅读原文，马上参会！

抢票链接：http://www.huodongxing.com/event/2405852054900?td=4231978320026

大会官网：http://www.aiworld2017.com

新智元原创

作者：闻菲

【新智元导读】DeepMind迄今最强棋手AlphaGo Zero横空出世，其中一个重要组成部分是出自华人团队的深度残差网络ResNet。新智元采访了深度残差网络ResNet作者之一，旷视科技Face++首席科学家孙剑博士。孙剑认为，AlphaGo Zero技术提升足够伟大，但在真实技术落地过程中还有着众多局限。孙剑分享了他的最新工作——更小更好的神经网络，以及他的人才观。在采访中，孙剑还谈到，人脸识别远远没有被解决，“全世界的视觉研究人员一起来做都不够”。

2017年10月19日，DeepMind团队发表了迄今最强版本的AlphaGo——AlphaGo Zero，其中一个重要模块是出自华人团队的深度残差网络ResNet。就此背景，新智元采访了深度残差网络ResNet作者之一，旷视科技Face++首席科学家孙剑博士。孙剑认为，AlphaGo Zero技术提升足够伟大，但在真实技术落地过程中还有着众多局限，并指出未来的主流深度学习技术还将会围绕大数据训练模式的方式展开。在采访中，孙剑还谈了人脸识别远远没有被解决，“全世界的研究人员一起来做都不够”。

AlphaGo Zero的伟大与局限：两大核心要素实现极简算法，“无师自通”短期无法成为AI主流

“AlphaGo Zero的搜索过程简化了很多，例如把以前系统中的两个网络合并成一个网络，将深度残差网络的输入做最简化。”孙剑博士在谈到本次AlphaGo Zero的技术特点时说：“把19x19棋局图像直接送给神经网络，让神经网络看着棋盘做决策，这个非常简洁。”

孙剑表示，本次AlphaGo Zero的提升主要有两个核心要素，一个是启发式搜索，一个是深度残差神经网络，而这两者又实现了完美结合。其中，启发式搜索的思想非常朴素，是个针对问题设计的一个高级定制版蒙特卡洛数搜索算法；而深度残差神经网络则让简单的搜索算法极大地提升了效率。

深度残差神经网络（ResNet）在2015年由孙剑在微软领导的视觉团队率先提出，并在当年的ImageNet以及MS COCO两大学术竞赛中包揽五项冠军。ResNet一个重要的突破是实现了152层的网络深度，这让一些非常复杂的函数做映射时的效率与有效性得到了极大的提升。结合了ResNet的强大网络使AlphaGo Zero能够快速、准确地学习每一子的落子概率和对整个棋局进行判断。

“AlphaGo Zero的伟大之处是第一次让机器可以不通过任何棋谱，在只告诉规则的前提下，完全从随机开始，而且只在一台有TPU的单机上运行，不到3天就超越柯洁版的水平，最终成为围棋大师，这种无师自通的学习模式在AI整个发展上是具有里程碑意义的。”孙剑博士讲到AlphaGo Zero的技术意义时说。“但是，这种‘无师自通’在很多AI落地中也存在一些局限，因为严格讲，围棋规则和判定棋局输赢也是一种监督信号。因此，说人类无用，或者说机器可以自己产生认知，都没有准确地理解AlphaGo Zero。”

虽然在技术上令人惊艳，但在很多AI行业落地中，所谓的无师自通或者弱监督学习在短期还是无法成为主流。目前人工智能落地解决的很多事情，实际上都是在模拟人类的某一种技能，让机器应用这一技能去完成任务，而这需要海量的数据与更多的信号输入。以旷视Face++所擅长的人脸识别为例，人脸识别是人类特有的一种能力，与演化和后天习得有关，把这种能力输出给机器，就需要人的监督信号。所以，在今后很长一段时间内，监督学习依然是AI研究与AI商业化的主流方向。

在创业公司也做基础研究：如何做更好、更小的网络

对于这次ResNet被AlphaGo Zero论文引用，孙剑显然非常开心，还特意发了朋友圈。“这次应用在AlphaGo Zero中的ResNet残差神经网络，曾获得了CVPR2016的最佳论文奖，我也非常高兴这个技术可以应用在AlphaGo Zero系统中，而这个应用过程其实并不需要我们直接接触，而是一种研究成果的交流。”

加入旷视以后，孙剑的研究和交流步伐也没有停下。他现在是旷视的首席科学家，同时也是旷视研究院的院长。虽然在采访中，“商业化”、“场景”、“落地”等非常“创业公司”的词常常出现在孙剑的论述中。但是，孙剑认为，在创业公司做研究和在大企业做研究实际并没有什么不同。“做研究很大的一个点就是，别人都往那边走的时候，你要看看别的方向做不做。”孙剑说。

这样做的一个结果，是旷视研究院在今年7月提出的ShuffleNet，ShuffleNet专门为了移动应用而生，在设备提供的计算量很小的时候也能快速响应。“卷积神经网络在设计空间有几个重要的维度，比如深度、卷积核个数，卷积核大小以及特征图，每一层的计算复杂度完全取决于这几个参数。”孙剑说：“我们目前得出的结论是：一个网络的真正性能，主要取决于其计算复杂度。如果新的网络结构没有大的变化，基本是计算力决定这个网络性能有多好。”

为了适应移动端的计算力，ShuffleNet在结构上继承了残差网络（ResNet）的设计思想，并在此基础上做出了一系列改进来提升模型的效率：首先，使用逐通道卷积替换原有的3x3卷积，降低卷积操作抽取空间特征的复杂度；将原先结构中前后两个1x1逐点卷积分组化，并在两层之间添加通道重排操作，进一步降低卷积运算的跨通道计算量。

ShuffleNet的主要吸引力在于，它使用的是任何人都可以在任何深度学习框架中轻松实现的简单、标准的操作（分组化卷积 + channel shuffling）。这对于许多应用都非常有用，事实证明，ShuffleNet发布后也得到同行的广泛应用。任何人都能用，而且易于使用、容易实施，能快速改进性能，这正是我们需要的研究，这样的研究在未来也将变得愈发重要。

除了像ShuffleNet这样通过网络设计的方式把计算量降下来，旷视在去年还发表了一项工作DoReFaNet，走的低精度的路子，把内部的数表示从浮点型，切换到定点或者更低位的表示，它可以是网络中的权重，也可以是网络中的特征。DoReFaNet训练中的梯度用Low-bits表示，“因为这个网络的权重、激活，以及梯度分别用一位、两位、以及四位来表示，所以我们研究院就叫这个网络DoReFa-Net。”

在今年的ICCV上，孙剑和旷视的研究人员Yihui He，以及ResNet的另一位作者孙翔雨（以前也在微软亚洲研究院，现在和孙剑一起加盟旷视）合作，也有一篇论文发表，题为《加速极深神经网络的特征剪枝》（Channel Pruning for Accelerating Very Deep Neural Networks），继续在降低计算量的这一方向上发力。

剪枝（Pruning）这种方法，是在网络训练好以后，把里面冗余度最大的表示（Channel）去掉，重新训练网络，这样网络体积比以前小，而精度跟原来一样甚至更好；当然精度也有可能稍稍降低一点，但都在产品应用可以接受的范围内。

孙剑介绍说，现在的神经网络分支比较多且零碎，以前的剪枝方法已经不再适用。“我们这个方法第一次对新的现代深度神经网络做有效剪枝的方法，剪枝能够和低精度、ShuffleNet结合在一起，实现更小、更经济的网络。”

孙剑说，这是他们的一个基础研究，并没有局限于人脸或图像识别。作者在论文中写道，我们剪枝过的VGG-16通过5倍加速实现了最先进的结果，同时只增加了0.3％的误差。更重要的是，我们的方法能够加速ResNet，Xception等现代网络，分别只有1.4％、1.0％的精度损失，这是非常重要的。

旷视研究院在今年的CVPR有5篇文章发表，2018年的CVPR截稿时间是11月，大家也在积极准备。不过，旷视研究院对发文章的数量没有要求，“我从来不鼓励数量，我看的是质量，”孙剑说：“我以前写论文也没有特别多，但哪怕只有一篇文章，能够被用在像AlphaGo这样的系统上，那就有20倍的效果。”

创建旷视研究院，吃一碗面挖到实力人才

现在，孙剑到公司每天第一件事情，就是去网上看有没有新的、有意思的论文发表出来。旷视内部也有论文讨论小组，大家会把看到的论文或者自己的实现/复现发到群里面。孙剑每周都会跟每一个小组进行非常深入的研究，将他以前做研究的思路和方法分享给大家，供年轻人参考，营造积极创新的氛围。“我每天都会问自己，我应该做什么事情，让大家都有清晰的目标，让大家能够发挥自己的潜力去做这些事情。”孙剑说，而这就是他认为他自己最核心的任务。

“如果说我有KPI，那么我的KPI就是在旷视研究院把创新的环境做好，让年轻人在这里能够发挥最大的潜力来做创新，把这个组织越做越强，越做越大，”孙剑说：“而这样做附带的效果，就是公司的产品从研究中实现更强大的竞争力和生命力，公司整体也能得到更好的商业回报。”

现在，旷视研究院一共有80多人，分布在北京、西雅图、南京等城市，目前还有至少2个分部正在筹建中。孙剑说，旷视研究院还将继续扩大，“随着公司的发展成比例扩大”。对于人才选择，孙剑给出了几个标准：首先，数学一般好就行，其次，编程能力要很好，最后，潜力要很大。孙剑解释说，深度学习现在还是一个实验性的科学，很多的结论都是从实验中得来，因此需要快速做出东西来迭代，这对编程能力提出了很高要求，而要能够很好地运行系统，数学里线性代数学很好就可以了。

旷视研究院现在有基本任务组（分类、检测、图像分割、视频分析）、硬件组、平台组、引擎组，在第二轮面试的时候都会与孙剑直接会面。除了（校园）招聘，挖掘实力人才加盟也是旷视的一条道路，而这里孙剑本人的名望、实力和影响力无疑也是主要的吸引因素。最典型的例子，就是孙剑邀请到前Adobe首席科学家王珏，后者于今年5月加盟旷视，带领旷视在西雅图的研究院。

“我跟王珏博士认识了很多年，每次开会都会遇到，我们非常了解彼此的工作，我非常欣赏王珏博士的工作——PhotoShop里好几个非常创新的功能都是出自王珏之手，他也发表了很多高质量的SIGGRAPH论文，他的风格其实跟我很类似，我们彼此都很认可。”孙剑说。

王珏博士在Adobe工作了9年，2016年萌生寻找新环境继续挑战自己的想法。当时，王珏博士收到了包括谷歌、Facebook、腾讯、阿里等许多公司的邀请。最终成功招揽到他的是旷视。“我去找他，他非常爽快就答应了。”孙剑笑着说：“我就请他吃了碗面。”

人脸识别远远没有被解决，把全世界做视觉的人聚在一起都不够

对于人脸识别，孙剑认为正脸光照好的情况下，计算机已经超越人类，现在的问题是解决在极端情况下的用例，包括静态和动态，包括光照、角度、化妆、发型……最终，人脸识别其实是识别人的问题，那么就要做到从背影也能识别出你是谁。这也是人工智能解决小样本学习、抽象和自适应能力的一个核心问题。

在研究院的各种方向中，孙剑还特别提到了旷视自己原创的深度学习引擎MegBrain，它早于TensorFlow开发，相当于旷视内部的TensorFlow，也是创业公司中唯一自我研发并全员使用的深度学习引擎。孙剑说，旷视对于计算引擎的演进非常重视，现在MegBrain已经开发到7.0、8.0的版本。“用了MegBrain，大家都不想再用其他引擎”，而拥有自己的原创引擎，大幅加速了旷视自己的产品创新和竞争力。

现在旷视的研究氛围很自由，但领域十分聚焦，也即图像和视频理解，关注其中的文字、人物、车辆，对应旷视的产品和服务。这比起学术界和大公司研究院来似乎没有那么自由，但孙剑对此并不担心，因为“问题足够大”。

他认为人脸识别这个问题远远没有被解决，而视觉是人工智能里最重要的问题之一，人类有90%的信息都是从视觉进来的。视觉里的问题，“大到把全世界的视觉研究员都联合到一起，在我看来都是不够的。”孙剑说。

11月8日，在新智元AI World 2017世界人工智能大会上，孙剑将发表演讲，聚焦人脸识别等视觉前沿技术和问题，为我们带来计算机视觉最新技术和应用的精彩分享。

孙剑博士目前在旷视科技(Face++)担任首席科学家、旷视研究院院长。2003年毕业于西安交通大学人工智能与机器人研究所，毕业后加入微软亚洲研究院 ( Microsoft Research Asia)，任职首席研究员。自2002年以来在 CVPR, ICCV, ECCV, SIGGRAPH, PAMI 五个顶级学术会议和期刊上发表学术论文 100+ 篇，Google Scholar 引用 25,000+次，H-index 60，两次获得 CVPR Best Paper Award (2009, 2016)。孙剑博士于2010被美国权威技术期刊 MIT Technology Review 评选为“全球35岁以下杰出青年创新者”。

孙剑博士带领的团队于2015年获得图像识别国际大赛五项冠军 ( ImageNet分类，检测和定位，MS COCO 检测和分割)，其团队开发出来的“深度残差网络”和“基于区域的快速物体检测”技术已经被广泛应用在学术和工业界。同时孙剑带领的团队的研究成果也广泛被应用在微软 Windows, Office, Bing, Azure, Surface, Xbox 等多条产品线上。目前孙剑博士正在带领旷视科技的研究团队推进计算机视觉技术的进步和探索其在工业和商业上的实践。

点击文末阅读原文，马上参会！

【AI WORLD 2017世界人工智能大会倒计时 18 天】点击图片查看嘉宾与日程。

大会门票销售火热，抢票链接：http://www.huodongxing.com/event/2405852054900?td=4231978320026

AI WORLD 2017 世界人工智能大会购票二维码：

登录查看更多

相关内容

AlphaGo Zero

关注 13

AlphaGo Zero是谷歌下属公司Deepmind的新版程序。从空白状态学起，在无任何人类输入的条件下，AlphaGo Zero能够迅速自学围棋，并以100:0的战绩击败“前辈”。 2017年10月19日凌晨，在国际学术期刊《自然》（Nature）上发表的一篇研究论文中，谷歌下属公司Deepmind报告新版程序AlphaGo Zero：从空白状态学起，在无任何人类输入的条件下，它能够迅速自学围棋，并以100:0的战绩击败“前辈”。Deepmind的论文一发表，TPU的销量就可能要大增了。其100:0战绩有“造”真嫌疑。

【DeepMind硬核课】卷积神经网络图像识别前沿进展，附110页ppt与视频

专知会员服务

105+阅读 · 2020年6月27日

【CMU】深度学习模型中集成优化、约束和控制，33页ppt

专知会员服务

46+阅读 · 2020年5月23日

AI领域顶会AAMAS2020最佳论文出炉!《深度残差强化学习》牛津大学，Deep Residual RL

专知会员服务

45+阅读 · 2020年5月15日

【Nature论文】深度网络中的梯度下降复杂度控制

专知会员服务

41+阅读 · 2020年3月9日