“看脸”的时代，AI到底有多智能？

2017 年 11 月 9 日 微软丹棱街5号 36氪

丹棱君有话说：无论是倾向于评测识别图像中显著物体的能力的 ImageNet 计算机视觉识别挑战赛，还是倾向于评测识别复杂场景中的各类物体的 MS COCO 图像识别挑战赛，目前 AI 视觉识别系统的错误率已经低于人眼辨识的错误率。那么计算机视觉识别是否真的超过人类？视觉识别技术在哪些商业场景中有应用？未来的发展趋势是什么？且跟随丹棱君一起回到日前举办的微软亚洲研究院院友会上，听微软全球执行副总裁沈向洋与计算机视觉识别领域的五位院友展开的深入对话～

人脸识别已经超越人类识别了么？

计算机视觉技术从提出到如今，已经有 51 年的历史了。深度学习算法出现，对其推动作用巨大。未来五年计算机语音有望会超过人类，但在计算机视觉领域，可能还有一段路要走。其中人脸识别领域，中国现在做得特别好，那么人脸识别是否已经全面超越人类识别？

综合几位嘉宾的观点，答案是，陌生人识别技术上，可能在一定程度上超越人，但在熟人识别中，技术还有不少提升的空间。

徐立认为，陌生人识别技术，可能在一定程度上超越人，但是人类在真正认识人的过程中，特别是对熟人的识别，远远不是现在技术能达到的。不过，这并不一定会影响到技术商用，每一个阶段都有那个阶段的“技术成熟”。比如，十年前人脸识别就已经在诸如海关等场景中运用，当时的准确率是 53% 。而随机猜的概率是 50% 。各个阶段有各个阶段不同的“技术成熟”，而现阶段在一些场景中人脸识别已经可以应用。

商汤科技联合创始人兼 CEO 徐立

印奇认为，AI 领域，小到人脸识别，在接下来的商业路径里面，都会跟场景紧密结合。将人脸整套系统、软硬件一起来看，已经有很多创业团队开始落地，在这些场景中，局部是可以与人进行比较的，而在未来两三年，在一些刚需场景下，是有机会做得非常好的。

山世光也表达了类似的观点。陌生人识别领域，特别是这个人相对比较配合的情况下，机器的能力肯定是超越人了，但在熟人场景下，就很难达到这样的水平。据说，此前有人表示，让家里的机器人识别家里 5 个人也很难做到 100% 识别。因此，人脸识别可能还有很多需要去做的地方，但在特定应用场景下面识别已经做得很好了。

中科视拓的董事长兼 CTO 山世光

其实，在熟人识别的领域，人眼识别也不一定做的好。吴岷就曾遇到这样的案例，在一个警察客户那里，一个小伙子在系统里搜寻了下女朋友的近照，为了保密，系统不显示身份证和名字，只显示人脸，结果屏幕上出现了 12 张脸，其中人脸的照片还是 10 年前或者 20 年前的身份证照片，最后帮他解围，在系统中把名字显示出来，看到排名第一的就是他女朋友。

依图科技业务技术副总裁吴岷

而基于现在的技术，也有一些新的需求逐渐显现。比如，警察客户就向依图提过需求，能不能识别尸体照片；也有其他客户向中科视拓提过类似的要求，当时人脸识别还纠正了部分基因检测的错误。在这些新的场景中，人脸识别就远谈不上人眼识别。

人脸识别云、端与应用

当然，人脸识别主要有三个落地的方向：云端平台、终端、垂直场景应用。那么从什么方向、什么切入点切入去创业更有机会呢？

其实，几家知名的公司目前基本都是在围绕垂直场景做服务、做应用，尤其是在安防、金融领域。这很可能也是几家公司的主要收入来源。

旷视科技从 2011 年开始创业，经过六年的发展，印奇认为目前值得专注的行业有 2.5 个，分别是金融行业、安防行业、手机应用（0.5）。金融行业整个业务都是线上化的，已经完成了信息化、联网化，这一领域无论是人脸识别，还是智能风控，都是以云为主。安防行业，基本上以线下摄像头连接和智能化为核心，这是非常线下的生意。另外 0.5 个行业则是与手机相关的，包括 APP、AR 应用，之前这个行业是叫好不叫座，因为竞争激烈，目前都不怎么赚钱，iPhone X 出来之后，教育了市场，也许有机会在每一个垂直行业里面做精准。不管哪一方面，AI 公司能够形成壁垒，一定要触及数据，云不是一个简单 API 对外的服务，一定需要是 SaaS，是完全数据闭环的服务。

旷视科技创始人兼 CEO 印奇

在垂直场景中，尤其是安防场景中，云加端成为一个较为普遍的模式。徐立认为云加端的模式是未来 AI 技术企业发展的最好模式。以安防为例，当前全球安防摄像头约两亿五千万支，预计 2020 年仅中国所有的室内外摄像头就有可能达到 10 亿支，如果按现在的模式，每个人都要盯住一个摄像头，所以完全集中化可能性不高，需要在端上面一定的布局和真的前置化的一些运算。

依图目前的模式也是既有云又有端，做垂直场景应用落地。在金融方向，依图的 SaaS 服务，对接了 Azure 等云服务，接入了 200 多家互联网金融远程合成业务。在安防领域，也做了警务通等应用，帮助客户解决真正的问题。

人脸识别的感知问题

人工智能做到最后往往都是感知和认知。很多感知和认知都是和人脸连在一起的。人脸比较特别的一点是，通过人脸就可以看出你的情绪，是不是生气，是不是沮丧，是不是开心。

山世光认为，人脸识别的前端是感知，后端是认知。但是从目前来看，计算机视觉方向，能做的还多是感知。表情识别很难比人做得好，现在也暂时没有做得比人好的，主要原因是因为标注专业人员不太够，造成标注数据不够。通过其他的方法，也可以感知到人内心的情绪。比如，利用高速相机捕捉到一些人眼不能够感知到的微妙变化，然后进行解析。

孙剑也在思考类似的问题：为什么感知到现在做不好，到底是因为没有数据，还是其他原因？在他看来，下一步机器人要和人交互，一定要解决这个问题，这是值得投入精力去研究的问题。