孙剑：计算机视觉存六大困难，很多问题很难用函数逼近解决

2018 年 2 月 9 日 新智元 张乾

新智元报道

作者：张乾

【新智元导读】昨天，“2018北京人工智能产业高峰论坛”举办，北京前沿国际人工智能研究院也在会上宣告成立。在论坛上，来自中科院、商汤、旷视、腾讯AI Lab等学术与产业界大佬分享了人工智能当下的技术创新、发展趋势和存在的问题，干货满满。

2月8日，在北京市经信委和海淀区人民政府共同主办的“2018北京人工智能产业高峰论坛”上，北京前沿国际人工智能研究院宣布成立，李开复任首任院长，陈东平为理事长。

在论坛上，北京市经信委相关负责人介绍了北京人工智能产业的工作思路和新模式探索，中国科学院院士陈润生，欧洲科学院院士汉斯·乌思克尔特，商汤科技CEO徐立、旷视科技首席科学家孙剑，腾讯AI Lab计算机视觉负责人刘威等做了人工智能产业落地案例和技术突破的演讲，中国科学院副院长李树深，北京市委常委、副市长阴和俊做大会致辞。

以下为新智元整理的论坛干货：

李树深：深度学习并非理论方法的突破，人工智能仍处于初始阶段

人工智能依旧是2018年科技界和互联网行业最为热门的话题。过去几年，在国务院和各级地方政府层面的政策推动下，人工智能迎来了黄金发展期。中国科学院副院长李树深在论坛致辞中说，在人工智能发展热潮之下，我们仍需要始终保持清醒认识。

李树深认为，当前虽然数据量呈现爆炸式增长，但是支撑人工智能发展的两大核心基础：计算能力和算法仍然未取得根本性的突破。

从计算行业看，在过去五六十年中，自集成电路发展之后一直遵循摩尔定律，并保持非常惊人的发展趋势。但是随着纳米尺度的晶体管越来越小，面临物理极限的挑战越来越明显，在存储空间、计算速度方面难以按照摩尔定律无限发展下去。这需要材料科学革命性的突破。

从算法上来看，虽然近年来深度学习算法推动人工智能实现了快速发展，但是深度学习的成功不是理论方法上的突破，而是在大数据和大规模计算资源驱动下的基于基础理论的技术突破，这也证明人工智能仍处于一个较为初始的发展阶段。不管是基础理论的研究和产业技术的发展，都需要科技界和产业界共同作出更大的努力。

北京新机遇：成立北京前沿国际人工智能研究院，探索政产学研用协同

北京发展人工智能产业具有人才集中、产业集聚、政策导向明确等突出优势。北京市经济和信息化委员会主任张伯旭介绍，目前北京正大力推动机制创新，积极探索政产学研用，协同推进人工智能创新产业培育模式。

北京前沿国际人工智能研究院（以下简称“研究院”），就是北京探索这一模式的重要实践。

它的组织架构是一个研究院+N个创新中心+N个科研学院平台，为三层开放式组织架构，可以动态承载不同的创新资源目标。

研究院是在政府指导下民办非企业法人，主要职能是做好产业的顶层设计和协同政产学研用各方面创新资源；

创新中心是专注人工智能不同领域，彼此独立运营的企业，具体承接和落实研究院规划的各项研究任务。研究院第一批设立三个创新中心，分别是北京人工智能基础研究创新中心、北京智慧社会创新中心和北京人工智能专利创新中心。

科研产业平台主要是为降低协同创新的门槛，加快技术成果转化，针对技术创新所需的共性科研要素统一搭建的开放式平台。中科院计算机网络信息中心负责搭建人工智能计算及数据应用服务平台。

中国科学院计算机网络信息中心副主任迟学斌介绍，这个平台具备高性能计算能力和分布式计算资源，支持主流的开源人工智能开源工具，比如Caffe、TensorFlow等，主要解决计算机视觉、图象处理、智能语音、自然语言理解四大领域问题。

在论坛上，由创客天下、蓟门农工商公司联合打造的“中关村人工智能创新创业基地”由北京市海淀区区长戴彬彬授牌。

“中关村人工智能创新创业基地”是人工智能产业领域的垂直创新孵化平台，目前已携手微软、百度、intel、京东、IBM、北航等国内外企业和院校、机构，促进人工智能领域的产业创新与技术落地，为人工智能领域的创新企业提供人才培训、成果转化、企业服务、金融支持等领域的专业服务。

北京市海淀区区长戴彬彬（左）和创客天下集团总裁蒙洋

创客天下集团总裁蒙洋介绍，“中关村人工智能创新创业基地”去年初改造，总投资接近1个亿，目前已经入驻无人机研发、无人零售等领域的初创企业，共同探索人工智能产业创新发展的海淀模式。

AI+产业案例：DNA计算机、智慧城市、智能客服还有想象空间

生物医学的发展，需要AI技术的帮助，而生物技术和AI的结合，也从另外一个层面为人工智能技术落地提供了很好的依据。

例如，利用人工智能技术，将扫描视网膜的图像来进行分析，能够对网膜的病变得出更加精确的结果。中国科学院院士陈润生说，利用人工智能还可以用来分析基因组，并且已经建立了很多深度学习的算法。

此外，生物科学家们也在研究DNA计算机，希望通过深度学习，以DNA为材料建立DNA计算机，将来有望成为跟常规的计算机并列的新型计算机。

智慧城市也是人工智能技术落地的重要场景。北京智慧社会创新中心由商汤科技牵头成立，主要聚焦人工智能在三大领域落地的城市功能：

1、城市的治理创新。商汤科技联合创始人兼CEO徐立介绍，成立智慧社会研究院主要是解决大城市病的问题，人工智能介入城市的规划和服务，城市治理将由人治转为机器治，有了这样一个更智能的状态，整个城市的治理会走上新的台阶。

2、城市规划创新。目前很多城市规划还是基于专家的支持，今后可以通过大量的大数据分析，甚至是从天上遥感的数据、卫星的数据进行路面分析，进行路网提取；对路上的拥堵情况进行大规模的分析，从而对城市的交通治理进行优化。除此之外城市土地面积使用，可以进行实时分析给出建议。从现在的治理走向未来的规划。

3、城市公共机构服务优化。城市的服务随着人口的大规模的扩张，出现服务跟不上的情况，现在有了人工智能技术，能够提高业务处理效率。比如在北京西站出入口加入了人工智能（摄像头），就会这个整个城市的服务质量有整体的把握，并且能够用统一的标准更好的服务更多人。

百度计算机视觉首席科学家杨睿刚目前在百度研究院任三维视觉首席科学家、机器人和自动驾驶实验室负责人，介绍了百度AI的发展历程和技术布局。

目前，通过人工智能可以把信息进行分类，每天把低俗内容分发量减少1亿以上，对编辑的效率提高60%以上。AI提供的个性化短视频的推荐，通过视频分析的方法，对视频分类达到90%的正确率，节约人工成本达到80%以上。此外，百度还和联通做了智能客户的系统，可以和用户进行多轮对话，把人工客服的成本下降20%以上。

孙剑：很多问题很难用函数逼近解决，计算机视觉存六大困难

旷视研究院院长孙剑博士带领研发的“深度残差网络（ResNet）”和“基于区域的快速物体检测（Faster-RCNN）”技术已经在学术界和工业界广泛应用，AlphaGo Zero也使用到了ResNet。

不过，在论坛上孙剑博士认为，尽管依靠深度神经网络计算机视觉技术有了突破，但是它只能解决函数逼近问题，还有很多问题很难用函数逼近去解决。虽说视觉是感知问题，但是视觉背后有很多认知问题，目前主要存在以下几个问题：

1、定义物体（Functional Object）。首先定义很难，如果定义不清楚，就没法做精确的物体识别。同时，还有很多定义的概念是包容性的，千差万别。只有对这些概念有很好的建模，才能做场景理解。

2、遮挡（Occlusion）。今天物体检测方法非常非常好了，但遇到遮挡，依然做的不太好。

3、上下文理解。下图中，两个红框里是什么东西？对于大多数人来讲可能是人，但是机器还没有这个能力去推理出是人。

4、物体跟踪。下图中，物体的重叠非常严重，人类有很强的跟踪能力，但是如果使用当前最好的跟踪系统，机器也很难做到人类的水平，我们检测方法并没有非常好的推理机制应用到里面。

5、手眼配合。为什么很多家庭机器人卖不出去？因为现在的机器人做不好手眼配合，它们不能像人类一样能做家务、做饭。

6、精度问题。不管是做无人车，还是做自动驾驶，在一定程度上要求的精度是非常高的，甚至只有高过现在的标准，人工智能技术才能顺利推广下去。

不过，目前孙剑团队也正在解决上述问题，并探索出几个有价值的方向。如在物体识别领域，旷视研究院推出的业界第一个多机(128卡)训练的MegDet，曾在国际权威图像识别竞赛COCO中夺得世界第一。

刘威：腾讯AI Lab算法三大能力创新，多媒体AI探索六大应用

腾讯AI Lab计算机视觉负责人刘威则介绍了在算法当中的创新，一是网络结构的创新，二是损失函数，三是优化技巧。这三块能力应用到六大实例：

1、OCR刷新世界纪录。OCR是除了人脸识别之外非常基础的图象识别能力，它要求从图象里面把出现的所有文字识别出来。在权威的ICDAR上，腾讯AILab在网络图片识别和聚焦识别上，刷新了世界纪录，并保持七项任务的冠军，处于国内外第一。

2、人脸识别。腾讯AI Lab在MegaFace Challenge中，常规任务和跨年龄任务中都取得了长足的进步。这项技术已经在腾讯各平台使用，初步估计在腾讯的平台上每天的调用量超过6亿。

3、图像描述生成。图像首先经过卷积神经网络→提取图像的全部和局部的特征表述→进入到一个阵列的LSTM中。腾讯AI Lab提出“多阶段的注意力”，论文已经发表在AAAI的会议上。

4、视频滤镜。视频滤镜首先保证高层语义信息，再保持时域一致性，最后是高效实时呈现。目前，这一功能应用到影视特效、短视频拍摄和增强现实等领域。

5、视频人体姿态估计。目前国内有很多公司在做，但腾讯算是较早把这项技术产品化的公司。主要过程为：输入实时的图像序列，经过基础模型，再经过提炼（Refinement）、分组，去掉噪音点，最后得到人的主要的骨骼关键点。这项技术的难度主要在于一直停留在PC端，腾讯AL Lab 做了很多网络剪枝和压缩，形成移动端网络模型，并同时在安卓和iOS端推出。