从学术研究到应用落地，这 6 位计算机视觉大咖在 CV 专场上都讲了什么？

从学术研究到应用落地，这 6 位计算机视觉大咖在 CV 专场上都讲了什么？ | CCF-GAIR 2018

2018 年 7 月 1 日 AI掘金志

AI掘金志出品

雷锋网旗下只报道“AI+传统”的内容频道

雷锋网AI掘金志按：2018 全球人工智能与机器人峰会（CCF-GAIR）在深圳召开，峰会由中国计算机学会（CCF）主办，雷锋网、香港中文大学（深圳）承办，得到了深圳市政府的大力指导，是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流盛会，旨在打造国内人工智能领域最具实力的跨界交流合作平台。

雷锋网 CCF-GAIR 2018 延续前两届的“顶尖”阵容，提供 1 个主会场和 11 个专场（仿生机器人专场，机器人行业应用专场，计算机视觉专场，智能安全专场，金融科技专场，智能驾驶专场，NLP 专场，AI+ 专场，AI 芯片专场，IoT 专场，投资人专场）的丰富平台，意欲给三界参会者从产学研多个维度，呈现出更富前瞻性与落地性相结合的会议内容与现场体验。

6 月 30 日，CCF-GAIR 大会进行到第 2 天，计算机视觉专场如期举行。本专场由两大议题组成，分别是上午场“计算机视觉前沿与智能视频”以及下午场“计算机视觉与医疗影像分析”。本文为计算机视觉专场上半场的精选内容。

在上午场的主题演讲中，港科大电子及计算机工程学系助理教授、RAM-LAB 主任刘明担纲主持。在他的串联下，港科大教授权龙、旷视科技首席科学家孙剑、云从科技联合创始人姚志强、臻识科技 CEO 任鹏、云天励飞首席科学家王孝宇以及商汤联合创始人林达华这些学术界、工业界的众多大牛进行了 6 场深度分享，既有计算机视觉技术的前沿研究动态，也有相关技术落地的方向。

首先登场的是港科大教授权龙。

*香港科技大学教授、ICCV 2011 主席、IEEE Fellow 权龙

权龙教授今天分享的主题是“计算机视觉、识别与三维重建”，他主要从三个方面进行阐述，分别是计算机视觉的基础、计算机视觉的变迁与发展，以及计算机视觉最新的进展。

他谈到，当下因为深度学习技术的发展，人工智能变得非常火热，计算机视觉作为人工智能的一个领域，也变得异常火热。

人工智能的目的就是让计算机去看、去听、去读，其中一个重要的部分就是图像。权龙教授认为视觉是人工智能的核心领域，因为视觉占据人类感官系统的 80%，也是最难做的一部分。他甚至认为计算机视觉是推动人工智能“革命”的决定性技术。

接着，权龙教授简单回顾了一下计算机视觉的变迁和发展。

在上世纪 70、80 年代，计算机视觉有了最初的发展，权龙教授表示他很有幸在 80 年代就参与了相关工作，那时候主要做一些简单的物体分类工作，通过一些特征点来做。

在 90 年代至 2000 年这段时间，变化发生了，以前都是提取一些特征点，这些年大家开始回过头来看几何的问题，几何就是“三维重建”，这就推动了很多工作以点为基础，对点要做描述。这是推动计算机视觉发展的一个很重要的事情。

到了 2012 年以后，计算机视觉进入到卷积神经网络（CNN）时代，该领域发生了翻天覆地的变化，基本上是从特征到各种不同的算法，都被 CNN 一统。CNN 有一个好处，它是端到端的，它的实现是比较容易的。

而在谈到计算机视觉的发展问题时，权龙教授表示，现在每个人都在做识别，但是它并不能代表所有计算机视觉，识别只是一部分。如果要去做一些交互和感知，必须先恢复三维，所以在识别的基础上，下一个层次必须走向“三维重建”。

针对这个领域，权龙教授和他的研究团队已经做了诸多的工作并取得了一定的成绩，在 4 月份，他们拿下了两个计算机视觉榜单的全球第一。

当然，目前在深度学习推动下的计算机视觉技术还有很多不足和挑战，需要更多业内研究者不断去探索，特别是在卷积神经网络发展走到更高维度的时候。

*旷视科技首席科学家、研究院院长孙剑

紧接着是旷视科技首席科学家孙剑上台，分享了他眼中的云、端、芯上的视觉计算。旷视科技成立至今已有 7 年，一直专注在计算机视觉感知领域。

计算机视觉简单来说就是让机器能看，如果更进一步，机器能理解一张图像或者一段视频，我们能做什么？针对这个问题，孙剑和旷视给出的答案是“赋能亿万摄像头”，让应用在所有领域的摄像头都具备智能，无论是在云、端还是芯片上。

孙剑表示，旷视始终在研究计算机视觉的几个核心问题，包括分类、检测以及分割，分别对一张图、一张图的不同区域和一张图的每个像素做识别，其中，分类是最为核心的工作。如果输入的是视频，则需要利用帧与帧之间的时间关系来做识别。

孙剑简要谈及计算机视觉的历史，在他看来，计算机视觉的发展就是研究图像如何 Representation 的历史。在 80 年代的时候，早期神经网络成功运用在人脸和文字识别上，但当时仅限在这两个领域，所以很难去定义什么是图像 Representation。

2000年初，在深度学习流行之前，有一类方法比较热，那就是 Feature-based，在图片里抽取 Feature，然后对它进行分析，这是深度学习之前最好的方法。但这个方法最大的问题是它有两个缺点：其一，它是整体的非线性变换，向量的变换次数是有限的；其二，里面大多数参数都是人工设计的，包括 Feature。

今天转到深度神经网络，这两个缺陷都被弥补了。其一是整个非线性变换可以做非常多次，所以它有非常强的识别能力；第二是所有的参数都是联合训练的，这两点让深度神经网络真正能够取得非常好的效果。孙剑在微软时提出的 152 层的 ResNet，第一次在 ImageNet 上超过了人的能力。

从2012年开始，各种各样的 Net 出现了。孙剑从计算平台的角度对这些 Net 做了一个简单的分类，分别是云、端以及芯片三个不同的计算平台。GoogleNet、ResNet 就是在云上；谷歌 MobileNet 以及旷视在去年提出的 ShuffleNet 则属于端这一类；还有一些 Net 则是在芯片上，比如说 BNN 还有旷视提出的 DorefaNet。

孙剑针对 ShuffleNet 的结构进行了较为详细的介绍，该神经网络是专门为手机端设计的。今年他们还设计了第二版的 ShuffleNet，抛弃了分组卷积的思想，而是引入了一个新的方法，用非常简单的结构来做。

针对目前分平台分别设计相关网络的现状，孙剑相信未来会有一个“MetaNet”出现，能够统一解决各个平台上的神经网络设计和优化问题。

最后，孙剑简单介绍了旷视在云、端、芯三个平台上做的计算机视觉的应用，包括人脸识别、车辆识别、人脸支付、智慧安防、智慧金融等等。

*云从科技联合创始人姚志强

云从科技联合创始人姚志强随后上台分享了作为一家人工智能视觉方案公司对于行业的理解和公司的进展。他认为人工智能最大的作用在于充当巨大的计算资源、智力资源与广泛应用之间的桥梁。2015 年成立至今，云从科技已将企业的重要定位锁定在人机交互领域，但对于人工智能技术、服务和生态的理解经过了很多摸索。

姚志强认为，一家人工智能企业需要汇集技术资源、数据资源、平台、入口和资金，才能得以快速发展，一些成熟的企业会开放一些技术给初创公司，使后者得以在其中的某个场景深耕。数据资源优势的积累也很重要，另外还有平台资源，目前云从的很多人工智能服务通过云平台开放。

目前，云从在数据领域成立联合实验室获取行业内部数据，并在对应行业的内部提供训练和服务。云从还与政府有大数据等合作。在银行方面，姚志强介绍，云从银行已是行业第一大人脸识别供应商，并希望拉动更多生态银行提供完整的智慧银行服务。安防行业也有很多挑战，出于安全性考虑，安防行业涉及到诸如信息获取、加密、解密等复杂挑战。

未来，云从并非定位于一家行业化的公司，而是基于人工智能、人机交互领域的公司，通过现有资源拓展更多行业，将更多行业和人连接起来。

*臻识科技联合创始人兼 CEO 任鹏

臻识科技 CEO 任鹏聊了如何打造一款智能相机产品。臻识科技致力于将计算进视觉技术产业化，而智能相机作为载体，已经在诸如智能交通、智慧社区、安防等各个场景中得到应用。任鹏说，一款全智能相机，是要满足一个场景应用感知需要的相机，而不同领域对场景的感知需求各不相同。

任鹏用“金字塔型”描述完整的感知应用场景，底层是像素，中间是对象，最上层是行为。但问题在于目前大部分应用停留在对象层，有很多还没有解决像素层的问题，例如智慧城市用云端识别结果做决策，但前端图像模糊，识别有误报，就会影响决策乃至系统运作效率。

总而言之，实现这种智能相机的落地包括三个难点：成像、算法、制造。成像方面，目前智能相机成像评测行业标准缺失，其实除了解决硬件、结构、热设计、光学等问题，ISP（Image Signal Processing，图像信号处理）是相机的核心问题，智能相机与普通拍照相机最大的区别在于，智能相机的 ISP 开发核心要基于物体的感知。算法方面，在嵌入式设备上开发智能相机，第一对于数据多样性、均衡性、场景适应性的把控非常重要，第二芯片方案选型中有巨大挑战。制造方面，供应链是不可规避的问题。

除了看好双目深度摄像头，臻识也在尝试多传感器融合等更多的感知方案。