【机器视觉】计算机视觉前沿技术探索

2018 年 12 月 25 日 产业智能官

摘要：计算机视觉与最前沿技术如何结合？

计算机视觉软件正在改变行业，使用户的生活变得不仅更容易，而且更有趣。作为一个有潜力的领域，计算机视觉已经获得了大量的投资。北美计算机视觉软件市场的总投资额为1.2亿美元，而中国市场则飙升至39亿美元。让我们来看看一些最有前途和更有趣的技术，因为这些技术可以让计算机视觉软件开发市场增长的更快。

一、深度学习的进步

深度学习因其在提供准确结果方面而广受欢迎。

传统的机器学习算法尽管很复杂，但其核心仍然非常简单。他们的训练需要大量的专业领域的知识和数据（这是昂贵的），在训练发生错误时需要进行人为干预，而且，他们只擅长于他们接受过训练的任务。

另一方面，深度学习算法通过将任务映射为概念层次结构的神经元网络了解手头的任务。每个复杂的概念都由一系列更简单的概念组合定义，而所有这些算法都可以自己完成。在计算机视觉的背景下，图像分类需要首先识别亮区和暗区，然后在移向全画面识别之前对线进行分类，然后进行形状分类。

当你为他们提供更多数据时，深度学习算法也会表现得更好，这是典型的机器学习算法做不到的。对于计算机视觉，深度学习是一个好的方向。它不仅允许在深度学习算法的训练中使用更多的图片和视频，而且还减轻了许多与注释和标记数据相关的工作。

零售业一直是实施计算机视觉软件的先驱。2017年，ASOS在为他们的应用添加了一个按照照片搜索的选项，之后许多零售商都跟进了。有些人甚至更进一步，并使用计算机视觉软件将在线和离线体验更紧密地结合在一起。

一家名为Lolli＆Pops的美食糖果零售商使用面部识别来识别经常走进商店的购物者。因此，商店的员工可以通过提供个性化的产品推荐和千人千面的折扣来个性化购物体验。

特殊待遇可以提升品牌忠诚度，并将偶尔的购物者转变为经常性购物者。

二、边缘计算的兴起

连接到互联网和云的机器能够从整个网络收集的数据中学习并相应地进行调整，从而优化系统的性能。但是，并不能保证机器能够始终连接到互联网和云，这就是边缘计算的用武之地。

边缘计算是指附接到物理机器的技术，例如燃气轮机，喷气发动机或MRI扫描仪。它允许在收集数据的地方处理和分析数据，而不是在云中或数据中心。

边缘计算不能取代云。它只是允许机器在需要时单独处理新的数据。换句话说，边缘的机器可以根据自己的经验学习和调整，而不依赖于更大的网络。

边缘计算解决了网络可访问性和延迟的问题。在边缘计算的发展下，设备可以放置在网络连接不良或不存在的区域，此外，边缘计算还可以抵消用于数据共享的云计算的使用和维护的一些成本。

对于计算机视觉软件，这意味着可以实时更好地响应，并且只将相关数据发送到云中进行进一步分析，此功能对自动驾驶汽车特别有用。

为了安全运行，车辆将需要收集和分析与其周围环境，方向和天气状况有关的大量数据，更不用说与路上的其他车辆通信，所有这些都没有延迟。如果通过云中心化的解决方案来分析数据可能很危险，因为延迟可能导致事故。

三、点云（point cloud）对象识别

最近在对象识别和对象跟踪中更频繁使用的技术是点云。简而言之，点云是在三维坐标系内定义的数据点的集合。

该技术通常在空间（例如房间或容器）内使用，其中每个对象的位置和形状由坐标列表（X，Y和Z）表示，坐标列表称为“点云”。

该技术准确地表示了物体在空间中的位置，并且可以精确地跟踪任何移动。点云的应用是无止境的。以下是一些行业的例子以及他们从这项技术中获得的好处：

· 记录：资产监测，跟踪施工现场，故意破坏检测；
· 分类：城市规划，审计工具，便于分析，绘制必要的公用事业工作
· 变更检测：资产管理，货物跟踪，自然灾害管理。
· 预测性维护：持续监控资产和基础设施，以预测何时需要维修。

四、融合现实：VR和AR增强

今天，任何VR或AR系统都会创建一个沉浸式3D环境，但它与用户所处的真实环境几乎没有关系。大多数AR设备可以执行简单的环境扫描（例如，Google ARCore可以检测平面和光线条件的变化），VR系统可以通过头部跟踪，控制器等检测用户的运动，但他们的功能也就这样了。

计算机视觉软件正在推动VR和AR进入下一阶段的开发，有些人称之为Merged Reality（MR）。

借助外部摄像头和传感器映射环境，以及眼动跟踪解决方案和陀螺仪来定位用户，VR和AR系统能够：

· 感知环境并引导用户远离墙壁，物品或其他用户等障碍物。
· 检测用户的眼睛和身体运动并相应地采用VR环境。
· 提供室内环境，公共场所，地下等的指引。

Lowe's五金店已在他们的商店中使用它，每个购物者都可以借用AR设备来制作他们的购物清单，并获得商店中每件商品的指示。AR设备可以实时使用楼层平面图，库存信息和环境映射以给出准确的指示。

我们也可以通过实时3D面部识别功能更新虚拟艺术家应用程序，让客户可以看到不同的化妆产品在他们的脸上和不同光线条件下的外观。

五、语义实例分割

为了理解语义实例分割是什么，让我们首先将这个概念分为两部分：语义分割和实例分割。

实例分割在像素级别识别对象轮廓，而语义分割仅将像素分组到特定对象组。让我们使用气球图像来说明与其他技术相比的两种技术：

· 分类：此图像中有一个气球；
· 语义分割：这些都是气球像素；
· 物体检测：此图像中有7个气球，我们开始考虑重叠的对象；
· 实例分割：这些位置有7个气球，这些是属于每个气球的像素；

如果放在一起，语义实例分割方法将成为一个强大的工具。该工具不仅可以检测属于图片中对象的所有像素，还可以确定哪些像素属于哪个对象以及对象所在的图片中的位置。

语义实例分割是土地覆盖分类的有用工具，具有各种应用。通过卫星图像进行的土地制图可以用于政府机构监测森林砍伐（特别是非法），城市化交通等。

许多建筑师事务所也将这些数据用于城市规划和建筑开发，有些人甚至更进一步将其与AR设备相结1合，以了解他们的设计在现实生活中的样子。

本文由阿里云云栖社区组织翻译。

文章原标题《trends-computer-vision-technology-applications》

作者：Valeryia Shchutskaya 译者：虎说八道，审校

深度学习下的AI落地，计算机视觉是最正确的打开方式吗

人工智能知识局

计算机视觉是目前AI在中国落地最顺利的技术。从目前的落地进展来看，移动互联网、安防、零售、物流、医疗、文娱、无人驾驶的商业化有待成熟。以旷视科技Face＋＋、商汤科技、极链科技Video＋＋为代表的AI头部企业战略，出现向平台企业或软硬一体化企业发展的分化趋势，及零售等新领域快速崛起。

计算机视觉在中国AI市场组成部分占比巨大。根据中国信通院2018年2月发布的报告数据，2017年，中国人工智能市场中计算机视觉占比37％，以80亿元的行业收入排名第一。

2018年信通院11月发布的《2018人工智能发展白皮书——技术篇》中以深度学习算法驱动的人工智能技术为主，数据显示，在全球人工智能产业蓬勃发展的今天，人工智能技术以机器学习，特别是深度学习为核心，在视觉、语音、自然语言等应用领域迅速发展，已经开始渗入到各个行业。BBC预测，2020年全球人工智能市场规模约183亿美元，年均增长20％。在人工智能产业应用上，从融资规模和市场结构来看，中国AI企业更集中于视觉和语音方向。

目前，深度学习几乎成了计算机视觉领域的标配，也是当下人工智能领域最热门的研究方向。计算机视觉的应用场景和深度学习背后的技术原理是什么呢？

深度学习背后的技术原理

机器学习

机器学习的本质其实是为了找到一个函数，让这个函数在不同的领域会发挥不同的作用。像语音识别领域，这个函数会把一段语音识别成一段文字；图像识别的领域，这个函数会把一个图像映射到一个分类；下围棋的时候根据棋局和规则进行博弈；对话，是根据当前的对话生成下一段对话。机器学习离不开学习两个字，根据不同的学习方式，可以分为监督学习和非监督学习两种方式。

监督学习中，算法和数据是模型的核心所在。在监督学习中最关键的一点是，我们对训练的每个数据都要打上标签，然后通过把这些训练数据输入到算法模型经过反复训练以后，每经过一次训练都会减少算法模型的预计输出和标签数据的差距。

通过大量的训练，算法模型基本上稳定下来以后，我们就可以把这个模型在测试数据集上验证模型的准确性。这就是整个监督学习的过程，监督学习目前在图片分类上应用得比较多。

非监督学习里跟监督学习不同的地方是，非监督学习不需要为所有的训练数据都打上标签。非监督学习主要应用在两个大类，第一类是做聚类分析，聚类分析是把一组看似无序的数据进行分类分组，以达到能够更加更好理解的目的。

另外是做自动编码器，在数据分析的时候，原始数据量往往比较大，除了包含一些冗余的数据，还会包含一些对分析结果不重要的数据。自动编码器主要是对原始数据做降维操作，把冗余的数据去掉，提高后面数据分析的效率。

通过不同的学习方式获取到数据后，算法是接下来非常重要的一环。算法之于计算机就像大脑对于我们人类，选择一个好的算法也是特别重要的。

神经网络

神经网络是受人脑神经元结构的启发，研究者认为人脑所有的神经元都是分层的，可以通过不同的层次学习不一样的特征，由简单到复杂地模拟出各种特征。

上图是计算机应用数学的方式来模拟人脑中神经元的示意图。a1到ak是信号的输入，神经元会对输入信号进行两次变换。第一部分是线性变换，因为神经元会对自己感兴趣的信号加一个权重；第二部分是非线性变换。

神经网络就是由许多的神经元级联而形成的，每一个神经元都经过线性变换和非线性变换，为什么会有非线性变换？从数学上看，没有非线性变换，不管你神经网络层次有多深都等价于一个神经元。如果没有非线性变换，神经网络深度的概念就没有什么意义了。

卷积神经网络

以上所讲的都是一般的全连接神经网络，接下来进入卷积神经网络。卷积神经网络是专门针对图片处理方面的神经网络。卷积神经网络首先会输入一张图片，这张图片有三个颜色通道的数据，这是输入层。下面是卷积层，有一个卷积核的概念，每一个卷积核提取图片的不同特征。

提取出来以后到池化层，就是把卷积层的数据规模缩小，减少数据的复杂度。卷积和池化连起来我们叫做一个隐层，一个卷积神经网络会包含很多个隐层，隐层之后是全连接层，全连接层的目的是把前面经过多个卷积池化层的特征把数据平铺开，形成特征向量，我们把特征向量输入到分类器，对图片进行分类。

简单来说，卷积神经网络更适合计算机视觉主要有两个原因，一是参数共享，另外一个是稀疏连接。

2015年基于深度学习的计算机视觉算法在ImageNet数据库上的识别准确率首次超过人类，同年Google在开源自己的深度学习算法。这些带动中美两国的科学家把计算机视觉算法运用到安防、金融、互联网、物流、零售、医疗、文娱、制造业等不同垂直行业。但在实际的运用当中，由于数据可得性、算法成熟度、服务的容错率等因素的影响，落地的速度开始出现分化。其中，移动互联网、安防、医疗、无人驾驶等发展较慢。

技术发展趋势

提高预测精度，降低数据标注成本随着技术的不断发展，计算机视觉能够识别信息的种类从最初的文字信息，到人脸，人的体态识别，以及各种不同的物体。

能够识别的精度也从最初的人1：1比对，到用于门禁系统等1：N比对，以及用在黑名单监控等场景的M：N动态监控。除了提高算法精度以外，提高数据标注的效率也是计算机视觉公司重要的课题之一。

企业发展战略开始分化，商汤向左，旷视向右，计算机视觉技术在中国的快速落地，吸引了以旷视科技Face＋＋、商汤科技、极链科技Video＋＋为代表的以算法为核心竞争力的AI初创公司，拥有强大数据采集及软件开发能力的互联网公司，以及华为这样的科技巨头。经过一年多的发展，各个公司都已经根据自己资源的不同，战略出现了分化。

各类公司初始时在产业环节中各有偏好，初创企业在算法与模型训练上占优，互联网企业则拥有天然的数据优势，安防企业则凭借极强的工程能力加速安防项目落地。

AI头部初创企业近年来融资动作频繁，受到资本市场的青睐，在资金方面暂无瓶颈，然而面临互联网巨头的挑战，各大初创企业应依托已有的独立设计算法的能力，构建平台型解决方案，在研发能力与方案落地速度上取胜。

（内容来源 | 亿欧网）

工业互联网

产业智能官 AI-CPS

加入知识星球“产业智能研究院”：先进产业OT（工艺+自动化+机器人+新能源+精益）技术和新一代信息IT技术（云计算+大数据+物联网+区块链+人工智能）深度融合，在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的机器智能认知计算系统；实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。