【机器视觉】全球八位科学家谈计算机视觉：眼见为实

2018 年 9 月 3 日 产业智能官

视觉是人类认知世界的重要组成部分，而计算机视觉作为人工智能的核心技术之一，近几年的发展现状如何？在目前的人类生活中有这样的应用？是否已经超越人类的眼睛？未来又将有怎样的发展前景？

近日，腾讯优图与《科学》（Science）杂志共同发布《Seeing is believing: R&Dapplications of computer vision》（眼见为实：计算机视觉的研发和应用）主题报告，通过全球计算机视觉领域的专家访谈，为大众带来当下计算机视觉技术发展的全面解读，也为即将到来的计算机视觉峰会拉开序幕。

以下为报告全文（中文译文版）。

眼见为实：计算机视觉的研发和应用

人工智能 (AI) 曾经只是一种存在于科幻领域的科技，而现在，研究实验室已经不断研发出了各种应用AI 的日常产品。AI技术的进步很大程度上得益于计算机视觉的发展。计算机视觉技术关注的是构建能够收集和处理视觉信息的软件。应用计算机视觉可以识别照片中的人物、读取X光片、进行工厂机器人系统的智能升级，但它的影响范围远不止于此。

大多数人都对自己的视觉习以为常，殊不知要拿起叉子或接住球，我们的大脑要进行大量的运算。计算机变得足够快速、强大和小巧来实现计算机视觉的实际应用，不过是这几年的事情。最先进的计算机视觉技术要运用到深度学习，而深度学习是AI的一大领域，灵感来自于人脑。深度学习算法使用的人工神经网络（ANN），是指能够分析并相互传递信息的互相连接的节点层，与神经元的通信机制类似。

如果我们向神经网络展示一张自拍照，一层神经元将会识别类似于面部轮廓的粗线条；另一层神经元会关注五官之间的区域，例如眼睛到嘴巴的距离；还有其他神经元会负责观察耳朵的形状。藉此，该算法可判断出这是不是一张人物照片，甚至看出这人是谁。

“在大多数计算机视觉任务当中，神经网络都能轻而易举地生成最佳算法，”腾讯优图实验室杰出科学家贾佳亚说道。腾讯总部位于中国深圳，是互联网服务和产品、娱乐及人工智能的全球领导者。

像人工神经网络一样，计算机视觉技术工程师也在试图模仿人类视觉系统的运作机制。但是机器比人更有优势的一处是，它不需要像人类那样依赖可见光，还能使用传感器更清楚地看到世界。

“在人脸识别、图像分类等众多任务中，计算机视觉能比人类视觉完成的更优秀。但在其他需要推理的任务，计算机视觉还有很长的路要走。”贾佳亚表示，“人类能轻易明白物体彼此之间的关联，我们看到一张图就能编出一个故事。但计算机还远不能达到这种程度的理解能力和想象力。”

随着计算机视觉技术的不断发展，它将会带来更多新的发现。计算机视觉和 AI 都处于各自发展的初始阶段，还有很多东西值得探索。计算机视觉技术的进步可能会推动AI 的迅猛发展，把科幻小说的情节全部变成现实——比如无人车、机器人管家，甚至远距离太空旅行。

在实践中学习：AI 的工作原理

跟大多数 AI 系统类似，计算机视觉需要学习浩如烟海的数据。研究人员查阅数据并根据其特征仔细为数据添加标签，这些特征就是他们希望 AI 去理解的东西。就计算机视觉的任务而言，研究人员会收集成百上千的照片用于分析。加标签的数据会成为范例，据此训练 AI 进行分类或寻找规律。为了测试 AI 的学习效果，研究人员会展示新的、未加标签的图像，测试其是否能够正确分类。

除了要在收集、标注和筹备庞大资料的工作中投入人力外，另一个重要障碍就是运行训练算法需要的大量计算能力。费用低廉的在线服务，让研究人员可以在云端训练算法，而无需为强大的计算机投入数千美元，不过，要得出训练结果仍需数小时甚至数日。

对着镜头微笑：图像和视频识别

人工神经网络领域最重要的进展之一出自 ImageNet。ImageNet收集了 1400 万标签图像并于2009年发布。ImageNet挑战赛要求参赛者设计一个能够跟人类一样对照片进行分类的算法，但一直没有出现获胜者。直到2012年，一个使用深度学习算法的参赛队伍取得了显著优于以往尝试的结果。

今天，人们与计算机视觉产生交互的最常见的几种方式包括图像自动标记和拍照面部识别等，都是基于ImageNet获胜的技术。这些应用有助进行网上购物可视化搜索、自动标注社交媒体照片等特定任务。

除了图像识别外，这项新科技也推动了照片编辑技术的发展。图像分割算法是计算机视觉的组成部分，可以帮助机器将一张图片分成不同的部分，例如识别背景和前景中的人物。用户可迅速编辑照片，达到专业修图的效果。

视觉识别能力目前也应用于视频。计算机视觉算法可以查看摄像机的视频流，并且标记重要部分，这样人们就无需反复回看长达数小时的视频。了解视频中人物的情绪是一项研究人员正在开展的工作，不过有些机构已经率先采用了这类技术。例如坐落在中国东部浙江省的杭州第十一中学，正在尝试用摄像头追踪学生的课堂行为，这些摄像头被称为“慧眼”。

让机器人拥有正常视力

将2D 图像转化成3D 数据，带来了一系列不同的挑战以及众多的新机遇。给机器人赋予计算机视觉就是一个正在展现出前景的领域。

机器人在 20世纪 60年代开始投入制造业使用，这些装置可以提升重物，执行重复性任务，并且可以一次进行数小时的精确测量，从而轻松地胜过人类。

斯德哥尔摩 KTH 皇家理工学院的机器人学教授 Danica Kragic 说：“这一领域始终关注的是建造出那些可以完成人类无法完成任务的机器人。”

Kragic表示，因为人类有40% 的大脑致力于处理视觉信息，如果要创造能够模仿并参与我们世界的机器，了解它们在多大程度上需要视觉信息是非常重要的。“我们人类在做任何事情时都会自然而然地使用视觉反馈，”Kragic 说。

能够处理视觉信息的机器可以在工厂中完成更复杂的工作，甚至进入了我们的家庭。某些技能（例如，拾取会因压力而改变形状的柔软物品）对机器人来说仍然是遥不可及的。这是因为人类在观察时，获得的不仅仅是视觉信息；我们还会获得有关物体物理属性的线索，以及与之交互所需要的物理知识。机器需要能够收集这类信息，才能像人类一样毫不费力地穿行在物理世界中。

“在五官感觉当中，视觉是最重要的，因为它赋予了人类理解这个复杂世界的能力。”贾佳亚说，“同样地，计算机视觉就是为了让计算机能够像人类一样观察环境并能跟环境互动。”

赋予机器人能够更好地了解世界的传感器是该技术的下一个迭代，它可能让机器人完成在今天尚无法实现的任务。

即将上路：自动驾驶汽车

自动驾驶汽车是 AI 开发领域中获得资金最充裕、最受关注的领域之一，全面了解世界对于自动驾驶汽车(AV) 也是至关重要的。除了摄像头，大多数无人驾驶汽车使用激光雷达、雷达、GPS 和感知算法进行导航。

“我们使用的许多算法都来自计算机视觉，但现在它不仅仅是关于摄像头数据，”多伦多大学副教授兼优步多伦多高级技术集团负责人 Raquel Urtasun 介绍说。“我们想给汽车装上的，不仅仅是我们的眼睛。”

像优步这样的公司希望到 2020 年前能实现自动驾驶汽车上路和载客。这些汽车只会在预先选定的路线上行驶，或需要有人坐在驾驶员座位上，以便在出现任何问题时能够手动接管。这项技术最终的目标是实现真正自主，使得乘坐者除了注意路况外，还可以做其他活动。

Urtasun 表示，为了实现这一目标，需要在硬件和软件两方面都取得进步。在硬件方面，激光雷达可能花费数万美元，这使得大规模部署成本太高；在软件方面，工程师需要找到一种方法来使 AI 具备归纳、区分不同物体的能力。如果一个人类驾驶员在道路上看到一些出乎意料的东西（比如一条坠落的电源线），他们会知道应该绕过电线。而如果一辆自动驾驶汽车遇到训练中没有经历过的事情，它可能无法安全地做出反应。

Urtasun 表示，虽然自动驾驶汽车现在尚未迎来发展的黄金期，但她对自己在改进传感器和训练算法上的努力能够有效应用仍然充满希望。Urtasun进一步介绍，幸运的是，“这项技术能够解决许多其他问题。”改进的激光雷达可以使地图测绘和土地调查更加准确，甚至配备传感器的非自动驾驶汽车也可以帮助改善交通状况。

特快专递：无人机

汽车不是研究人员唯一希望能够自动驾驶的东西：无人驾驶飞机也正在接受自动飞行的训练。无人机研究与自动驾驶汽车研究面临着同样的难题。高质量的训练数据既困难又昂贵，不同的飞行方式意味着无人机需要接受不同的新场景训练，而且法规使得在某些领域难以进行测试。即使是曾经受过训练，飞行过程仍然会非常困难。

“任何尝试过控制无人机的人都知道这不是件容易的事情，”比利时研究型大学天主教鲁汶大学的教授 Tinne Tuytelaars 说道。不过，与自动驾驶汽车不同，无人机犯错的成本更低。“如果一架无人机坠毁，”Tuytelaars 耸了耸肩，“也不是件什么大不了的事。”

无人机已经可以投入到诸如协助救灾和管道检查等的应用。有朝一日它们将会可以进行送货并提供载客服务。像亚马逊和波音这样的公司已经在测试无人机，未来它们可能会像现在的邮递员那样投递包裹。

在某些情况下，多架无人机可能出现在同一个空域内，并且可以比人类飞行员更好地实现彼此间飞行的协调。使它们自动飞行意味着可以降低成本，将技术带到全世界更多人和公司的手中。

机器人医生

除了交通工具，计算机视觉给医疗领域带来的变化是最显著的。AI 算法已经可以比放射科医生更好地从医学影像中识别出病症，例如骨折和肺炎。

“大数据的爆发，尤其在医疗领域的爆发，意味着我们能获得更多的数据来进行研究。”西班牙奥维耶多大学计算机学系助理教授 BeatrizRemeseiro表示，“我们正在利用数据去解决比以往更复杂的难题。”

去年，谷歌宣布开发出新的图像识别算法，可用于检测糖尿病视网膜病变的迹象，这种病变如果不及时治疗会导致失明。这种算法能媲美人类专家，可以在患者视网膜的照片中发现小动脉瘤，这种动脉瘤是病变的早期迹象。

2017年，腾讯也发布了一款用于医学领域的AI产品——腾讯觅影，能够通过扫描上消化道内镜图片筛查食管癌，对早期食管癌的识别准确率高达 90%。目前，腾讯觅影已经应用于中国100多家医院，未来也将辅助诊断糖尿病视网膜病变、肺结节、宫颈癌及乳腺癌等。

其他运用 AI 技术的工具也被用来更早地发现中风，为患者提供更好的生存机会。美国食品和药物管理局最近宣布将简化流程，以便帮助 AI 产品更快地获得批准。

当然，这些工具并不会很快就替代医生，它们起到更多是顾问的作用，而非取代从业医师。计算机视觉可以提高工作效率，并使医生短缺地区的人们能得到更多医疗服务。这些创新技术也正在被用来最大限度地减少对人体的侵入性危害。例如，CT 扫描比 X 射线能获取更多信息，但会使患者暴露在更大的辐射中。AI 则可以对X光片进行分析后，给医生提供相当于CT扫描的信息。

“医学影像是通过计算机视觉可以提供更多信息从而真正产生影响的领域，”康奈尔大学计算机科学系教授、谷歌研究所研究科学家 Ramin Zabih 表示。“医学史已经证明，如果医师可以获得更多的数据，这可能意味着能更好地帮助到患者。”

远和近：边缘设备和航天器

所有这些领域都令人印象深刻，计算机视觉的未来会更加光明。即将开始影响该行业的最大变化之一，就是边缘设备——在两个网络的边界控制数据流转的硬件。大多数 AI 处理需要在大型远程云服务器上完成，因为运行这些算法的计算密集程度很高。另一方面，人们制造了边缘设备，从而具有足够的处理能力能在本地完成工作。随着像 Nvidia和Facebook这样的公司开始制造专门用于运行 AI的芯片，边缘设备正在变得越来越普遍。这将可以实现更快、更安全的数据处理，并且能让用户通过自己的数据进行更多 AI 自定义训练，增加个人结果的定制程度。

“它将推动更多的创新，”总部位于加利福尼亚的 Movidius 公司前首席执行官 Remi El-Ouazzane表示，该公司为计算机视觉设计专用的低功耗处理器芯片。目前 Remi El-Ouazzane也担任英特尔 AI 产品集团首席运营官，这是另一家生产半导体芯片和微处理器的加州科技公司。

El-Ouazzane 表示，从智能家居设备和监控摄像头到自动驾驶汽车，数十亿台设备都可以运用 AI 技术并在边缘设备上工作。这还将创造能够找到失踪人员的技术（例如，通过扫描人群图像），或者可以在孩子睡觉前没有刷牙的时候能够提醒父母。

“问题不是‘能不能实现’，而是‘什么时候实现’，”他说。

在边缘设备的微世界之外，天文学家们也对计算机视觉特别感兴趣，他们从无尽太空中收集到大量数据集并进行研究。Kaggle 是一个用于预测建模和分析竞赛的在线平台，在Kaggle上就有一个比赛利用深度学习和计算机视觉技术让研究人员能够通过观察天文图像发现更多关于支配我们宇宙的暗物质的相关信息。

此外，还有一个致力于通过 AI 促进探索太空的研究孵化器。前沿开发实验室 (FDL) 是美国航空航天局 (NASA) 与英特尔 AI、谷歌云、洛克希德和 IBM 等公司共同建立的合伙机构。FDL将天文学家和计算机科学家带到了加利福尼亚州硅谷共同工作8周，解决诸如了解太阳耀斑、绘制月球地图和寻找小行星等问题。根据 FDL 创始人之一 James Parr 的说法，如果没有计算机视觉，计划就无法成功。事实上，位于美国加州帕萨迪纳的NASA 喷气推进实验室 (JPL) 对于摄像技术的发明起到了至关重要的作用，该技术影响了如今的大部分计算机视觉软件。

“计算机视觉与太空计划之间存在共生关系，” Parr 说。“但这个议题在太空行业的讨论度还不足够。”

太空探索将同样受到影响，因为AI 对于前往火星以及更远的地方至关重要。太空旅行者和地球指挥中心之间的通信滞后意味着系统必须要能够做出自主决定，而这些决策很多都是由视觉数据来推动的。

“随着我们不断向外探索，我们需要机器人和自治系统为宇航员做好准备并提供协助、建造结构、定位并提取资源，” Parr 说。“这是发现和探索过程中激动人心的时刻。”

探索计算机视觉将如何改变地球上的生活，同样令人激动。随着 AI 扩展到更多领域并发展出新功能，它可能会遇到新的技术难题。但是，当我们回顾 AI 的历史时，给计算机提供视觉的能力可能是最重要的一项进步。拥有视力的机器将带领我们走向更光明的未来。