计算机视觉简介：历史、现状和发展趋势

2017 年 11 月 21 日 机器学习研究会 胡占义

前言：本文由中国科学院自动化研究所胡占义研究员撰写，对计算机视觉40多年的发展历程进行了简要总结，包括：马尔计算视觉理论，主动视觉与目的视觉，多视几何与摄像机自标定，以及基于学习的视觉。在此基础上，对计算机视觉的未来发展趋势给出了一些展望。

1.1 什么是计算机视觉

正像其它学科一样，一个大量人员研究了多年的学科，却很难给出一个严格的定义，模式识别如此，目前火热的人工智能如此，计算机视觉亦如此。与计算机视觉密切相关的概念有视觉感知（visual perception）,视觉认知(visual cognition),图像和视频理解( image and video understanding). 这些概念有一些共性之处，也有本质不同。从广义上说，计算机视觉就是“赋予机器自然视觉能力”的学科。自然视觉能力，就是指生物视觉系统体现的视觉能力。一则生物自然视觉无法严格定义，在加上这种广义视觉定义又“包罗万象”，同时也不太符合40多年来计算机视觉的研究状况，所以这种“广义计算机视觉定义”，虽无可挑剔，但也缺乏实质性内容，不过是一种“循环式游戏定义”而已。实际上，计算机视觉本质上就是研究视觉感知问题。视觉感知，根据维科百基（Wikipedia）的定义, 是指对“环境表达和理解中，对视觉信息的组织、识别和解释的过程”。根据这种定义，计算机视觉的目标是对环境的表达和理解，核心问题是研究如何对输入的图像信息进行组织，对物体和场景进行识别，进而对图像内容给予解释。

计算机视觉与人工智能有密切联系，但也有本质的不同。人工智能更强调推理和决策，但至少计算机视觉目前还主要停留在图像信息表达和物体识别阶段。“物体识别和场景理解”也涉及从图像特征的推理与决策，但与人工智能的推理和决策有本质区别。应该没有一个严肃的计算机视觉研究人员会认为AlphaGo, AlphaZero 是计算机视觉，但都会认为它们是典型的人工智能内容。

简言之，计算机视觉是以图像（视频）为输入，以对环境的表达（representation）和理解为目标，研究图像信息组织、物体和场景识别、进而对事件给予解释的学科。从目前的研究现状看，目前还主要聚焦在图像信息的组织和识别阶段，对事件解释还鲜有涉及，至少还处于非常初级的阶段。

这里需要强调的是，每个人由于背景不同，偏好不同，知识面不同，对同一问题的观点亦会不同，甚至出现大相径庭的局面。上面为笔者对计算机视觉的理解，也许是片面或错误的。如不少人认为“纹理分析”是计算机视觉的一个重要研究方向，笔者不敢苟同。另外，很多场合，人们把“图像处理”也认为是“计算机视觉”，这也是不恰当的。图像处理是一门独立的学科，图像处理研究图像去噪、图像增强等内容，输入为图像，输出也是图像。计算机视觉利用图像处理技术进行图像预处理，但图像处理本身构不成计算机视觉的核心内容。

这里顺便说一下，目前很多人对“感知”和“认知”不加区分，给读者带来不必要的困惑和误解。在不少场合下，经常会见到有些“视觉专家”把“认知”和“推理与决策”（reasoning and decision）作为平行概念使用，这事实上是不太严谨的。根据“维基百科”，“认知”是指通过感觉（senses）、经历 (experience)和思考(thoughts)来获取知识(knowledge)和进行理解(understanding)的思维过程（mental process）。认知包括：知识形成（knowledge），注视（attention），记忆（memory），推理（reasoning），问题求解（problem solving）、决策（ decision making）以及语言生成（language production）等。所以，“感知”与“认知”有区别，推理和决策是典型的认知过程，是认知的重要组成部分，它们之间是包含关系，不是平行关系。

1.2 计算机视觉发展的四个主要阶段

尽管人们对计算机视觉这门学科的起始时间和发展历史有不同的看法，但应该说， 1982年马尔( David Marr )《视觉》（Marr, 1982）一书的问世，标志着计算机视觉成为了一门独立学科。计算机视觉的研究内容，大体可以分为物体视觉（object vision）和空间视觉（spatial vision）二大部分. 物体视觉在于对物体进行精细分类和鉴别，而空间视觉在于确定物体的位置和形状，为“动作（action）” 服务。正像著名的认知心理学家J.J. Gibson 所言，视觉的主要功能在于“适应外界环境，控制自身运动”。适应外界环境和控制自身运动，是生物生存的需求，这些功能的实现需要靠物体视觉和空间视觉协调完成。

转自：机器人视觉课题组

完整内容请点击“阅读原文”

登录查看更多