模式识别学科发展系列报告

学科背景

自20世纪50年代以来，模式识别已发展成为一个学科(Discipline)或研究领域(Field of study)。O.G. Selfridge在1957年一个会议上从计算机科学角度给出了一个定义：Pattern recognition is the extraction of the significant features from a background of irrelevant detail（模式识别是从无关细节的背景中提取有意义特征的过程）。King Sun Fu（傅京孙）在1982年出版的《Applications of Pattern Recognition》编著第一章说The problem of pattern recognition usually denotes classification and/or description of a set of processes or events. The set of processes or events to be classified could be a set of physical objects or a set of more abstract ones such mental states. The processes or events with some similar properties are grouped into a class.（模式识别问题是指对过程或事件的分类和/或描述。过程或事件可以是物理上的物体或抽象的事件如精神状态。具有相似特点的过程或事件组成类别）。这个定义对模式识别的技术（分类、描述）和模式、类别都表达的非常明确。

综合模式识别认知、功能作用和计算原理等方面的特点，我们可以给出一个更加全面的定义：模式识别学科研究如何使机器（包括计算机）模拟人的感知功能，从环境感知数据中检测、识别和理解目标、行为、事件等模式。同时定义模式为数据中具有一定特点的目标、行为或事件，具有相似特点的模式组成类别(class, category)。单个模式又称为样本(sample)或样例(instance)。

20世纪50年代是计算机模式识别正式登场的时期。1957年C.K. Chow发表的用于文字识别的统计决策方法是典型的统计模式识别方法，该文献给出了贝叶斯决策（包括最小风险决策、最大后验概率决策、带拒识的最小风险决策）的基本框架。早期的一些代表性工作或重要事件还包括：1957年Rosenblatt研制的感知机(Perceptron)；1965年N.L. Nilsson发表的关于学习机器的著作（里面主要内容是模式分类）；1966年第一个以模式识别为主题的研讨会；1968年发表的模式识别研究综述；1968年国际期刊Pattern Recognition创刊；Fukunaga和Duda & Hart分别于1972年和1973年发表的模式识别经典教材。70年代是模式识别研究快速发展的一个时期，傅京孙提出句法模式识别方法并形成了理论方法体系。

模式识别的国际组织在上世纪70年代正式成立。根据国际模式识别协会（IAPR）历史介绍，第一届国际模式识别联合大会（IJCPR，1980年以后改名为ICPR）于1973年召开，第二届在1974年召开，以后每两年举办一次。IAPR于1974年IJCPR期间开始筹建，1976年IJCPR期间召开了第一次执委会会议，1977年开始接受会员申请，在1978年IJCPR期间召开了第一次Governing Board（主席团）会议，宣告IAPR正式成立。

20世纪80年代，模式识别方法发展的最大亮点是多层神经网络的引入。1986年Rumelhart等人发表了误差反向传播(Back-propogation, BP)算法（其实Paul Werbos在其1974年的博士论文中描述了BP算法，没有引起太多注意）。BP算法使多层神经网络作为模式分类器具有自学习能力，其隐层神经元具有特征提取功能，因而迅速成为一种主流的模式识别方法。卷积神经网络首先在1990年提出。支持向量机于1995年出现，由于其克服了多层神经网络训练的局部极值问题，具有更好的泛化性能，逐渐成为新的主流方法。

90年代到21世纪初，模式识别和机器学习（模式分类器设计是一个学习问题，因此大多机器学习研究面向模式识别）领域多种新的方法兴起，典型的有多分类器系统（早期工作出现在1990年，后来发展成为集成学习方向）。在模式识别中发挥重要作用的半监督学习、多标签学习、多任务学习、迁移学习和领域自适应（与领域自适应类似的分类器自适应早在上世纪60年代就已经有尝试）、以马尔科夫随机场和条件随机场为典型代表的概率图模型等均兴起于这个时期。

2006年以后，深度学习（深度神经网络方法）逐渐成为主流，并陆续在多数模式识别应用任务中大幅超越传统模式识别方法（基于人工特征提取的分类方法）的性能。深度学习的方法最早发表在2006年，后来陆续提出了一系列改进训练收敛性和泛化性能的深度神经网络模型和训练算法，包括不同的训练方法或正则化方法、不同的卷积神经网络结构、循环神经网络、self-attention网络、图卷积网络等。2012年深度卷积神经网络在大规模图像分类竞赛Imagenet中取得巨大成功，从此推动深度学习的研究和应用进入高潮。深度学习的优越性能从视觉领域延伸到自然语言处理领域，开始在机器翻译、阅读理解、自动问答等语言理解任务中大幅超越基于统计语言模型的方法。

目前，深度学习方法仍然在模式识别和人工智能领域占据统治地位。但是随着研究的深入和应用的扩展，深度学习方法的不足也越来越凸显，如小样本泛化能力不足、可解释性不足、鲁棒性（稳定性）差、语义理解和结构理解能力弱，连续学习中遗忘严重，等等。针对这些缺陷学术界在不断探索新的模型（包括与知识规则和传统模式识别方法的结合）和学习算法等，研究和应用都还在不断向前发展。比如，面向开放环境的鲁棒模式识别、可解释性神经网络、面向小样本学习和可解释性的模块化神经网络、结合感知和符号推理的模型、自监督学习、连续学习（又称终生学习）等。

模式识别和人工智能不同分支领域（机器学习、计算机视觉、自然语言处理、数据挖掘等）高度交叉。模式识别中的分类、聚类等问题也是机器学习的主要研究内容。机器学习领域把Nilsson（1965年）和Duda & Hart（1973年）的早期著作当作是机器学习的代表作，这两本书其实主要是关于模式识别的。Bishop在他2006年出版的《Pattern Recognition and Machine Learning》一书前言中说：Pattern recognition has its origins in engineering, whereas machine learning grew out of computer science. However, these activities can be viewed as two facets of the same field.（模式识别来源于工程，机器学出生长于计算机科学。两者可以看作是同一个领域的两个面）。傅京孙在1971年出版一本编著名称也叫Pattern Recognition and Machine Learning。机器学习作为一个研究领域，出现比较晚一些。1980年代才有以Machine Learning为题的专著和大会（ICML第一届在1980年）。

计算机视觉的主要研究内容是图像、视频的分析、识别与理解，与模式识别也是高度交叉的，尤其目标和行为识别是典型的模式识别问题，因此计算机视觉中大量使用模式识别的理论和方法（如分类和学习方法）。1973年《Pattern Classification and Scene Analysis》中的Scene Analysis是典型的计算机视觉的工作。70年代以来IJCPR（1980年改名ICPR）会议中都有大量的图像处理与分析的论文。一般认为，David Marr于1982年出版的专著《Vision》标志着计算机视觉领域正式形成。计算机视觉领域的典型活动计算机视觉与模式识别大会(CVPR)开始于1983年，国际计算机视觉大会(ICCV)开始于1987年。在这些会议中，传统模式识别领域中的一般图像分析与识别（包括形状分析、目标识别、文档图像分析和文字识别）甚至一般分类器学习的工作也开始大量出现。

模式识别与机器学习、计算机视觉、语言处理、数据挖掘等领域的高度重叠和交叉说明学科领域是随着历史不断分化和融合的。目前这些相关领域互相学习借鉴、相互促进，未来会结合更加紧密。

模式识别学科发展报告的内容组织

2018-2019年，模式识别国家重点实验室承担了中国科学院学部学科发展战略研究项目“模式识别发展战略研究”。鉴于过去60多年模式识别的理论方法和应用都产生了巨大进展，而在通信、传感和计算软硬件技术不断发展、应用场景渐趋复杂开放的新形势下，又面临很多新的理论和技术问题，本项目希望对模式识别领域的发展历史进行全面梳理，整理出至今在学术届或应用中产生了重大影响的主要研究进展，并且面向未来，提炼出具有重要理论价值或应用需求的值得研究的问题，供模式识别学术界参考，以期对未来基础研究和应用研究产生指导，产出具有重大理论价值或应用价值的研究成果。

实验室邀请国内本领域科研一线的研究者进行了多轮研讨交流，并经实验室内几十名研究人员撰写整理，提炼出模式识别领域过去50项重要研究进展和未来30项重要研究问题，分模式识别基础、计算机视觉、语音语言信息处理、模式识别应用技术四个方向分别介绍。模式识别基础理论和方法是研究的核心，主要研究内容包括分类决策基础理论、多种分类器设计和学习方法、特征学习、聚类分析等。计算机视觉是机器感知中最重要的部分（人和机器从环境获得信息的最大通道是视觉感知），视觉感知数据是模式识别处理的最重要的对象。主要研究内容包括图像处理与分割、图像增强与复原、三维视觉、场景分析、目标检测与识别、行为识别等。语言信息(包括语音和文本信息)是一类重要的模式信息，语言信息处理是模式识别和机器感知的一种重要形式，自然语言处理（文本理解）发展出了自己的理论方法体系，当前与听觉和视觉感知的交叉日趋紧密，且与模式识别和机器学习的方法越来越近。模式识别技术在社会生活中应用非常广泛，本报告不介绍那些单纯应用模式识别技术的场景或技术，而是选择性地介绍跟模式识别理论方法研究结合紧密（比如针对/结合应用场景研究模式识别方法和技术）的应用问题，如生物特征识别、遥感图像分析、医学图像分析、文档图像分析和文字识别、多媒体计算等。

现在发布该报告第一版，包括各个研究进展和研究问题的简介，希望获得学术界的反馈和修改建议。未来将对各个进展/问题条目做详细描述，整理成一本书正式出版。

成为VIP会员查看完整内容