点击中国图象图形学报→主页右上角菜单栏→设为星标
模式识别学科发展报告
第一版
模式识别国家重点实验室 撰写
中国科学院学部学科发展战略研究项目成果
报告提炼出
过去50项重要研究进展
未来30项重要研究问题
按照模式识别基础、计算机视觉、语音语言信息处理、模式识别应用技术四个方向分别介绍。
图图今天为大家推荐模式识别学科发展报告的第二个方向,计算机视觉的重要研究进展和未来重要研究问题。
点击图片获取“模式识别基础”报告
计算成像学:结合计算、光学系统和智能光照等技术,将成像系统采集能力与计算机处理能力相结合,创新性地将视觉信息处理与计算前移至成像过程,提出新的成像机制,设计新的成像光路,开发新的图像重构方法,能够在视觉信息的维度、尺度与分辨率等方面实现质的突破,使得对光信号进行高维高分辨率的采样成为可能。
初期视觉:人类的视觉信息处理包括初期视觉和高层视觉,初期视觉主要通过分析输入的视觉信号变化来获取物体的位置、形状、表观和运动等信息,基本不涉及场景信息的语义理解。
图像增强与复原:图像增强与复原是图像处理领域研究的一类经典问题。
图像特征提取与匹配:图像特征提取和匹配的目的是对不同图像中相同或相似的基元建立对应关系。
多视几何理论:主要研究在射影变换下,不同视角二维图像对应点之间,以及图像点与三维场景、相机模型之间的几何约束理论和计算方法,进而实现通过二维图像恢复和理解场景的三维几何属性。
摄像机标定与定位:对摄像机内外参数的求解可以统称为摄像机标定。对摄像机机外参数求解,又可以称为摄像机定位或视觉定位。
三维重建:旨在通过多视角二维图像恢复场景三维结构,可以看作相机成像的逆过程。
目标检测与识别:目标识别需要对于图像视频中出现的人或目标预测出其相应的类别,而目标检测则需要在识别出目标类别的基础上进一步预测目标在图像中的位置。
图像分割:目的是将图像视频分成各具特性的区域并提取出感兴趣目标,他可以看作是目标检测任务的进一步延展,即不仅需要识别出图像视频中出现的目标,还需要定位目标位置并将其轮廓分割出来。
图像场景理解:图像场景理解是比较宽泛的概念,所涉及的关键技术主要包括场景解析、语义描述等,近年来都得到了快速发展。
图像检索:是为了在输入查询图像时在包含丰富视觉信息的海量图像库中方便、快速、准确地查询并筛选出用户所需的或感兴趣的一些相关图像。
视觉跟踪:视觉跟踪就是要在整个图像序列中的每帧图像里,通过算法确定指定目标的状态。
行为与事件分析:行为与事件分析是高层计算机视觉的重要任务。
扩展阅读
新型成像条件下的视觉研究:新型计算成像设备与新型镜头的硬件研究,在新型设备和镜头下的计算机视觉算法研究,软硬一体化多新型成像融合研究。
生物启发的计算机视觉研究:它是计算机视觉与神经科学的交叉学科,在这方面理论的突破,可使得计算机视觉与生物的智能更加靠近。目前,深度神经网络借鉴了大脑层次化的信息抽取过程,成为这一轮人工智能/模式识别发展的发动机。
多传感器融合的三维视觉研究:随着传感器技术的发展,结构光、TOF、LIDAR、IMU等主动传感器日益小型化和低成本化,因此发挥各种传感器的优势,融合图像和其他主动传感器进行三维重建和视觉定位是三维视觉领域未来的一个重要发展方向。
高动态复杂场景下的视觉场景理解:当场景中包含高动态的复杂情景时,比如大街上,拥挤的人群、车辆、互相遮挡等等;再比如,高动态的光照变化,视觉的表观将发生非常大的变化。这些将对场景理解造成很大的挑战。未来,对这些高动态复杂场景下的视觉场景理解的研究将是一个非常有价值的方向的趋势。
小样本目标识别与理解:如何在小样本情况下更加有效地训练深度学习模型,进而使得模型在目标识别地基础上具备一定的理解能力,是一个重要的研究课题和方向。
复杂行为语义理解:复杂行为语义理解要解决的问题是根据来自非限定环境下的传感器(摄像机)的视频数据,通过视觉信息的处理和分析,识别人体的动作,并在识别视频中背景、物体等其他信息的辅助下,理解人体复杂行为的目的、所传递的语义信息。
扩展阅读
模式识别70年学科背景
自20世纪50年代以来,模式识别已发展成为一个学科(Discipline)或研究领域(Field of study)。
O.G. Selfridge在1957年一个会议上从计算机科学角度给出了一个定义:Pattern recognition is the extraction of the significant features from a background of irrelevant detail(模式识别是从无关细节的背景中提取有意义特征的过程)。
King Sun Fu(傅京孙)在1982年出版的《Applications of Pattern Recognition》编著第一章说The problem of pattern recognition usually denotes classification and/or description of a set of processes or events. The set of processes or events to be classified could be a set of physical objects or a set of more abstract ones such mental states. The processes or events with some similar properties are grouped into a class.(模式识别问题是指对过程或事件的分类和/或描述。过程或事件可以是物理上的物体或抽象的事件如精神状态。具有相似特点的过程或事件组成类别)。这个定义对模式识别的技术(分类、描述)和模式、类别都表达的非常明确。
综合模式识别认知、功能作用和计算原理等方面的特点,我们可以给出一个更加全面的定义:模式识别学科研究如何使机器(包括计算机)模拟人的感知功能,从环境感知数据中检测、识别和理解目标、行为、事件等模式。同时定义模式为数据中具有一定特点的目标、行为或事件,具有相似特点的模式组成类别(class, category)。单个模式又称为样本(sample)或样例(instance)。
20世纪50年代是计算机模式识别正式登场的时期。1957年C.K. Chow发表的用于文字识别的统计决策方法是典型的统计模式识别方法,该文献给出了贝叶斯决策(包括最小风险决策、最大后验概率决策、带拒识的最小风险决策)的基本框架。
早期的一些代表性工作或重要事件还包括:1957年Rosenblatt研制的感知机(Perceptron);1965年N.L. Nilsson发表的关于学习机器的著作(里面主要内容是模式分类);1966年第一个以模式识别为主题的研讨会;1968年发表的模式识别研究综述;1968年国际期刊Pattern Recognition创刊;Fukunaga和Duda & Hart分别于1972年和1973年发表的模式识别经典教材。70年代是模式识别研究快速发展的一个时期,傅京孙提出句法模式识别方法并形成了理论方法体系。
模式识别的国际组织在上世纪70年代正式成立。根据国际模式识别协会(IAPR)历史介绍,第一届国际模式识别联合大会(IJCPR,1980年以后改名为ICPR)于1973年召开,第二届在1974年召开,以后每两年举办一次。IAPR于1974年IJCPR期间开始筹建,1976年IJCPR期间召开了第一次执委会会议,1977年开始接受会员申请, 在1978年IJCPR期间召开了第一次Governing Board(主席团)会议,宣告IAPR正式成立。
20世纪80年代,模式识别方法发展的最大亮点是多层神经网络的引入。1986年Rumelhart等人发表了误差反向传播(Back-propogation, BP)算法(其实Paul Werbos在其1974年的博士论文中描述了BP算法,没有引起太多注意)。BP算法使多层神经网络作为模式分类器具有自学习能力,其隐层神经元具有特征提取功能,因而迅速成为一种主流的模式识别方法。卷积神经网络首先在1990年提出。支持向量机于1995年出现,由于其克服了多层神经网络训练的局部极值问题,具有更好的泛化性能,逐渐成为新的主流方法。
90年代到21世纪初,模式识别和机器学习(模式分类器设计是一个学习问题,因此大多机器学习研究面向模式识别)领域多种新的方法兴起,典型的有多分类器系统(早期工作出现在1990年,后来发展成为集成学习方向)。在模式识别中发挥重要作用的半监督学习、多标签学习、多任务学习、迁移学习和领域自适应(与领域自适应类似的分类器自适应早在上世纪60年代就已经有尝试)、以马尔科夫随机场和条件随机场为典型代表的概率图模型等均兴起于这个时期。
2006年以后,深度学习(深度神经网络方法)逐渐成为主流,并陆续在多数模式识别应用任务中大幅超越传统模式识别方法(基于人工特征提取的分类方法)的性能。深度学习的方法最早发表在2006年,后来陆续提出了一系列改进训练收敛性和泛化性能的深度神经网络模型和训练算法,包括不同的训练方法或正则化方法、不同的卷积神经网络结构、循环神经网络、self-attention网络、图卷积网络等。
2012年深度卷积神经网络在大规模图像分类竞赛Imagenet中取得巨大成功,从此推动深度学习的研究和应用进入高潮。深度学习的优越性能从视觉领域延伸到自然语言处理领域,开始在机器翻译、阅读理解、自动问答等语言理解任务中大幅超越基于统计语言模型的方法。
目前,深度学习方法仍然在模式识别和人工智能领域占据统治地位。但是随着研究的深入和应用的扩展,深度学习方法的不足也越来越凸显,如小样本泛化能力不足、可解释性不足、鲁棒性(稳定性)差、语义理解和结构理解能力弱,连续学习中遗忘严重,等等。针对这些缺陷学术界在不断探索新的模型(包括与知识规则和传统模式识别方法的结合)和学习算法等,研究和应用都还在不断向前发展。比如,面向开放环境的鲁棒模式识别、可解释性神经网络、面向小样本学习和可解释性的模块化神经网络、结合感知和符号推理的模型、自监督学习、连续学习(又称终生学习)等。
模式识别和人工智能不同分支领域(机器学习、计算机视觉、自然语言处理、数据挖掘等)高度交叉。模式识别中的分类、聚类等问题也是机器学习的主要研究内容。机器学习领域把Nilsson(1965年)和Duda & Hart(1973年)的早期著作当作是机器学习的代表作,这两本书其实主要是关于模式识别的。
Bishop在他2006年出版的《Pattern Recognition and Machine Learning》一书前言中说:Pattern recognition has its origins in engineering, whereas machine learning grew out of computer science. However, these activities can be viewed as two facets of the same field.(模式识别来源于工程,机器学出生长于计算机科学。两者可以看作是同一个领域的两个面)。
傅京孙在1971年出版一本编著名称也叫Pattern Recognition and Machine Learning。机器学习作为一个研究领域,出现比较晚一些。1980年代才有以Machine Learning为题的专著和大会(ICML第一届在1980年)。
计算机视觉的主要研究内容是图像、视频的分析、识别与理解,与模式识别也是高度交叉的,尤其目标和行为识别是典型的模式识别问题,因此计算机视觉中大量使用模式识别的理论和方法(如分类和学习方法)。1973年《Pattern Classification and Scene Analysis》中的Scene Analysis是典型的计算机视觉的工作。70年代以来IJCPR(1980年改名ICPR)会议中都有大量的图像处理与分析的论文。
一般认为,David Marr于1982年出版的专著《Vision》标志着计算机视觉领域正式形成。计算机视觉领域的典型活动计算机视觉与模式识别大会(CVPR)开始于1983年,国际计算机视觉大会(ICCV)开始于1987年。在这些会议中,传统模式识别领域中的一般图像分析与识别(包括形状分析、目标识别、文档图像分析和文字识别)甚至一般分类器学习的工作也开始大量出现。
模式识别与机器学习、计算机视觉、语言处理、数据挖掘等领域的高度重叠和交叉说明学科领域是随着历史不断分化和融合的。目前这些相关领域互相学习借鉴、相互促进,未来会结合更加紧密。
报告内容组织
2018-2019年,模式识别国家重点实验室承担了中国科学院学部学科发展战略研究项目“模式识别发展战略研究”。鉴于过去60多年模式识别的理论方法和应用都产生了巨大进展,而在通信、传感和计算软硬件技术不断发展、应用场景渐趋复杂开放的新形势下,又面临很多新的理论和技术问题,本项目希望对模式识别领域的发展历史进行全面梳理,整理出至今在学术届或应用中产生了重大影响的主要研究进展,并且面向未来,提炼出具有重要理论价值或应用需求的值得研究的问题,供模式识别学术界参考,以期对未来基础研究和应用研究产生指导,产出具有重大理论价值或应用价值的研究成果。
实验室邀请国内本领域科研一线的研究者进行了多轮研讨交流,并经实验室内几十名研究人员撰写整理,提炼出模式识别领域过去50项重要研究进展和未来30项重要研究问题,分模式识别基础、计算机视觉、语音语言信息处理、模式识别应用技术四个方向分别介绍。模式识别基础理论和方法是研究的核心,主要研究内容包括分类决策基础理论、多种分类器设计和学习方法、特征学习、聚类分析等。
计算机视觉是机器感知中最重要的部分(人和机器从环境获得信息的最大通道是视觉感知),视觉感知数据是模式识别处理的最重要的对象。主要研究内容包括图像处理与分割、图像增强与复原、三维视觉、场景分析、目标检测与识别、行为识别等。
语言信息(包括语音和文本信息)是一类重要的模式信息,语言信息处理是模式识别和机器感知的一种重要形式,自然语言处理(文本理解)发展出了自己的理论方法体系,当前与听觉和视觉感知的交叉日趋紧密,且与模式识别和机器学习的方法越来越近。
模式识别技术在社会生活中应用非常广泛,本报告不介绍那些单纯应用模式识别技术的场景或技术,而是选择性地介绍跟模式识别理论方法研究结合紧密(比如针对/结合应用场景研究模式识别方法和技术)的应用问题,如生物特征识别、遥感图像分析、医学图像分析、文档图像分析和文字识别、多媒体计算等。
模式识别国家重点实验室简介
模式识别国家重点实验室筹建于1984年,1987年8月正式对外开放,同年12月通过国家验收,是由国家计委投资筹建的第一批国家重点实验室之一。实验室依托于中国科学院自动化研究所,第一任主任是马颂德研究员,第二任主任是谭铁牛院士,现任主任是刘成林研究员。
实验室以模式识别基础理论、图像处理与计算机视觉以及语音语言信息处理为主要研究方向,研究人类模式识别的机理以及有效的计算方法,为开发智能系统提供关键技术,为探求人类智力的本质提供科学依据。
实验室的定位和目标是“面向国际学科前沿,面向国家战略需求,面向国民经济主战场,开展模式识别领域的基础和应用基础研究,建设国际一流的科研团队,打造具有广泛影响力的模式识别领域国家公共研究平台,使其成为国内外著名的科学研究、技术创新和人才培养基地,推动和引领模式识别学科的发展,为我国信息技术等战略新兴产业发展提供知识、技术与人才储备”。
实验室首页: http://www.nlpr.ia.ac.cn/cn/
本文得到模式识别国家重点实验室(公众号: 模式识别国家重点实验室)授权发布
申明:本文发布的网站内容均不代表本号观点,本号旨在提供参考素材以便学习交流。
回放平台:
知网在线教学服务平台:
http://k.cnki.net/Room/Home/Index/181822
B站:
https://space.bilibili.com/27032291
往期目录:
汪荣贵——机器学习基本知识体系与入门方法
陈强——从Cell封面论文谈AI研究中的实验数据问题
石争浩——从先验到深度:低见度图像增强
行知论坛——南理工行知论坛&图图Seminar:智能画质增强专题
孙显——遥感图像智能分析:方法与应用
章国锋——视觉SLAM在AR应用上的关键性问题探讨
林宙辰——机器学习中优化算法前沿简介
白相志,冯朝路——“医学图像与人工智能”主题论坛
李雷达——以人为中心的图像感知评价:从质量到美学
汪荣贵——深度强化学习系列课程1-4讲
张明敏,郭诗辉——“人工智能与虚拟现实”主题论坛
高连如——高光谱遥感图像处理与信息提取
杨扬——“出身决定论”?看科研之路如何逆袭!
于仕琪——步态识别新动向:基于人体模型的方法与数据
CCF YOCSEF南京——深度学习可解释性论坛
看完微推意犹未尽?
快加入图图社区,更多资讯等着你
本文系《中国图象图形学报》独家稿件
内容仅供学习交流
版权属于原作者
欢迎大家关注转发!
编辑:狄 狄
指导:梧桐君
审校:夏薇薇
总编辑:肖 亮
声 明
欢迎转发本号原创内容,任何形式的媒体或机构未经授权,不得转载和摘编。授权请在后台留言“机构名称+文章标题+转载/转发”联系本号。转载需标注原作者和信息来源为《中国图象图形学报》。本号转载信息旨在传播交流,内容为作者观点,不代表本号立场。未经允许,请勿二次转载。如涉及文字、图片等内容、版权和其他问题,请于文章发出20日内联系本号,我们将第一时间处理。《中国图象图形学报》拥有最终解释权。