点击中国图象图形学报→主页右上角菜单栏→设为星标
模式识别学科发展报告
第一版
模式识别国家重点实验室 撰写
中国科学院学部学科发展战略研究项目成果
报告提炼出
过去50项重要研究进展
未来30项重要研究问题
按照模式识别基础、计算机视觉、语音语言信息处理、模式识别应用技术四个方向分别介绍。
今天为大家推荐模式识别学科发展报告的第四个方向:模式识别应用技术。
“模式识别基础”报告
“计算机视觉”报告
“语音语言信息处理”报告
面部生物特征识别:人体多种模态的生物特征信息主要分布于面部(人脸、虹膜、眼周、眼纹)和手部(指纹、掌纹、手形、静脉)。相比手部生物特征,人体面部的人脸和虹膜等特征具有表观可见、信息丰富、采集非接触的独特优势,在移动终端、中远距离身份识别和智能视频监控应用场景具有不可替代的重要作用,因而得到了国际学术界、产业界乃至政府部门的高度关注。
手部生物特征识别:手部生物特征主要包括指纹、掌纹、手形以及手指、手掌和手背静脉,这些生物特征发展早期主要采取结构特征进行身份识别,例如指纹和掌纹中的细节点、静脉中的血管纹路、手形几何尺寸等,但是近些年来基于纹理表观深度学习的方法在手部生物特征识别领域得到快速发展。
行为生物特征识别:行为生物特征识别是通过个体后天形成的行为习惯如步态、笔迹、键盘敲击等进行身份识别。行为生物特征识别可用于持续性活体身份认证,例如金融、商业、政府、公安等应用领域。近些年也出现了一些新兴的行为生物特征模态,例如利用智能手机的划屏行为、网络社交媒体的统计行为特征进行身份识别。
声纹识别:又称说话人识别,是根据语音信号中能够表征说话人个性信息的声纹特征,利用计算机以及各种信息识别技术,自动地实现说话人身份识别的一种生物特征识别技术。
图像和视频合成:图像与视频的合成在计算机视觉领域中有着重要地位,其成果带动了相关领域的研究和应用。如GAN在语音合成、文本生成、音乐生成等领域的应用,使其效果产生了质的飞跃。而图像与视频合成在当今社会及商业中也应用广泛,在娱乐方面有着各类美妆类、变脸类应用,而在安防领域有着异质图像合成、肖像自然图像合成等重要应用。
遥感图像分析:旨在通过对遥感图像的分析来获得有关场景、目标的特征及规律。遥感图像处理既指从遥感图像获取特征或规律的技术或手段,也指获取特征或规律后的应用目的。遥感图像处理所获取的特征主要包括时间特征、空间特征、语义特征,所获取的规律主要包含地物真实特征与图像特征的对应关系及从图像获得的场景、目标与周围环境或时间的演变或变化规律。
医学图像分析:属于多学科交叉的综合研究领域,涉及医学影像、数据建模、数字图像处理与分析、人工智能和数值算法等多个学科。医学图像中的模式识别问题,主要指将模式识别与图像处理技术应用在医学影像上,并结合临床数据加以综合分析,最终目的是找到与特定疾病相关的影像学生物指标,从而达到辅助医生早期诊断,辅助治疗和预后评估。
文字与文本识别:人类社会生活和互联网上存在大量的文字和文档图像(把文字和文档通过扫描或拍照变成图像)。把图像中的文字检测识别出来,转化为电子文本,是计算机文字处理和语言理解的需要。这个过程称为文档图像识别,简称文档识别或文字识别,或称为光学字符识别(OCR)。
复杂文档版面分析:文档版面分析技术的发展推动了文档识别技术的成功应用。随着数码相机和智能手机的普及,拍照文档越来越多,文档类型、图像质量多样化,对版面分析技术的要求越来越高。近年来,各类拍照文档(书籍、档案、文书、票据、卡片、证件、场景文本)的自动处理和识别逐渐开始实用,这得益于版面分析技术和文本识别技术的巨大进步。但是,任意复杂结构、低质图像文档的版面分割与理解及内容识别仍是有待解决的问题。
多媒体数据分析:随着网络通信、数字电子设备、计算机技术的快速进步,信息社会已进入多媒体大数据时代。由于多媒体数据的固有属性是异构及多模态性,因此使用传统方法处理这些复杂数据是不可行的。多媒体数据分析旨在解决多媒体数据的操纵、管理、挖掘、理解的问题,同时以高效的方式对不同模态的异构数据进行智能感知,从而服务于实际应用。
多模态情感计算:多模态情感计算是指融合多种模态信息包括但不限于音频、视频、文本和生理信号等模态进行情感识别、解释、处理和模拟,促进和谐的人机交互。
图像取证与安全:以图像为代表的视觉大数据作为客观信息记录的重要载体,在日常生活中被广泛应用,然而随着图像视频编辑技术、特别是深度生成对抗和伪造技术等的快速发展,图像视频极易成为被恶意篡改伪造的对象,在互联网和智能手机上广泛且快速传播,对网络安全和媒体公信力造成巨大威胁。在眼见不为实的背景下,视觉取证技术应运而生,其目的是有效鉴别图像视频数据的真实性、追溯可疑图像视频来源。
扩展阅读
非受控环境下的可信生物特征识别:从手机解锁、小区门禁到餐厅吃饭、超市收银,再到高铁进站、机场安检以及医院看病,虹膜、人脸、指纹等可信生物特征已成为人们进入万物互联世界的数字身份证。生物特征识别是“新一代人工智能规划”、“互联网+行动计划”等国家战略的重点发展领域,也是计算机视觉和模式识别学科前沿方向。
生物特征深度造假和鉴伪:随着图像生成模型(GAN、VAE等)的快速发展,计算机合成生物特征图像,尤其是合成人脸的逼真度越来越高,在欺骗人眼的同时对互联网内容可信性造成了巨大冲击。最新的人工智能技术可以让普通人方便地制作换脸视频或生成高清人脸图像,这就是被称为“深度伪造”的一系列技术。其严峻性在于简易、开源、效果极佳的软件赋能大量普通用户方便地制作并传播伪造内容,同时对伪造内容的鉴伪也成为图像取证领域亟待解决的重大问题。
遥感图像弱小目标识别和场景理解:遥感图像场景理解和弱小目标识别是指针对特定的任务从遥感图像中检测、识别出弱小目标、小目标,并结合弱小目标的语义信息及上下文信息对弱小目标所处的背景、环境及整个场景进行推理、理解的技术和过程。与传统的目标识别相比,弱小目标可分性更差,更容易被漏检或错检,弱小目标识别更具挑战性。但对于实际应用来说,弱小目标往往携带更加重要的信息,一旦漏检或错检,其对应用的损失比传统的目标误识要大得多。因此,弱小目标的识别具有非常重要的应用价值和研究意义。
医学图像高精度解释:模式识别的一个重要应用方向是对医学图像进行高精度解释。医学是一门注重实践、依赖循症的科学,新兴技术需要医生通过长期的实践进行分析总结,找到科学依据,再通过现代统计学的科学方法结合临床实践得到最大可能的验证。人工智能和机器学习能够帮助医生更加高效、准确的“看片子”,是医生的高效助手和强大助力。
复杂文档识别与重构:自20世纪50年代以来,作为模式识别领域分支之一的文字识别和文档分析方向开展了大量研究,在文档图像版面分析、文字和文本行识别等方面取得了巨大进展,推动了文字和文档识别技术在文档数字化、邮政、金融、档案、教育等领域的成功应用。然而,在实际应用中发现,现有方法的性能还有很多不足,有些场合还不能满足应用的需求。文档识别的最终目标是正确分割和识别文档中所有的文本和图形符号信息,把文档版面结构全部内容电子化,表示成结构化的电子文档(如Word、PDF等)。准确的识别和版式重构将使得文档识别技术在文字无处不在的现实社会得到普遍应用。
异构空间网络关联事件分析与协同监控:现实世界中的复杂事件往往存在于不同的异构空间。例如,社会热点事件同时存在于物理空间和网络空间,这两个社会空间既相对独立又关联耦合。物理空间(现实世界中的各类场景)的人类活动主要体现社会大众的“行”,而网络空间(不同社交平台,如新浪微博、腾讯微博、Facebook和Twitter 等)的社会媒体更多反映网民群体的“言”。针对这些事件存在的跨空间交融、大数据与多模态等特性,异构空间网络关联事件分析与协同监控力求对存在于异构空间中的事件数据进行协同地关联、分析、监测、推理和决策,使之服务于国计民生的方方面面。
扩展阅读
模式识别70年学科背景
自20世纪50年代以来,模式识别已发展成为一个学科(Discipline)或研究领域(Field of study)。
O.G. Selfridge在1957年一个会议上从计算机科学角度给出了一个定义:Pattern recognition is the extraction of the significant features from a background of irrelevant detail(模式识别是从无关细节的背景中提取有意义特征的过程)。
King Sun Fu(傅京孙)在1982年出版的《Applications of Pattern Recognition》编著第一章说The problem of pattern recognition usually denotes classification and/or description of a set of processes or events. The set of processes or events to be classified could be a set of physical objects or a set of more abstract ones such mental states. The processes or events with some similar properties are grouped into a class.(模式识别问题是指对过程或事件的分类和/或描述。过程或事件可以是物理上的物体或抽象的事件如精神状态。具有相似特点的过程或事件组成类别)。这个定义对模式识别的技术(分类、描述)和模式、类别都表达的非常明确。
综合模式识别认知、功能作用和计算原理等方面的特点,我们可以给出一个更加全面的定义:模式识别学科研究如何使机器(包括计算机)模拟人的感知功能,从环境感知数据中检测、识别和理解目标、行为、事件等模式。同时定义模式为数据中具有一定特点的目标、行为或事件,具有相似特点的模式组成类别(class, category)。单个模式又称为样本(sample)或样例(instance)。
报告内容组织
2018-2019年,模式识别国家重点实验室承担了中国科学院学部学科发展战略研究项目“模式识别发展战略研究”。鉴于过去60多年模式识别的理论方法和应用都产生了巨大进展,而在通信、传感和计算软硬件技术不断发展、应用场景渐趋复杂开放的新形势下,又面临很多新的理论和技术问题,本项目希望对模式识别领域的发展历史进行全面梳理,整理出至今在学术届或应用中产生了重大影响的主要研究进展,并且面向未来,提炼出具有重要理论价值或应用需求的值得研究的问题,供模式识别学术界参考,以期对未来基础研究和应用研究产生指导,产出具有重大理论价值或应用价值的研究成果。
实验室邀请国内本领域科研一线的研究者进行了多轮研讨交流,并经实验室内几十名研究人员撰写整理,提炼出模式识别领域过去50项重要研究进展和未来30项重要研究问题,分模式识别基础、计算机视觉、语音语言信息处理、模式识别应用技术四个方向分别介绍。模式识别基础理论和方法是研究的核心,主要研究内容包括分类决策基础理论、多种分类器设计和学习方法、特征学习、聚类分析等。
模式识别国家重点实验室简介
模式识别国家重点实验室筹建于1984年,1987年8月正式对外开放,同年12月通过国家验收,是由国家计委投资筹建的第一批国家重点实验室之一。实验室依托于中国科学院自动化研究所,第一任主任是马颂德研究员,第二任主任是谭铁牛院士,现任主任是刘成林研究员。
实验室以模式识别基础理论、图像处理与计算机视觉以及语音语言信息处理为主要研究方向,研究人类模式识别的机理以及有效的计算方法,为开发智能系统提供关键技术,为探求人类智力的本质提供科学依据。
实验室的定位和目标是“面向国际学科前沿,面向国家战略需求,面向国民经济主战场,开展模式识别领域的基础和应用基础研究,建设国际一流的科研团队,打造具有广泛影响力的模式识别领域国家公共研究平台,使其成为国内外著名的科学研究、技术创新和人才培养基地,推动和引领模式识别学科的发展,为我国信息技术等战略新兴产业发展提供知识、技术与人才储备”。
实验室首页:
本文得到模式识别国家重点实验室(公众号: 模式识别国家重点实验室)授权发布
申明:本文发布的网站内容均不代表本号观点,本号旨在提供参考素材以便学习交流。
回放平台:
知网在线教学服务平台:
http://k.cnki.net/Room/Home/Index/181822
B站:
https://space.bilibili.com/27032291
往期目录:
汪荣贵——机器学习基本知识体系与入门方法
陈强——从Cell封面论文谈AI研究中的实验数据问题
石争浩——从先验到深度:低见度图像增强
行知论坛——南理工行知论坛&图图Seminar:智能画质增强专题
孙显——遥感图像智能分析:方法与应用
章国锋——视觉SLAM在AR应用上的关键性问题探讨
林宙辰——机器学习中优化算法前沿简介
白相志,冯朝路——“医学图像与人工智能”主题论坛
李雷达——以人为中心的图像感知评价:从质量到美学
汪荣贵——深度强化学习系列课程1-4讲
张明敏,郭诗辉——“人工智能与虚拟现实”主题论坛
高连如——高光谱遥感图像处理与信息提取
杨扬——“出身决定论”?看科研之路如何逆袭!
于仕琪——步态识别新动向:基于人体模型的方法与数据
CCF YOCSEF南京——深度学习可解释性论坛
看完微推意犹未尽?
快加入图图社区,更多资讯等着你
本文系《中国图象图形学报》独家稿件
内容仅供学习交流
版权属于原作者
欢迎大家关注转发!
编辑:狄 狄
指导:梧桐君
审校:夏薇薇
总编辑:肖 亮
声 明
欢迎转发本号原创内容,任何形式的媒体或机构未经授权,不得转载和摘编。授权请在后台留言“机构名称+文章标题+转载/转发”联系本号。转载需标注原作者和信息来源为《中国图象图形学报》。本号转载信息旨在传播交流,内容为作者观点,不代表本号立场。未经允许,请勿二次转载。如涉及文字、图片等内容、版权和其他问题,请于文章发出20日内联系本号,我们将第一时间处理。《中国图象图形学报》拥有最终解释权。