点击中国图象图形学报→主页右上角菜单栏→设为星标
模式识别学科发展报告
第一版
模式识别国家重点实验室 撰写
中国科学院学部学科发展战略研究项目成果
报告提炼出
过去50项重要研究进展
未来30项重要研究问题
按照模式识别基础、计算机视觉、语音语言信息处理、模式识别应用技术四个方向分别介绍。
图图今天为大家推荐模式识别学科发展报告的第三个方向,语音语言信息处理的重要研究进展和未来重要研究问题。
语音语言基础资源建设:语言资源库描述并存储了客观的语言知识和世界知识,是自然语言处理各种应用的核心和基础。无论是基于理性主义的规则方法还是基于经验主义的统计和深度学习方法,语言资源库都始终扮演着核心的知识支撑作用。
语言资源库包括语料库、词汇知识库、语法语义词典等,它们在不同层面构成了自然语言处理各种方法赖以实现的基础,甚至是建立或改进一个自然语言处理系统的“瓶颈”。因此,世界各国对语言资源库的开发建设都投入了巨大的努力。
汉字编码、输入输出及汉字信息处理:在汉字信息处理中,有两个问题最引人注目,一是汉字的输入问题,二是汉字的排版、印刷问题。其中,汉字输入问题又分为键盘输入和非键盘输入两种。
知识工程与知识库建设:知识是信息的一种抽象形式,是构成智能的基础。知识图谱技术推动着搜索引擎往智能化发展,从而更好地理解用户需求,并以更加便捷友好的呈现方式直接给用户答案。而以知识图谱为代表的知识库建设被认为是驱动自然语言处理产生下一个突破的关键技术。
语言模型:语言模型,其目的就是自动估计自然语言句子或词语序列真实出现的概率,也即衡量句子或词串的流畅程度和符合文法的程度。被广泛应用于中文输入法、机器翻译、自动摘要与人机对话等各种文本生成和文法自动校对等任务中,推动了这些任务的技术发展和产业应用。
在统计机器学习时代,语言模型用来度量候选结果序列的出现概率,从候选结果列表中挑选出最流畅的候选。在深度学习时代,机器翻译、自动摘要和人机对话等文本生成任务直接可以视为一个语言模型问题,在分布式表示和端到端建模方法的基础上取得突破性进展。
序列标注模型:序列标注模型就是利用机器学习方法为给定序列中的每个元素预测一个标签,其给自然语言处理技术的发展带来了积极深入的影响。在学术界,序列标注模型已经成为各种自然语言处理任务的基本处理范式。在产业界,序列标注模型推动了自然语言处理技术的实用化。
句法结构理论和篇章表示理论:句法结构理论主要用于分析句子中词语之间的组合和依赖关系,其中,以乔姆斯基上下文无关文法(Context-Free Grammar, CFG)为基础的短语结构分析和以泰尼埃配价理论为基础的依存关系分析是两大主流技术。
篇章(discourse)是由句子按照一定的逻辑语义顺序组成的语言单位,包括段落、整篇文章或对话,甚至一部著作也可算作一个篇章。因此,篇章理论研究的是段落或篇章中句子之间的组合和依赖关系。近年来,基于篇章的问答、阅读理解和机器翻译成为人们关注的研究热点。
文本表示模型:文本表示模型旨在对文本进行高效准确地表示,为自然语言理解和语义计算提供基础。文本表示模型的核心体现在基本单元词汇的语义表示和词汇表示到文本表示的语义组合方法。自然语言处理几十年的发展历程中,词袋表示和分布式表示是文本表示的两大经典模型。
自动问答与人机对话:自动问答和人机对话系统一直是自然语言处理和人工智能领域研究的热点,其目标是利用计算机自动回答用户所提出的问题以满足用户知识需求。不同于现有搜索引擎,问答系统是信息服务的一种高级形式,系统返回用户的不再是基于关键词匹配排序的候选问答列表,而是精准的自然语言答案。
机器翻译:机器翻译是自然语言处理技术最典型的应用,其目标就是利用计算机将一种自然语言(源语言)自动转换为另一种自然语言(目标语言)的技术,是自然语言处理的代表性应用技术,是突破全球语言障碍的关键。根据系统输入的不同,机器翻译包括文本翻译和语音翻译两种。语音翻译是语音识别、文本翻译和语音合成三种技术的集成。
听觉场景分析与语音增强:语音增强的目标是提高带噪语音的可懂度和感知质量,旨在降低噪声干扰的同时保持语音不失真,它对语音识别和语音通信等现实应用具有重要价值,是语音信号处理领域的一个重要研究课题。
语音识别:语音识别是指利用计算机,自动地将人类的语音转换为其对应的语言符号的过程。自从1980年代开始,语音识别一直是大规模数据驱动的统计学习方法的代表性技术。从2010年代开始,数万小时级别的标注语音的积累,高性能计算设备的发展,以及深度学习技术的普及,大大提升了语音识别的准确率,将语音识别带入了人们的生活。
语音合成:语音合成又称为文语转换(Text-to-Speech, TTS),指从文本信息到语音信号的转化过程,其主要目标为让机器会更加拟人地说话。语音合成技术起源于18世纪,发展至今已有两百多年,按时间顺序,语音合成的发展大致经历了机械式、电子式以及计算机的语音合成等三个阶段。
扩展阅读
语义表示和语义计算模型:关键问题:1. 如何针对不同类型文本构造不同形式的、可解释性的编码模型;2. 如何融合多种模态信息和已有的知识库资源开发更加智能的语义表示模型;3. 如何合理地评价语义表示的质量。
面向小样本和鲁棒可解释的自然语言处理:关键问题:1. 如何解决小数据的自然语言处理任务;2. 鲁棒可解释的自然语言处理模型研究必将成为自然语言处理的核心关键科学问题,它直接决定了自然语言处理在特定领域的实际应用。
基于多模态信息的自然语言处理:关键问题:1. 需要明确哪些自然语言处理任务需要多模态信息的帮助;2. 文本、语音和视觉模态的信息如何进行融合;3. 特别地,还需要明确同源多模态信息和异源多模态信息是否应该具有相同的语义融合范式。
交互式、自主学习的自然语言处理:关键问题:1. 需要设计一个自然的交互式环境和平台;2. 需要设计真实高效的交互任务;3. 需要建立一个基于反馈的终身学习的自然语言处理模型。
类脑语言信息处理:关键问题:1. 如何打通宏观、介观和微观层面的联系并给出清晰的解释,将是未来急需解决的问题;2. 从微观层面进一步研究人脑的结构,发现和揭示人脑理解语言的机理,借鉴或模拟人脑的工作机理建立形式化的数学模型才是最终解决自然语言理解问题的根本出路;3. 如何借鉴人脑的语言认知与理解机理设计具备自主学习和进化的自然语言理解模型是通向类人智能语言处理的必经之路。
复杂场景下的语音分离与识别:关键问题:1. 如何有效提升复杂信道和强干扰下的语音的音质,进一步探索复杂场景下的听觉机理,对语音声学建模和语音识别均具有很重要的意义;2. 如何有效解决复杂情况下的语音识别问题依然具有很高的挑战性和研究价值。
小数据个性化语音模拟:关键问题:如何有效利用数量少且音质低的语音数据,获得高表现力个性化模拟语音仍然具有较大的挑战和重要的研究价值。
扩展阅读
模式识别70年学科背景
自20世纪50年代以来,模式识别已发展成为一个学科(Discipline)或研究领域(Field of study)。
O.G. Selfridge在1957年一个会议上从计算机科学角度给出了一个定义:Pattern recognition is the extraction of the significant features from a background of irrelevant detail(模式识别是从无关细节的背景中提取有意义特征的过程)。
King Sun Fu(傅京孙)在1982年出版的《Applications of Pattern Recognition》编著第一章说The problem of pattern recognition usually denotes classification and/or description of a set of processes or events. The set of processes or events to be classified could be a set of physical objects or a set of more abstract ones such mental states. The processes or events with some similar properties are grouped into a class.(模式识别问题是指对过程或事件的分类和/或描述。过程或事件可以是物理上的物体或抽象的事件如精神状态。具有相似特点的过程或事件组成类别)。这个定义对模式识别的技术(分类、描述)和模式、类别都表达的非常明确。
综合模式识别认知、功能作用和计算原理等方面的特点,我们可以给出一个更加全面的定义:模式识别学科研究如何使机器(包括计算机)模拟人的感知功能,从环境感知数据中检测、识别和理解目标、行为、事件等模式。同时定义模式为数据中具有一定特点的目标、行为或事件,具有相似特点的模式组成类别(class, category)。单个模式又称为样本(sample)或样例(instance)。
报告内容组织
2018-2019年,模式识别国家重点实验室承担了中国科学院学部学科发展战略研究项目“模式识别发展战略研究”。鉴于过去60多年模式识别的理论方法和应用都产生了巨大进展,而在通信、传感和计算软硬件技术不断发展、应用场景渐趋复杂开放的新形势下,又面临很多新的理论和技术问题,本项目希望对模式识别领域的发展历史进行全面梳理,整理出至今在学术届或应用中产生了重大影响的主要研究进展,并且面向未来,提炼出具有重要理论价值或应用需求的值得研究的问题,供模式识别学术界参考,以期对未来基础研究和应用研究产生指导,产出具有重大理论价值或应用价值的研究成果。
实验室邀请国内本领域科研一线的研究者进行了多轮研讨交流,并经实验室内几十名研究人员撰写整理,提炼出模式识别领域过去50项重要研究进展和未来30项重要研究问题,分模式识别基础、计算机视觉、语音语言信息处理、模式识别应用技术四个方向分别介绍。
详细内容点击了解:
模式识别国家重点实验室简介
模式识别国家重点实验室筹建于1984年,1987年8月正式对外开放,同年12月通过国家验收,是由国家计委投资筹建的第一批国家重点实验室之一。实验室依托于中国科学院自动化研究所,第一任主任是马颂德研究员,第二任主任是谭铁牛院士,现任主任是刘成林研究员。
实验室以模式识别基础理论、图像处理与计算机视觉以及语音语言信息处理为主要研究方向,研究人类模式识别的机理以及有效的计算方法,为开发智能系统提供关键技术,为探求人类智力的本质提供科学依据。
实验室的定位和目标是“面向国际学科前沿,面向国家战略需求,面向国民经济主战场,开展模式识别领域的基础和应用基础研究,建设国际一流的科研团队,打造具有广泛影响力的模式识别领域国家公共研究平台,使其成为国内外著名的科学研究、技术创新和人才培养基地,推动和引领模式识别学科的发展,为我国信息技术等战略新兴产业发展提供知识、技术与人才储备”。
实验室首页: http://www.nlpr.ia.ac.cn/cn/
本文得到模式识别国家重点实验室(公众号: 模式识别国家重点实验室)授权发布
申明:本文发布的网站内容均不代表本号观点,本号旨在提供参考素材以便学习交流。
回放平台:
知网在线教学服务平台:
http://k.cnki.net/Room/Home/Index/181822
B站:
https://space.bilibili.com/27032291
往期目录:
汪荣贵——机器学习基本知识体系与入门方法
陈强——从Cell封面论文谈AI研究中的实验数据问题
石争浩——从先验到深度:低见度图像增强
行知论坛——南理工行知论坛&图图Seminar:智能画质增强专题
孙显——遥感图像智能分析:方法与应用
章国锋——视觉SLAM在AR应用上的关键性问题探讨
林宙辰——机器学习中优化算法前沿简介
白相志,冯朝路——“医学图像与人工智能”主题论坛
李雷达——以人为中心的图像感知评价:从质量到美学
汪荣贵——深度强化学习系列课程1-4讲
张明敏,郭诗辉——“人工智能与虚拟现实”主题论坛
高连如——高光谱遥感图像处理与信息提取
杨扬——“出身决定论”?看科研之路如何逆袭!
于仕琪——步态识别新动向:基于人体模型的方法与数据
CCF YOCSEF南京——深度学习可解释性论坛
看完微推意犹未尽?
快加入图图社区,更多资讯等着你
本文系《中国图象图形学报》转载稿件
内容仅供学习交流
版权属于原作者
欢迎大家关注转发!
编辑:秀 秀
指导:梧桐君
审校:夏薇薇
总编辑:肖 亮
声 明
欢迎转发本号原创内容,任何形式的媒体或机构未经授权,不得转载和摘编。授权请在后台留言“机构名称+文章标题+转载/转发”联系本号。转载需标注原作者和信息来源为《中国图象图形学报》。本号转载信息旨在传播交流,内容为作者观点,不代表本号立场。未经允许,请勿二次转载。如涉及文字、图片等内容、版权和其他问题,请于文章发出20日内联系本号,我们将第一时间处理。《中国图象图形学报》拥有最终解释权。