语音信号处理以语音为研究对象,涉及心理学、生理学、语言学、数字信号处理、模式识别、人工智能、机器学习等多项研究领域,甚至还涉及到说话时表情、手势等人的体态语言信息。由于语音是人们日常生活中的主要交流手段,因此语音信号处理在现代信息社会中占有重要地位。
语音信号处理的研究工作最早可以追溯到19世纪70年代,在20世纪得到了长足的发展,并在20世纪90年代,随着IBM、Microsoft、Apple、AT&T、NTT等著名公司为语音识别的实用化开发投以巨资,掀起了语音信号处理技术的应用热潮。进入21世纪,伴随着以深度神经网络为代表的深度学习理论的全面突破、以通用图形处理器GPU为代表的硬件技术的迅猛发展,使得语音识别的性能显著提高,从而迎来了语音信号处理技术的蓬勃发展时期。
目前语音信号处理领域中不断有新的技术涌现。本书再版的目的就是要将这些新的技术融合到上一版已有的相关理论与技术中。全书以语音信号处理过程的总体框架为线索,全面阐述语音信号的前端处理技术、语音编码技术、语音识别和说话人识别技术,以及语音合成技术。相对于上一版,本版补充了基于深度学习的语音识别、基于i-vector的说话人识别等本领域的前沿理论和技术,以利于读者充分了解最新的学术发展动态,在学术思想上受到一些启发。同时,书中也介绍了当前深度学习方法中广泛采用的Kaldi工具的使用技巧,以帮助读者掌握相关的实践手段。
本书的内容涉及作者承担的多项国家自然科学基金项目的部分研究成果,既注重基本理论的系统性,又兼顾注重内容的实用性和可读性。可作为高等院校计算机应用、信号与信息处理、通信与电子系统等专业及学科的高年级本科生、研究生教材,也可供该领域的科研及工程技术人员参考。
本书的第1、2、4章由韩纪庆编写,3、6、9章由张磊编写,5、7、8章由郑铁然编写。韩纪庆负责全书的总体安排和审定。在新版增加的内容中,郑铁然在基于深度学习的语音识别部分、陈晨在说话人识别部分、史秋莹在Kaldi工具部分的撰写上作出了重要贡献。郑贵滨为书稿的完善做了大量工作,在此表示感谢!
本书虽然是作者从事语音信号处理工作三十年的理论与实践的结晶,但因作者水平有限、时间仓促,缺点和错误在所难免,敬请读者批评指正,提出宝贵意见。
作者
于哈尔滨工业大学
本期责任编辑:丁效
本期编辑:孙卓
“哈工大SCIR”公众号
主编:车万翔
副主编: 张伟男,丁效
责任编辑: 张伟男,丁效,刘一佳,崔一鸣
编辑: 李家琦,吴洋,刘元兴,蔡碧波,孙卓,赖勇魁
长按下图并点击 “识别图中二维码”,即可关注哈尔滨工业大学社会计算与信息检索研究中心微信公共号:”哈工大SCIR” 。