三连冠！科大讯飞夺国际多通道语音分离和识别大赛CHiME-6冠军

会员服务 ·

三连冠！科大讯飞夺国际多通道语音分离和识别大赛CHiME-6冠军

2020 年 5 月 7 日 AI科技评论

作者 | 京枚

编辑 | 贾伟

连续第三次夺冠！

5月4日，国际多通道语音分离和识别大赛（CHiME）组委会在线揭晓最新一届CHiME-6成绩：科大讯飞联合中科大语音及语言信息处理国家工程实验室（USTC-NELSLIP）在给定说话人边界的多通道语音识别两个参赛任务上夺冠。

自2016年以来，科大讯飞第三次参加这项国际竞赛，并连续夺冠，这次的语音识别错误率从CHiME-5的46.1%降至30.5%。

科大讯飞夺得CHiME-6冠军（Track1:Ranking A）

科大讯飞夺得CHiME-6冠军（Track1:Ranking B）

1、“史上最难”语音识别任务

CHiME(Computational Hearing in Multisource Environments)由法国计算机科学与自动化研究所、英国谢菲尔德大学、美国三菱电子研究实验室等知名研究机构所于2011年发起，今年是第六届，比赛的目的是希望学术界和工业界针对高噪声、高混响、自由讨论场景提出全新的语音识别解决方案，从而进一步提升语音识别的实用性和普适性。

CHiME-6被称为“史上最难的语音识别任务”，TA有四大难点：

大量的语音交叠（Speech Overlap）
远场混响和噪声干扰对录音的影响
对话风格非常自由、近乎随意
训练数据有限

比赛极具挑战，参赛团队也大牛如云。历届CHiME比赛的参赛队伍包括英国剑桥大学、美国卡内基梅隆大学、约翰霍普金斯大学、日本NTT、日立中央研究院、德国RWTH亚琛大学、帕德博恩大学、捷克布尔诺理工大学等国际一流高校和研究机构，以及清华大学、中国科学院大学、中科院声学所、中科院自动化所、西北工业大学等国内顶尖院校和研究所。而在CHiME-6中，美国的约翰霍普金斯大学、俄罗斯STC公司、德国帕德博恩大学、捷克布尔诺理工大学等知名学术机构及企业均有参赛。

2、一年半，错误率从46.1%降至30.5%

本次CHiME-6和CHiME-5比赛使用的语音素材相同，即在多个不同的生活场景——包括多人在厨房边做饭边聊天、在起居室边用餐边聊天、在客厅聊天，聊天的声音中包括远场、混响、噪音、语音叠加等各种复杂因素，因而技术难度极大。

本次比赛的Track1任务与CHiME-5相同，即在给定说话人边界的情况下重点考察参赛团队的多通道信号处理能力及复杂场景语音识别能力。另外，本次比赛新设了Track2任务，该任务要求参赛机构在自动说话人分离的基础上再进行语音识别。

（CHiME-6音频样本采集于厨房、起居室、客厅等场景的多人对话）

2018年的CHiME-5比赛，科大讯飞联合中科大语音及语言信息处理国家工程实验室杜俊教授团队（USTC-NELSLIP）斩获了四个比赛项目的全部冠军。

然而，当年最优的参赛系统语音识别错误率仍高达46.1%，距离实用仍有较大差距，所以，今年USTC-NELSLIP联合团队重点聚焦于Track1，希望进一步探索复杂场景语音识别实用化的可能性。

通过团队的技术攻关，将该任务上的语音识别错误率从原来的46.1%降至30.5%，大幅刷新该项赛事历史最好成绩，进一步拉大领先优势，最终在Track1的两个子任务（Track1-Ranking A，需使用官方语言模型；Track1-Ranking B，不限制语言模型）上均斩获冠军。

3、语音识别技术稳踞世界领先水平

面对同样的“考题”，CHiME-6成绩大幅跃升，靠什么？

这得益于多年来在真实场景中的技术积累，USTC-NELSLIP联合团队针对比赛任务进行了一系列技术创新。

在前端信号处理方面 ，联合团队提出了基于空间-说话人同步感知的迭代掩码估计算法(Spatial-and-Speaker-Aware Iterative Mask Estimation, SSA-IME)，该算法结合传统信号处理和深度学习的优点，利用空时多维信息进行建模，迭代的从多个说话人场景中精确捕捉目标说话人的信息。该算法不仅有效降低环境干扰噪声，而且可以有效消除干扰说话人的语音，从而大幅降低语音识别的处理难度。

在后端声学模型上 ，联合团队提出了基于空间-说话人同步感知的声学模型(Spatial-and-Speaker-Aware Acoustic Model, SSA-AM)，通过在声学模型输入端拼接多维度空间信息和不同说话人信息，使其能自适应区分目标说话人和干扰说话人。因此，声学模型不仅依赖前端算法的处理结果，也能够自适应完成对目标说话人语音特征的提取，大幅提升多人对话场景下语音识别声学模型的容错率和鲁棒性。

回顾2018年组委会发布CHiME-5数据集，官方的基线系统错误率高达73.3%，USTC-NELSLIP联合团队通过不断进行技术创新，逐步刷新最好成绩。这充分说明，在远场、混响、噪音、声音叠加、语言风格随意等诸多不确定性的复杂场景下，USTC-NELSLIP联合团队的技术积累一直处于世界领先水平。

4、会议场景的得力助手

科大讯飞长期致力于智能语音技术的源头创新及产业化应用，并不断挑战语音识别实际应用中的技术难题。

2010年发布语音云，持续改善语音输入、语音交互场景的准确率，2015年发布讯飞听见，逐步提升人人对话场景的准确率。

本次CHiME-6的研究成果无疑将进一步拓展语音识别的应用空间。例如，在远距离会议场景，相比于CHiME-6的比赛任务，其说话风格随意性减少、语音叠加现象减少、训练数据大幅增加，错误率势必大幅下降，因而，本次比赛的技术成果无疑将进一步增促进会议场景语音识别的实用化。

2019年联合国教科文组织（UNESCO）在法国举办的“人工智能促进可持续发展”会议、在瑞士举办的2019信息社会世界高峰会议（WSIS）论坛、2019年全国两会等重大国际及国内会议现场均使用了讯飞听见智能会议系统提供的英文及中文转写服务，而这背后，就是科大讯飞积累多年的语音识别核心源头人工智能技术。

基于核心源头技术优势，去年9月份，科大讯飞正式成为北京2022年冬奥会和冬残奥会官方自动语音转换与翻译独家供应商，为奥运会提供自动语音转换与翻译技术和服务。如今，讯飞听见智能会议系统已成为国内外大型会议的得力助手，仅2019年就服务了国内外2000多场高规格大会。

除了讯飞听见智能会议系统，在实际的应用场景中，科大讯飞的语音识别和多麦克风阵列信号处理技术还广泛应用在不同的C端产品和服务中，比如搭载八麦克风阵列的讯飞智能录音笔、能完整记录会议内容的讯飞智能办公本、月活1.4亿且能免切换识别中英文及23种方言的讯飞输入法等，这些办公和生活应用已触手可达，为广大用户解决不同场景下的语音识别需求。

5、为全球提供多语种智能语音解决方案

获得国际多通道语音分离和识别大赛（CHiME）三连冠，表明科大讯飞不仅在中文语音识别领域长期保持领先地位，在英文语音识别领域同样有着深厚的功底。

目前，科大讯飞正在大力拓展多语种语音识别方面的技术研究，有望为全球更多企业及消费者提供优质的多语种智能语音解决方案。