【微软语音识别新突破,错误率降至5.1%】黄学东:新的行业里程碑

2017 年 8 月 21 日 新智元



1新智元编译 

来源:microsoft.com

作者:黄学东,Technical Fellow, Microsoft


【新智元导读】微软语音识别系统取得最新突破:微软的语音对话研究小组在Switchboard语音识别任务中,将错误率从去年的 5.9% 再一次降低到 5.1%,达到目前最先进水平。




去年,微软的语音与对话研究小组宣布在Switchboard 对话语音识别任务上达到人类水平,实现里程碑式的突破。


微软技术Fellow黄学东在微软官方博客上称,这意味着,他们创造了一种技术,可以在对话中识别词语,且与人类专业的速记员水平相当。


黄学东在博客上说:“在我们的转录系统达到5.9%的错误率之后,其他研究人员进行了自己的研究,采用了更多参与的多转录程序,将错误率降低至5.1%。今天,我很高兴地宣布,我们的研究团队通过我们的语音识别系统达到了5.1%的错误率,这是一个新的行业里程碑,大大超过了去年实现的准确性。本周末发布的技术报告记录了我们系统的细节。”


以下是微软官方博客的介绍:


Switchboard 是一个电话通话录音语料库,这种语料库用于语音识别系统的研究已经超过20年了。任务包括转写陌生人之间的话题讨论,比如关于体育或政治话题的对话。 我们对基于神经网络的语音和语言模型做了一系列改进,和去年的精确度相比,错误率大大降低。


我们又为改进语音模型引入了 CNN-BLSTM(convolutional neural network combined with bidirectional long-short-term memory)。另外,我们现在在 frame/senone 和词语层面都使用了结合多个声学模型的预测的方法。 此外,我们通过使用整个对话过程来加强识别器的语言模型,以预测接下来可能发生的事情,使得模型有效地适应了对话的话题和语境。


我们的团队使用最可扩展的深度学习软件Microsoft Cognitive Toolkit 2.1(CNTK),用于探索模型架构和优化我们的模型的超参数。此外,微软对云计算基础设施(特别是Azure GPU)的投资,也有助于提高我们训练模型并测试新想法的有效性和速度。


达到人类水平精度,能够与人类对话,是过去25年来微软的研究目标。微软对长期研究的投入,已经在诸如Cortana,演示文稿转换器(Presentation Translator)和Microsoft认知服务等产品和服务上见到了成效。我们的研究团队非常高兴地看到,每天都有数百万在使用的我们工作成果。



工业界和学术界已经有许多研究团队在语音识别方面做得很好,我们的工作从研究社区整体的进步中获益良多。虽然在 Switchboard 语音识别任务上实现5.1%的词汇错误率是一项重大的成果,但语言研究领域仍然面临许多挑战,例如在嘈杂环境下较远的麦克风的语音识别,识别方言,或训练数据有限的特定说话风格或较少人使用的语言的语音识别,这些都仍未达到人类水平。此外,我们在教计算机不仅是转录口语,而且要了解话语的意义和意图方面仍有很多工作要做。从识别语音到理解话语,是语音技术的下一个主要挑战。


微软语音识别最新技术报告:https://www.microsoft.com/en-us/research/wp-content/uploads/2017/08/ms_swbd17-2.pdf


编译来源:

https://www.microsoft.com/en-us/research/blog/microsoft-researchers-achieve-new-conversational-speech-recognition-milestone/



登录查看更多
0

相关内容

黄学东博士是微软人工智能事业部门全球资深技术院士/Technical Fellow。目前领导包括微软在美国、中国、德国、以色列的全球团队负责研发微软企业人工智能认知服务等最新人工智能产品和技术。作为微软首席语音科学家,他领导的语音和对话研究团队在 2016 年取得了历史性的可以和人媲美的语音识别里程碑。
【北航】面向自然语言处理的预训练技术研究综述
专知会员服务
113+阅读 · 2020年4月23日
专知会员服务
200+阅读 · 2020年3月6日
IBM《人工智能白皮书》(2019版),12页PDF,IBM编
专知会员服务
21+阅读 · 2019年11月8日
百度研究院|2020年10大人工智能科技趋势
专知
7+阅读 · 2019年12月24日
对话黄学东:语音语言技术是镶在 AI 皇冠上的明珠
微软研究院AI头条
7+阅读 · 2019年5月17日
媲美人类对话水平!微软最新NLP模型3项评分全面超越人类水平!
机器学习算法与Python学习
8+阅读 · 2019年5月4日
快讯 | Facebook开源语音识别工具包wav2letter
大数据文摘
6+阅读 · 2018年1月2日
Mozilla发布开源语音数据库和语音识别模型
Python程序员
3+阅读 · 2017年12月1日
一文读懂语音识别史
机械鸡
9+阅读 · 2017年10月16日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Feature Denoising for Improving Adversarial Robustness
Arxiv
15+阅读 · 2018年12月9日
Adversarial Transfer Learning
Arxiv
12+阅读 · 2018年12月6日
CoQA: A Conversational Question Answering Challenge
Arxiv
7+阅读 · 2018年8月21日
QuAC : Question Answering in Context
Arxiv
4+阅读 · 2018年8月21日
Arxiv
10+阅读 · 2018年2月17日
Arxiv
11+阅读 · 2018年1月15日
VIP会员
相关资讯
百度研究院|2020年10大人工智能科技趋势
专知
7+阅读 · 2019年12月24日
对话黄学东:语音语言技术是镶在 AI 皇冠上的明珠
微软研究院AI头条
7+阅读 · 2019年5月17日
媲美人类对话水平!微软最新NLP模型3项评分全面超越人类水平!
机器学习算法与Python学习
8+阅读 · 2019年5月4日
快讯 | Facebook开源语音识别工具包wav2letter
大数据文摘
6+阅读 · 2018年1月2日
Mozilla发布开源语音数据库和语音识别模型
Python程序员
3+阅读 · 2017年12月1日
一文读懂语音识别史
机械鸡
9+阅读 · 2017年10月16日
相关论文
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Feature Denoising for Improving Adversarial Robustness
Arxiv
15+阅读 · 2018年12月9日
Adversarial Transfer Learning
Arxiv
12+阅读 · 2018年12月6日
CoQA: A Conversational Question Answering Challenge
Arxiv
7+阅读 · 2018年8月21日
QuAC : Question Answering in Context
Arxiv
4+阅读 · 2018年8月21日
Arxiv
10+阅读 · 2018年2月17日
Arxiv
11+阅读 · 2018年1月15日
Top
微信扫码咨询专知VIP会员