Mozilla发布开源语音数据库和语音识别模型

2017 年 12 月 1 日 Python程序员

如今,语音驱动的设备越来越强大,越来越贴近人们的生活。技术的进步使得语音类的接口越来越丰富,导致越来越多的在线产品能够“听”我们的话并做出响应了。



在Mozilla,我们对语音识别的潜力感到兴奋。我们相信这项技术能够并且也会带来一大波创新的产品和服务,并且它应该让所有人都触手可得。


截至目前,这项技术还在成熟过程中,想做出符合用户期望的创新还存在不小的壁垒。这些挑战促使我们启动了DeepSpeech项目和Common Voice项目。今天,在我们Mozilla机器学习小组,我们的语音识别项目都取得了里程碑式的成就。


我很兴奋地宣布,Mozilla正式开源自己的语音识别模型,这个语音识别模型能够达到人类对语音同等的识别水平。同时,我们还开源了世界上第二大的公共语音数据库,超过2万人对这个数据集做出了贡献。


一个接近用户预期性能的开源语音转文字引擎


市面上,符合商业使用标准的语音识别服务很有限,而且都掌握在少数的几个大公司手中。这使得其他公司和机构的选择很有限,而且能够开发的功能完全受制于大公司。


这就是为什么我们要开源DeepSpeech。与大量志同道合的社区开发者、研究员及公司一道,我们成功地应用复杂的机器学习技术,使用了大量的创新技术,构建了一个错词率只有6.5%的语音转文字引擎。这个数据是在LibriSpeech的测试数据集上测试得到的。


在我们今天公布的版本中,我们包含了Python版本的、NodeJS版本的和命令行二进制版本的预编译包,开发者可以使用它们直接试用语音识别功能。


构建世界上最多样化的公共语音数据库,持续优化语音识别技术


只有很少公司能够掌握语音识别技术,很大的原因是因为缺乏数据。创业公司、研究员、或者其他任何想构建语音技术的人,都需要有高质量、转录过的语音数据,才能训练机器学习算法。现在,他们能获取到的数据集非常有限。


为了解决这个障碍,我们去年七月份启动了Common Voice项目。我们的目标是让人们为公共语音数据库做出贡献变得更容易,并构建一个公共语音数据库,让每个开发者都有机会训练自己的语音驱动的应用。


今天,我们发布第一部分的公共语音:超过40万段录音,相当于500个小时的演讲。任何人都可以下载这份数据:https://voice.mozilla.org/data。


更重要的是我们的语音来源非常全球化,贡献者超过20000人,反应了全球各地不同的语音语调。通常来说,语音识别服务无法识别方言,而且大多数语音识别服务识别男性语音更准确,这些情况都是因为数据不全面导致的。我们希望大量的贡献者,和更全球化的分布,能创造出一个更全面的数据集,使得我们的语音识别服务对各种语音都能识别良好。


目前为止,我们主要做的是英语的数据库。从2018年上半年开始,我们会努力让我们的数据库涵盖更多的语言。


最后,由于我们也因为找不到很好的语音数据而苦恼过。所以,除了Common Voice中的数据以外,我们在发布包中还包含了很多其他可以使用的语音数据集的链接,方便您搜集使用。


我们的开放开发方式


我们Mozilla始终认为技术应该开放并且每个人都能学习使用,当然这也包含语音数据。我们开发这套技术的方式从一开始就是开放的,我们非常希望更多的贡献者和合作者能够和我们一起努力。


由于现在的Web网页已经不局限与2D页面了,现在我们已经可以用更加丰富的方式接入互联网了,比如VR、AR、语音。我们会坚持我们的使命,让互联网成为公共资源,开放可获取。


英文原文:https://blog.mozilla.org/blog/2017/11/29/announcing-the-initial-release-of-mozillas-open-source-speech-recognition-model-and-voice-dataset/

译者:诗书塞外

登录查看更多
3

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
知识图谱更新技术研究及其应用,复旦大学硕士论文
专知会员服务
103+阅读 · 2019年11月4日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
28 款 GitHub 最流行的开源机器学习项目(附地址)
七月在线实验室
4+阅读 · 2017年12月18日
搜狗推出唇语识别技术 提升远场语音交互
智东西
3+阅读 · 2017年12月14日
一文读懂语音识别史
机械鸡
9+阅读 · 2017年10月16日
Arxiv
10+阅读 · 2018年3月23日
Arxiv
5+阅读 · 2017年7月23日
VIP会员
相关VIP内容
知识图谱更新技术研究及其应用,复旦大学硕士论文
专知会员服务
103+阅读 · 2019年11月4日
相关资讯
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
28 款 GitHub 最流行的开源机器学习项目(附地址)
七月在线实验室
4+阅读 · 2017年12月18日
搜狗推出唇语识别技术 提升远场语音交互
智东西
3+阅读 · 2017年12月14日
一文读懂语音识别史
机械鸡
9+阅读 · 2017年10月16日
Top
微信扫码咨询专知VIP会员