如今,语音驱动的设备越来越强大,越来越贴近人们的生活。技术的进步使得语音类的接口越来越丰富,导致越来越多的在线产品能够“听”我们的话并做出响应了。
在Mozilla,我们对语音识别的潜力感到兴奋。我们相信这项技术能够并且也会带来一大波创新的产品和服务,并且它应该让所有人都触手可得。
截至目前,这项技术还在成熟过程中,想做出符合用户期望的创新还存在不小的壁垒。这些挑战促使我们启动了DeepSpeech项目和Common Voice项目。今天,在我们Mozilla机器学习小组,我们的语音识别项目都取得了里程碑式的成就。
我很兴奋地宣布,Mozilla正式开源自己的语音识别模型,这个语音识别模型能够达到人类对语音同等的识别水平。同时,我们还开源了世界上第二大的公共语音数据库,超过2万人对这个数据集做出了贡献。
一个接近用户预期性能的开源语音转文字引擎
市面上,符合商业使用标准的语音识别服务很有限,而且都掌握在少数的几个大公司手中。这使得其他公司和机构的选择很有限,而且能够开发的功能完全受制于大公司。
这就是为什么我们要开源DeepSpeech。与大量志同道合的社区开发者、研究员及公司一道,我们成功地应用复杂的机器学习技术,使用了大量的创新技术,构建了一个错词率只有6.5%的语音转文字引擎。这个数据是在LibriSpeech的测试数据集上测试得到的。
在我们今天公布的版本中,我们包含了Python版本的、NodeJS版本的和命令行二进制版本的预编译包,开发者可以使用它们直接试用语音识别功能。
构建世界上最多样化的公共语音数据库,持续优化语音识别技术
只有很少公司能够掌握语音识别技术,很大的原因是因为缺乏数据。创业公司、研究员、或者其他任何想构建语音技术的人,都需要有高质量、转录过的语音数据,才能训练机器学习算法。现在,他们能获取到的数据集非常有限。
为了解决这个障碍,我们去年七月份启动了Common Voice项目。我们的目标是让人们为公共语音数据库做出贡献变得更容易,并构建一个公共语音数据库,让每个开发者都有机会训练自己的语音驱动的应用。
今天,我们发布第一部分的公共语音:超过40万段录音,相当于500个小时的演讲。任何人都可以下载这份数据:https://voice.mozilla.org/data。
更重要的是我们的语音来源非常全球化,贡献者超过20000人,反应了全球各地不同的语音语调。通常来说,语音识别服务无法识别方言,而且大多数语音识别服务识别男性语音更准确,这些情况都是因为数据不全面导致的。我们希望大量的贡献者,和更全球化的分布,能创造出一个更全面的数据集,使得我们的语音识别服务对各种语音都能识别良好。
目前为止,我们主要做的是英语的数据库。从2018年上半年开始,我们会努力让我们的数据库涵盖更多的语言。
最后,由于我们也因为找不到很好的语音数据而苦恼过。所以,除了Common Voice中的数据以外,我们在发布包中还包含了很多其他可以使用的语音数据集的链接,方便您搜集使用。
我们的开放开发方式
我们Mozilla始终认为技术应该开放并且每个人都能学习使用,当然这也包含语音数据。我们开发这套技术的方式从一开始就是开放的,我们非常希望更多的贡献者和合作者能够和我们一起努力。
由于现在的Web网页已经不局限与2D页面了,现在我们已经可以用更加丰富的方式接入互联网了,比如VR、AR、语音。我们会坚持我们的使命,让互联网成为公共资源,开放可获取。
英文原文:https://blog.mozilla.org/blog/2017/11/29/announcing-the-initial-release-of-mozillas-open-source-speech-recognition-model-and-voice-dataset/
译者:诗书塞外