Mozilla发布开源语音数据库和语音识别模型

会员服务 ·

Mozilla发布开源语音数据库和语音识别模型

2017 年 12 月 1 日 Python程序员

如今，语音驱动的设备越来越强大，越来越贴近人们的生活。技术的进步使得语音类的接口越来越丰富，导致越来越多的在线产品能够“听”我们的话并做出响应了。

在Mozilla，我们对语音识别的潜力感到兴奋。我们相信这项技术能够并且也会带来一大波创新的产品和服务，并且它应该让所有人都触手可得。

截至目前，这项技术还在成熟过程中，想做出符合用户期望的创新还存在不小的壁垒。这些挑战促使我们启动了DeepSpeech项目和Common Voice项目。今天，在我们Mozilla机器学习小组，我们的语音识别项目都取得了里程碑式的成就。

我很兴奋地宣布，Mozilla正式开源自己的语音识别模型，这个语音识别模型能够达到人类对语音同等的识别水平。同时，我们还开源了世界上第二大的公共语音数据库，超过2万人对这个数据集做出了贡献。

一个接近用户预期性能的开源语音转文字引擎

市面上，符合商业使用标准的语音识别服务很有限，而且都掌握在少数的几个大公司手中。这使得其他公司和机构的选择很有限，而且能够开发的功能完全受制于大公司。

这就是为什么我们要开源DeepSpeech。与大量志同道合的社区开发者、研究员及公司一道，我们成功地应用复杂的机器学习技术，使用了大量的创新技术，构建了一个错词率只有6.5%的语音转文字引擎。这个数据是在LibriSpeech的测试数据集上测试得到的。

在我们今天公布的版本中，我们包含了Python版本的、NodeJS版本的和命令行二进制版本的预编译包，开发者可以使用它们直接试用语音识别功能。

构建世界上最多样化的公共语音数据库，持续优化语音识别技术

只有很少公司能够掌握语音识别技术，很大的原因是因为缺乏数据。创业公司、研究员、或者其他任何想构建语音技术的人，都需要有高质量、转录过的语音数据，才能训练机器学习算法。现在，他们能获取到的数据集非常有限。

为了解决这个障碍，我们去年七月份启动了Common Voice项目。我们的目标是让人们为公共语音数据库做出贡献变得更容易，并构建一个公共语音数据库，让每个开发者都有机会训练自己的语音驱动的应用。

今天，我们发布第一部分的公共语音：超过40万段录音，相当于500个小时的演讲。任何人都可以下载这份数据：https://voice.mozilla.org/data。

更重要的是我们的语音来源非常全球化，贡献者超过20000人，反应了全球各地不同的语音语调。通常来说，语音识别服务无法识别方言，而且大多数语音识别服务识别男性语音更准确，这些情况都是因为数据不全面导致的。我们希望大量的贡献者，和更全球化的分布，能创造出一个更全面的数据集，使得我们的语音识别服务对各种语音都能识别良好。

目前为止，我们主要做的是英语的数据库。从2018年上半年开始，我们会努力让我们的数据库涵盖更多的语言。

最后，由于我们也因为找不到很好的语音数据而苦恼过。所以，除了Common Voice中的数据以外，我们在发布包中还包含了很多其他可以使用的语音数据集的链接，方便您搜集使用。

我们的开放开发方式

我们Mozilla始终认为技术应该开放并且每个人都能学习使用，当然这也包含语音数据。我们开发这套技术的方式从一开始就是开放的，我们非常希望更多的贡献者和合作者能够和我们一起努力。

由于现在的Web网页已经不局限与2D页面了，现在我们已经可以用更加丰富的方式接入互联网了，比如VR、AR、语音。我们会坚持我们的使命，让互联网成为公共资源，开放可获取。

英文原文：https://blog.mozilla.org/blog/2017/11/29/announcing-the-initial-release-of-mozillas-open-source-speech-recognition-model-and-voice-dataset/

译者：诗书塞外

登录查看更多