最强CNN语音识别算法开源了：词错率5%，训练超快，Facebook出品

会员服务 ·

最强CNN语音识别算法开源了：词错率5%，训练超快，Facebook出品

2018 年 12 月 23 日 量子位

夏乙发自麦蒿寺
量子位出品 | 公众号 QbitAI

第一个全卷积语音识别工具包wav2letter++开源了。

出品方Facebook称之为现有“最快的、顶尖水平的”语音识别系统。

抛开广告法不谈，我们来全面了解一下wav2letter++，看看Facebook哪来的勇气口出狂言。

wav2letter++由Facebook AI研究院（FAIR）的语音团队推出，以C++写成，使用了ArrayFire张量库和flashlight机器学习库。

Facebook还说，它是第一个完全由C++写成的语音识别系统，也是第一个全卷积语音识别系统。

所谓“全卷积”，指的是wav2letter++在从声波到文本的处理过程中，所有可学习的部件都是由卷积层构成的，声音建模、语言建模任务全部由CNN完成。

一般来说，在声音和语言建模任务上，循环网络架构才是更常用的。不过，CNN构成的wav2letter++在性能上也不输那些RNN模型。

Facebook团队在论文中，将他们的wav2letter++和其他主流开源语音识别系统做了比较。

他们说，某些情况下，wav2letter++训练语音识别端到端神经网络速度是其他框架2倍还多，而且用1亿个参数的模型测试，使用从1到64个GPU，训练时间是线性变化的。

其实，wav2letter++还有个不带加号的前身，叫做wav2letter，用Lua语言写成。现在，新版占用了原版的GitHub仓库地址，而原来的wav2letter被放到了wav2letter-lua分支下。

想要复现wav2letter++也不难。因为它使用的机器学习库flashlight也同时开源了。这个机器学习库用现代的C++即时编译，CPU、GPU都可用，以求效率和规模的最大化。

最后，附上传送门~

GitHub地址：

https://github.com/facebookresearch/wav2letter

论文：

wav2letter++: The Fastest Open-source Speech Recognition System
Vineel Pratap, Awni Hannun, Qiantong Xu, Jeff Cai, Jacob Kahn, Gabriel Synnaeve, Vitaliy Liptchinsky, Ronan Collobert

https://arxiv.org/pdf/1812.07625.pdf

作者系网易新闻·网易号“各有态度”签约作者

— 完 —

加入社群

量子位AI社群开始招募啦，欢迎对AI感兴趣的同学，在量子位公众号（QbitAI）对话界面回复关键字“交流群”，获取入群方式；

此外，量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募，面向正在从事相关领域的工程师及研究人员。

进专业群请在量子位公众号（QbitAI）对话界面回复关键字“专业群”，获取入群方式。（专业群审核较严，敬请谅解）

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

好看吗？↘↘↘

登录查看更多

相关内容

语音识别

关注 753

语音识别是计算机科学和计算语言学的一个跨学科子领域，它发展了一些方法和技术，使计算机可以将口语识别和翻译成文本。它也被称为自动语音识别（ASR），计算机语音识别或语音转文本（STT）。它整合了计算机科学，语言学和计算机工程领域的知识和研究。

谷歌推出量子机器学习框架TFQ-TensorFlow Quantum，一个可训练量子模型的机器学习框架

专知会员服务

34+阅读 · 2020年3月10日

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

专知会员服务

51+阅读 · 2020年2月16日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知会员服务

45+阅读 · 2020年2月12日

FB大牛撰文推介，PySlowFast！Facebook开源视频理解前沿算法代码库，视频SOTA技术全在这了！

专知会员服务

65+阅读 · 2020年1月6日

【Google AI新论文EfficientDet】规模化高效化的物体检测，EfficientDet: Scalable and Efficient Object Detection(附pdf)

专知会员服务

27+阅读 · 2019年11月24日

性能超越经典ASR模型！谷歌重磅推出全新语音识别数据增强方法

AI前线

10+阅读 · 2019年4月28日

吴恩达《机器学习训练秘籍》完整中文版，现在可免费下载 | 资源

量子位

9+阅读 · 2018年10月24日

开源自动语音识别系统wav2letter (附实现教程)

七月在线实验室

10+阅读 · 2018年1月8日

快讯 | Facebook开源语音识别工具包wav2letter

大数据文摘

6+阅读 · 2018年1月2日

机器翻译新时代：Facebook 开源无监督机器翻译模型和大规模训练语料

专知

5+阅读 · 2017年12月23日

Remedying BiLSTM-CNN Deficiency in Modeling Cross-Context for NER

Arxiv

3+阅读 · 2019年8月29日

Sample Efficient Adaptive Text-to-Speech

Arxiv

7+阅读 · 2018年9月27日

Planar Object Tracking in the Wild: A Benchmark

Arxiv

5+阅读 · 2018年5月22日

Fast Feature Extraction with CNNs with Pooling Layers

Arxiv

5+阅读 · 2018年5月8日

Mask R-CNN

Arxiv

7+阅读 · 2018年1月24日

VIP会员