快讯 | Facebook开源语音识别工具包wav2letter - 专知

会员服务 ·

0

快讯 | Facebook开源语音识别工具包wav2letter

2018 年 1 月 2 日 大数据文摘 文摘菌

今日凌晨，Facebook AI研究中心宣布开源语音识别工具包wav2letter！这是一款简单高效的端到端自动语音识别（ASR）系统，wav2letter 实现的是论文 Wav2Letter: an End-to-End ConvNet-based Speech Recognition System 和 Letter-Based Speech Recognition with Gated ConvNets 中提出的架构。

16年11月，Facebook的三位研究者Ronan Collobert, Christian Puhrsch, Gabriel Synnaeve在arXiv.org上发布文章，正式提出了wav2letter。

文章中研究者介绍，这是一个简单的端到端语音识别模型，结合了基于卷积网络的声学模型和图解码。其被训练输出文字，转录语音，而无需强制对齐音素。wav2letter还引入了一个自动的序列标注训练分割准则，而不需要与CTC一致的对齐方式，这种方式更简单。

项目代码已经发布至GitHub，如果你想直接开始进行语音转录，你可以使用同时被开源的预训练好的一些模型，前提是完成必要的安装。当然，目前能识别的只有英文语音哦！

开源代码GitHub链接：

https://github.com/facebookresearch/wav2letter

论文arXiv链接：

https://arxiv.org/abs/1609.03193

Facebook也发布了公开信介绍这一开源项目，包括该项目主要负责人Ronan Collobert、Facebook AI研究中心负责人Yann Lecan等在内的研究者都在推特上介绍了这一发布。

文摘菌摘录了部分公开信内容如下：

我们刚刚开源我们的语音识别工具：wav2letter！

代码地址：

https://github.com/facebookresearch/wav2letter

我们将其与在LibriSpeech语料库中预先训练的一些模型一起发布，支持我们的最新论文Letter-Based Speech Recognition with Gated ConvNets。

wav2letter是在Torch上编写的一个简单的工具包，简化了对端到端语音识别系统的训练，并提供了一个允许快速解码的独立解码器。

它使我们能够复现我们最近的3篇论文（详见参考资料）。

敬请期待我们的更多研究。

Gabriel Synnaeve，Vitaliy Liptchinsky，Neil Zeghidour和Christian Puhrsch。

更多参考资料：

语料库 LibriSpeech。

http://www.openslr.org/12

论文 Letter-Based Speech Recognition with Gated ConvNets。

https://arxiv.org/abs/1712.09444

论文 Wav2Letter: an End-to-End ConvNet-based Speech Recognition System。

https://arxiv.org/abs/1609.03193

论文 Learning Filterbanks from Raw Speech for Phone Recognition。

https://arxiv.org/abs/1711.01161

往期精彩文章

点击图片阅读

GPS脚环计步、AI“鸡”脸识别，如何确保自己吃到了一只幸福健康的鸡

登录查看更多

6

相关内容

语音识别

语音识别是计算机科学和计算语言学的一个跨学科子领域，它发展了一些方法和技术，使计算机可以将口语识别和翻译成文本。它也被称为自动语音识别（ASR），计算机语音识别或语音转文本（STT）。它整合了计算机科学，语言学和计算机工程领域的知识和研究。

【IJCAI2020-Facebook】利用弱标记数据对声音进行大规模的视听学习

【IJCAI2020-Facebook】利用弱标记数据对声音进行大规模的视听学习

专知会员服务

19+阅读 · 2020年6月3日

Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新ImageNet准确率

Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新ImageNet准确率

专知会员服务

36+阅读 · 2020年3月11日

【干货】机器学习经典书PRML 最新 Python 3 代码实现，附最全 PRML 笔记视频学习资料

【干货】机器学习经典书PRML 最新 Python 3 代码实现，附最全 PRML 笔记视频学习资料

专知会员服务

179+阅读 · 2020年3月3日

FB大牛撰文推介，PySlowFast！Facebook开源视频理解前沿算法代码库，视频SOTA技术全在这了！

FB大牛撰文推介，PySlowFast！Facebook开源视频理解前沿算法代码库，视频SOTA技术全在这了！

专知会员服务

65+阅读 · 2020年1月6日

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

专知会员服务

15+阅读 · 2019年11月13日

Python中文分词工具大合集：安装、使用和测试

Python中文分词工具大合集：安装、使用和测试

AINLP

11+阅读 · 2019年5月13日

最强CNN语音识别算法开源了：词错率5%，训练超快，Facebook出品

最强CNN语音识别算法开源了：词错率5%，训练超快，Facebook出品

量子位

19+阅读 · 2018年12月23日

开源自动语音识别系统wav2letter (附实现教程)

开源自动语音识别系统wav2letter (附实现教程)

七月在线实验室

10+阅读 · 2018年1月8日

机器翻译新时代：Facebook 开源无监督机器翻译模型和大规模训练语料

机器翻译新时代：Facebook 开源无监督机器翻译模型和大规模训练语料

机器学习研究会

12+阅读 · 2017年12月24日

业界 | Facebook开源TTS神经网络VoiceLoop：基于室外声音的语音合成（附PyTorch实现）

业界 | Facebook开源TTS神经网络VoiceLoop：基于室外声音的语音合成（附PyTorch实现）

机器之心

4+阅读 · 2017年9月5日

End-to-End Speech Recognition From the Raw Waveform

Arxiv

3+阅读 · 2018年6月19日

Speech waveform synthesis from MFCC sequences with generative adversarial networks

Arxiv

5+阅读 · 2018年4月3日

Unsupervised Neural Machine Translation

Arxiv

6+阅读 · 2018年2月26日

FSSD: Feature Fusion Single Shot Multibox Detector

Arxiv

8+阅读 · 2018年1月12日

Depth-Gated LSTM

Arxiv

4+阅读 · 2015年8月25日

VIP会员

相关主题

International Conference on Conceptual Modeling

相关VIP内容

【IJCAI2020-Facebook】利用弱标记数据对声音进行大规模的视听学习

【IJCAI2020-Facebook】利用弱标记数据对声音进行大规模的视听学习

专知会员服务

19+阅读 · 2020年6月3日

Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新ImageNet准确率

Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新ImageNet准确率

专知会员服务

36+阅读 · 2020年3月11日

【干货】机器学习经典书PRML 最新 Python 3 代码实现，附最全 PRML 笔记视频学习资料

【干货】机器学习经典书PRML 最新 Python 3 代码实现，附最全 PRML 笔记视频学习资料

专知会员服务

179+阅读 · 2020年3月3日

FB大牛撰文推介，PySlowFast！Facebook开源视频理解前沿算法代码库，视频SOTA技术全在这了！

FB大牛撰文推介，PySlowFast！Facebook开源视频理解前沿算法代码库，视频SOTA技术全在这了！

专知会员服务

65+阅读 · 2020年1月6日

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

专知会员服务

15+阅读 · 2019年11月13日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机系统 - 反无人机系统：测试方法》364页

《无人机蜂群攻击防御的预测建模：面向美军战备的人工智能轨迹预测与最优拦截策略设计》最新报告

美军低成本无人作战攻击系统（LUCAS）：扩大无人机战争规模

《将空中力量带向海洋：美国海军航空发展的四条竞争路径及其教训》报告

相关资讯

Python中文分词工具大合集：安装、使用和测试

Python中文分词工具大合集：安装、使用和测试

AINLP

11+阅读 · 2019年5月13日

最强CNN语音识别算法开源了：词错率5%，训练超快，Facebook出品

最强CNN语音识别算法开源了：词错率5%，训练超快，Facebook出品

量子位

19+阅读 · 2018年12月23日

开源自动语音识别系统wav2letter (附实现教程)

开源自动语音识别系统wav2letter (附实现教程)

七月在线实验室

10+阅读 · 2018年1月8日

机器翻译新时代：Facebook 开源无监督机器翻译模型和大规模训练语料

机器翻译新时代：Facebook 开源无监督机器翻译模型和大规模训练语料

机器学习研究会

12+阅读 · 2017年12月24日

业界 | Facebook开源TTS神经网络VoiceLoop：基于室外声音的语音合成（附PyTorch实现）

业界 | Facebook开源TTS神经网络VoiceLoop：基于室外声音的语音合成（附PyTorch实现）

机器之心

4+阅读 · 2017年9月5日

相关论文

End-to-End Speech Recognition From the Raw Waveform

Arxiv

3+阅读 · 2018年6月19日

Speech waveform synthesis from MFCC sequences with generative adversarial networks

Arxiv

5+阅读 · 2018年4月3日

Unsupervised Neural Machine Translation

Arxiv

6+阅读 · 2018年2月26日

FSSD: Feature Fusion Single Shot Multibox Detector

Arxiv

8+阅读 · 2018年1月12日

Depth-Gated LSTM

Arxiv

4+阅读 · 2015年8月25日

大家都在搜

大型语言模型

蓝牙安全攻防

朱克爱德华兹家族

冷启动，0预算，如何借助分销裂变引爆私域用户增长？

微信扫码咨询专知VIP会员