Kaldi拜拜!PyTorch语音工具包SpeechBrain要来了,支持多种语音任务,实现最强水准

2019 年 9 月 12 日 量子位
郭一璞 假装发自 蒙特利尔 
量子位 报道 | 公众号 QbitAI

你厌倦语音工具包Kaldi了么?有没有觉得它不好用?

加拿大也有一群人这么认为。

现在,图灵奖得主、AI三巨头之一Yoshua Bengio领衔的研究机构Mila宣布,要联合英伟达、杜比、三星、PyTorch官方、IBM AI研究院等公司和机构,做一个新的开源一体化语音工具包:SpeechBrain

这个工具包将会非常全能,能用来做语音识别(end-to-end & HMM-DNN)、说话人识别、语音分离,多麦克风信号处理(beamforming)、自我监督和无监督学习、语音增强等任务。

SpeechBrain会建立在PyTorch上,并且和PyTorch官方合作,所有功能都在PyTorch中实现,当然,用的是Python,不是C++。

并且,SpeechBrain将会设计成一个独立的框架,会有Kaldi这类常用的工具包的接口。

其他工具包不完美

准备做这样一个工具包的初衷,是因为别家的语音工具包都不好用。

蒙特利尔大学博士后Mirco Ravanelli在SpeechBrain的官方视频里,把竞对统统吐槽了一遍:

Kaldi,虽然非常高效,表现也好,但是忒难用,不灵活,总得改C++代码;

PyKaldi,虽然用上了机器学习界宠儿Python,但本质上跟Kaldi还是一回事嘛;

PyTorch-Kaldi,虽然灵活了一些,声学模型也易于修改,但是,跟前面一样,它也还是Kaldi呀;

ESPNET,虽然是基于Python和PyTorch的,但是只支持端到端语音识别,太不全面了;

因此,Mirco Ravanelli说,将会把SpeechBrain设计成一个易用、用户友好、端到端的工具包,支持多任务系统,帮助大家提升研究和开发的效率,会是单一的工具包,而不是一堆各种各样的工具,并且实现state-of-the-art的语音技术水平。

另外,他们还会建设SpeechBrain的用户社区,让大家一起来分享模型技术和经验。

业界热烈欢迎

有人觉得,Kaldi那么难用,总算有人要出新的取代它了:

甚至Kaldi的铁杆粉丝也觉得需要更灵活的工具来代替它:

还有人称赞,这就是语音界的ImageNet时刻:

总之,如果SpeechBrain真的如预期一样诞生,那么Kaldi可能真的要吃灰了。

传送门

最后,SpeechBrain项目也在招实习生,如果有蒙特利尔的读者可以围观一下。

另外,如果你要去参加下周的interspeech,可以听到更多消息。

项目官网:
https://speechbrain.github.io/


加入社群 | 与优秀的人交流

小程序 | 全类别AI学习教程


量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !



登录查看更多
10

相关内容

一网打尽!100+深度学习模型TensorFlow与Pytorch代码实现集合
【资源】PyTorch上方便好用的元学习工具包
专知
17+阅读 · 2019年9月18日
各种NLP操作难实现?谷歌开源序列建模框架Lingvo
机器之心
4+阅读 · 2019年2月26日
Mask R-CNN官方实现“又”来了!基于PyTorch,训练速度是原来2倍
机器学习算法与Python学习
5+阅读 · 2018年10月26日
开源自动语音识别系统wav2letter (附实现教程)
七月在线实验室
9+阅读 · 2018年1月8日
2017年四巨头的深度学习框架之战,你支持谁?
全球人工智能
6+阅读 · 2017年12月29日
Mozilla发布开源语音数据库和语音识别模型
Python程序员
3+阅读 · 2017年12月1日
Arxiv
6+阅读 · 2020年4月14日
Arxiv
5+阅读 · 2019年4月8日
Arxiv
5+阅读 · 2018年5月22日
VIP会员
相关VIP内容
一网打尽!100+深度学习模型TensorFlow与Pytorch代码实现集合
相关资讯
【资源】PyTorch上方便好用的元学习工具包
专知
17+阅读 · 2019年9月18日
各种NLP操作难实现?谷歌开源序列建模框架Lingvo
机器之心
4+阅读 · 2019年2月26日
Mask R-CNN官方实现“又”来了!基于PyTorch,训练速度是原来2倍
机器学习算法与Python学习
5+阅读 · 2018年10月26日
开源自动语音识别系统wav2letter (附实现教程)
七月在线实验室
9+阅读 · 2018年1月8日
2017年四巨头的深度学习框架之战,你支持谁?
全球人工智能
6+阅读 · 2017年12月29日
Mozilla发布开源语音数据库和语音识别模型
Python程序员
3+阅读 · 2017年12月1日
Top
微信扫码咨询专知VIP会员