TiramisuASR:用TensorFlow实现的语音识别引擎

2020 年 8 月 1 日 专知

【导读】TiramisuASR实现了一些语音识别和语音增强架构,例如基于CTC的模型,语音增强生成对抗网络(SEGAN),RNN换能器(Conformer等)。这些模型可以转换为TFLite,以减少部署所需的内存和计算量。


Github地址:

https://github.com/usimarit/TiramisuASR


支持的模型:

  • CTCModel (End2end models using CTC Loss for training)

  • SEGAN (Refer to https://github.com/santi-pdp/segan), see examples/segan

  • Transducer Models (End2end models using RNNT Loss for training)

  • Conformer Transducer (Reference: https://arxiv.org/abs/2005.08100) See examples/conformer

安装要求:

  • Ubuntu distribution (ctc-decoders and semetrics require some packages from apt)

  • Python 3.6+

  • Tensorflow 2.2+: pip install tensorflow

配置安装环境与数据集

运行CTC模型:./scripts/install_ctc_decoders.sh

运行Transducer./scripts/install_rnnt_loss.sh

运行SEGAN./scripts/install_semetrics.sh

安装TensorFlow:pip3 install tensorflow

安装库:python3 setup.py install

清理环境(移去/build文件夹下内容):python3 setup.py clean --all


特征提取

特征提取部分分为语音特征提取与文本特征提取。

语音特征包括冲信号中得到的sample_rateframe_msstride_ms 

与 num_feature_bins.

语音特征的大小为(B, T, num_feature_bins, num_channels).

文本特征从tiramisu_asr.featurizers.english.txt读入。


数据集

  1. VIVOS: 15小时

    https://ailab.hcmus.edu.vn/vivos

  2. InfoRe Technology 1: 25小时,单人

    Person https://files.huylenguyen.com/datasets/infore/25hours.zip

  3. InfoRe Technology 2 (also used in VLSP2019): ~415小时

     https://files.huylenguyen.com/datasets/infore/audiobooks.zip

专 · 知
专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询
点击“阅读原文”,了解使用专知,查看5000+AI主题知识资料


登录查看更多
3

相关内容

【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
102+阅读 · 2020年7月22日
一份循环神经网络RNNs简明教程,37页ppt
专知会员服务
172+阅读 · 2020年5月6日
【Google】利用AUTOML实现加速感知神经网络设计
专知会员服务
29+阅读 · 2020年3月5日
【ICLR2020-】基于记忆的图网络,MEMORY-BASED GRAPH NETWORKS
专知会员服务
108+阅读 · 2020年2月22日
一网打尽!100+深度学习模型TensorFlow与Pytorch代码实现集合
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
28+阅读 · 2019年10月18日
Pytorch多模态框架MMF
专知
49+阅读 · 2020年6月20日
开源OCR文本检测器,基于TextBoxes++和RetinaNet
专知
11+阅读 · 2019年11月15日
TensorFlow 2.0如何在Colab中使用TensorBoard
专知
17+阅读 · 2019年3月15日
PyTorch实现多种深度强化学习算法
专知
36+阅读 · 2019年1月15日
深度学习TensorFlow实现集合
专知
10+阅读 · 2018年9月8日
开源自动语音识别系统wav2letter (附实现教程)
七月在线实验室
9+阅读 · 2018年1月8日
Mozilla发布开源语音数据库和语音识别模型
Python程序员
3+阅读 · 2017年12月1日
Arxiv
6+阅读 · 2020年4月14日
Arxiv
29+阅读 · 2020年3月16日
Arxiv
7+阅读 · 2018年6月1日
Arxiv
3+阅读 · 2018年5月28日
Arxiv
5+阅读 · 2018年3月6日
VIP会员
相关VIP内容
相关资讯
Pytorch多模态框架MMF
专知
49+阅读 · 2020年6月20日
开源OCR文本检测器,基于TextBoxes++和RetinaNet
专知
11+阅读 · 2019年11月15日
TensorFlow 2.0如何在Colab中使用TensorBoard
专知
17+阅读 · 2019年3月15日
PyTorch实现多种深度强化学习算法
专知
36+阅读 · 2019年1月15日
深度学习TensorFlow实现集合
专知
10+阅读 · 2018年9月8日
开源自动语音识别系统wav2letter (附实现教程)
七月在线实验室
9+阅读 · 2018年1月8日
Mozilla发布开源语音数据库和语音识别模型
Python程序员
3+阅读 · 2017年12月1日
相关论文
Arxiv
6+阅读 · 2020年4月14日
Arxiv
29+阅读 · 2020年3月16日
Arxiv
7+阅读 · 2018年6月1日
Arxiv
3+阅读 · 2018年5月28日
Arxiv
5+阅读 · 2018年3月6日
Top
微信扫码咨询专知VIP会员