All-neural, end-to-end ASR systems gained rapid interest from the speech recognition community. Such systems convert speech input to text units using a single trainable neural network model. E2E models require large amounts of paired speech text data that is expensive to obtain. The amount of data available varies across different languages and dialects. It is critical to make use of all these data so that both low resource languages and high resource languages can be improved. When we want to deploy an ASR system for a new application domain, the amount of domain specific training data is very limited. To be able to leverage data from existing domains is important for ASR accuracy in the new domain. In this paper, we treat all these aspects as categorical information in an ASR system, and propose a simple yet effective way to integrate categorical features into E2E model. We perform detailed analysis on various training strategies, and find that building a joint model that includes categorical features can be more accurate than multiple independently trained models.


翻译:语音识别群落对全新、端到端 ASR 系统迅速产生兴趣。 这种系统使用单一的可训练神经网络模型将语音输入转换成文本单元。 E2E 模型需要大量昂贵的配对语音文本数据才能获取。 不同语言和方言可获得的数据数量各不相同。 关键是要利用所有这些数据, 以便改善低资源语言和高资源语言。 当我们想为新的应用域部署 ASR 系统时, 域特定培训数据的数量非常有限。 能否利用现有域的数据对ASR 在新域域中的准确性很重要。 在本文中, 我们把这些方面都作为绝对信息在 ASR 系统中处理, 并提出一个简单而有效的方法, 将绝对特征纳入 E2E 模型。 我们对各种培训战略进行详细分析, 发现建立一个包含直截面特征的联合模型比多个独立培训模型更准确。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
专知会员服务
76+阅读 · 2021年9月27日
【ICML2020】文本摘要生成模型PEGASUS
专知会员服务
35+阅读 · 2020年8月23日
医学图像分割的深度学习解决方案综述
专知会员服务
88+阅读 · 2020年2月14日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【推荐】RNN最新研究进展综述
机器学习研究会
26+阅读 · 2018年1月6日
【推荐】自动特征工程开源框架
机器学习研究会
17+阅读 · 2017年11月7日
已删除
将门创投
12+阅读 · 2017年10月13日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
Arxiv
0+阅读 · 2021年11月30日
Arxiv
3+阅读 · 2018年6月19日
Arxiv
8+阅读 · 2018年5月15日
Arxiv
3+阅读 · 2018年3月5日
VIP会员
相关VIP内容
专知会员服务
76+阅读 · 2021年9月27日
【ICML2020】文本摘要生成模型PEGASUS
专知会员服务
35+阅读 · 2020年8月23日
医学图像分割的深度学习解决方案综述
专知会员服务
88+阅读 · 2020年2月14日
相关资讯
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【推荐】RNN最新研究进展综述
机器学习研究会
26+阅读 · 2018年1月6日
【推荐】自动特征工程开源框架
机器学习研究会
17+阅读 · 2017年11月7日
已删除
将门创投
12+阅读 · 2017年10月13日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
Top
微信扫码咨询专知VIP会员