Training robust Speech to Text (STT) system require "tens of thousand" of hours of data. Variability present in the dataset, in the form of unwanted nuisances (noise) and biases (accent, gender or age) is the reason for the need of large datasets to learn general representations, which is unfeasible for low resource languages. A recently proposed deep learning approach to remove these unwanted features, called adversarial forgetting, was able to produce better results on computer vision tasks. Motivated by this, in this paper, we study the effect of de-entangling the accent information from the input speech signal on training STT systems. To this end, we use an information bottleneck architecture based on adversarial forgetting. This training scheme aims to enforce the model to learn general accent invariant speech representations. The trained STT model is tested on two unseen accents in the common voice V1. The results are in favour of STT model trained using the adversarial forgetting scheme.


翻译:培训强力的文本演讲系统需要“十小时”的数据。 数据集中以不想要的干扰(噪音)和偏向(偏好、性别或年龄)的形式存在的差异,是需要大型数据集来学习通用表达方式的原因,对于低资源语言来说,这是不可行的。最近提出的消除这些不想要的特征的深层次学习方法,称为对抗式遗忘,能够在计算机的视觉任务上产生更好的结果。在本文中,我们研究了从培训STT系统输入的演讲信号中去除口音信息的效果。为此,我们使用基于对抗式遗忘的信息瓶颈结构。这一培训计划旨在实施模式,以学习通用语音V1中的通用口音。经过培训的STT模式在通用语音V1中用两种看不见的口音进行测试。结果有利于使用对抗性遗忘计划培训的STT模式。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
专知会员服务
44+阅读 · 2020年10月31日
【论文推荐】文本摘要简述
专知会员服务
68+阅读 · 2020年7月20日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
「Github」多模态机器学习文章阅读列表
专知
123+阅读 · 2019年8月15日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Interpretable Adversarial Training for Text
Arxiv
5+阅读 · 2019年5月30日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
9+阅读 · 2018年1月4日
VIP会员
Top
微信扫码咨询专知VIP会员