Adversarial training of end-to-end (E2E) ASR systems using generative adversarial networks (GAN) has recently been explored for low-resource ASR corpora. GANs help to learn the true data representation through a two-player min-max game. However, training an E2E ASR model using a large ASR corpus with a GAN framework has never been explored, because it might take excessively long time due to high-variance gradient updates and face convergence issues. In this paper, we introduce a novel framework for fine-tuning a pre-trained ASR model using the GAN objective where the ASR model acts as a generator and a discriminator tries to distinguish the ASR output from the real data. Since the ASR model is pre-trained, we hypothesize that the ASR model output (soft distribution vectors) helps to get higher scores from the discriminator and makes the task of the discriminator harder within our GAN framework, which in turn improves the performance of the ASR model in the fine-tuning stage. Here, the pre-trained ASR model is fine-tuned adversarially against the discriminator using an additional adversarial loss. Experiments on full LibriSpeech dataset show that our proposed approach outperforms baselines and conventional GAN-based adversarial models.


翻译:最近为低资源ASR公司探索了使用基因对抗网络(GAN)对端对端ASR系统进行ADversari(E2E)的ADVAR培训。GANs帮助通过双玩的微轴游戏学习真实的数据表示;然而,从未探索过使用GAN框架的大型ASR(ASR)程序培训E2E ASR模型,因为由于高差异梯度更新和面临趋同问题,它可能花费过长的时间。在本文件中,我们引入了一个新的框架,以便利用GAN目标对经过预先训练的ASR模型进行微调,使ASR模型成为生成者,并试图将ASR输出与真实数据区分开来。由于ASR模型是预先培训的,我们假设ASR模型(软分布矢量器)有助于提高歧视者的分数,并使歧视者的任务在我们GAN框架内更为困难,这反过来改进了ASR模型在额外调整阶段的性能。在这里,经过培训的ASR(ASR)模型是经过精细调的ASR-BER模型在常规对抗性基准上比我们提出的G-ARA性模型显示的G-RA性模型。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
生成对抗网络GAN在各领域应用研究进展(中文版),37页pdf
专知会员服务
150+阅读 · 2020年12月30日
生成对抗网络GAN的发展与最新应用
专知会员服务
125+阅读 · 2020年8月13日
【ACL2020】端到端语音翻译的课程预训练
专知会员服务
5+阅读 · 2020年7月2日
生成式对抗网络GAN异常检测
专知会员服务
115+阅读 · 2019年10月13日
GAN新书《生成式深度学习》,Generative Deep Learning,379页pdf
专知会员服务
202+阅读 · 2019年9月30日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
4+阅读 · 2018年5月21日
Arxiv
10+阅读 · 2018年3月23日
VIP会员
相关VIP内容
Top
微信扫码咨询专知VIP会员