The advances in attention-based encoder-decoder (AED) networks have brought great progress to end-to-end (E2E) automatic speech recognition (ASR). One way to further improve the performance of AED-based E2E ASR is to introduce an extra text encoder for leveraging extensive text data and thus capture more context-aware linguistic information. However, this approach brings a mismatch problem between the speech encoder and the text encoder due to the different units used for modeling. In this paper, we propose an embedding aligner and modality switch training to better align the speech and text latent spaces. The embedding aligner is a shared linear projection between text encoder and speech encoder trained by masked language modeling (MLM) loss and connectionist temporal classification (CTC), respectively. The modality switch training randomly swaps speech and text embeddings based on the forced alignment result to learn a joint representation space. Experimental results show that our proposed approach achieves a relative 14% to 19% word error rate (WER) reduction on Librispeech ASR task. We further verify its effectiveness on spoken language understanding (SLU), i.e., an absolute 2.5% to 2.8% F1 score improvement on SNIPS slot filling task.


翻译:关注的编码器-编码器(AED)网络的进步给终端到终端(E2E)自动语音识别(ASR)带来了巨大的进展。进一步提高基于AED的 E2E ASR 功能的一个方法是引入一个额外的文本编码器,以利用广泛的文本数据,从而获取更符合背景的语言信息。然而,由于用于建模的不同单位,这一方法在语音编码器和文本编码器之间造成了不匹配的问题。在本文中,我们建议采用嵌入式索引和模式转换培训,以更好地对语音和文本潜在空间进行匹配。嵌入式索引是分别由隐蔽语言模型(MLMM)损失和连接时间分类(CTC)培训的文本编码器和语音编码器之间共享的线性预测。模式转换培训根据强制校正结果随机交换语音和文本嵌入一个空间。实验结果显示,我们拟议的方法在Librispeech ASR任务上实现了相对14%至19%的字差率降低率。我们进一步核实了它的有效性,在SLibis Ar 的SLE1 上,在SLO% 级任务上进行了绝对的升级。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
专知会员服务
37+阅读 · 2021年2月22日
【伯克利-Ke Li】学习优化,74页ppt,Learning to Optimize
专知会员服务
41+阅读 · 2020年7月23日
【ACL2020】端到端语音翻译的课程预训练
专知会员服务
6+阅读 · 2020年7月2日
最新《生成式对抗网络》简介,25页ppt
专知会员服务
175+阅读 · 2020年6月28日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
VIP会员
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员