Non-autoregressive (NAR) transformer models have been studied intensively in automatic speech recognition (ASR), and a substantial part of NAR transformer models is to use the casual mask to limit token dependencies. However, the casual mask is designed for the left-to-right decoding process of the non-parallel autoregressive (AR) transformer, which is inappropriate for the parallel NAR transformer since it ignores the right-to-left contexts. Some models are proposed to utilize right-to-left contexts with an extra decoder, but these methods increase the model complexity. To tackle the above problems, we propose a new non-autoregressive transformer with a unified bidirectional decoder (NAT-UBD), which can simultaneously utilize left-to-right and right-to-left contexts. However, direct use of bidirectional contexts will cause information leakage, which means the decoder output can be affected by the character information from the input of the same position. To avoid information leakage, we propose a novel attention mask and modify vanilla queries, keys, and values matrices for NAT-UBD. Experimental results verify that NAT-UBD can achieve character error rates (CERs) of 5.0%/5.5% on the Aishell1 dev/test sets, outperforming all previous NAR transformer models. Moreover, NAT-UBD can run 49.8x faster than the AR transformer baseline when decoding in a single step.


翻译:在自动语音识别(ASR)中,对非倾斜式变压器模型进行了深入的研究,NAR变压器模型的很大一部分是使用临时掩码来限制象征性依赖性。然而,为非双向自动回归(AR)变压器的左对右解码过程设计了临时掩码,这对平行的NAR变压器来说是不合适的,因为它忽略了右对左环境。一些模型建议使用带有额外解码器的右对左环境,但这些方法增加了模型的复杂性。为了解决上述问题,我们提议了一个新的非倾斜式变压器,配有统一的双向解码器(NAT-UBD),该变压器可以同时使用左对右和右对左环境。但是,直接使用双向变压式变压器将造成信息渗漏,这意味着解码输出可能受到来自同一位置输入的特性信息的影响。为了避免信息渗漏,我们提议了一个新的关注面罩,并修改Vanilla 查询、键、N-DAVAL 递值的递定式变压式变压式变压式变压式模型时,NAT-AAT-AVAL1的变压式变压式变压器可以使NAT-AVAL-A-AVAL-AVAL1的变压结果。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
专知会员服务
30+阅读 · 2021年7月30日
最新《Transformers模型》教程,64页ppt
专知会员服务
312+阅读 · 2020年11月26日
Transformer文本分类代码
专知会员服务
117+阅读 · 2020年2月3日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
收藏 | Tensorflow实现的深度NLP模型集锦(附资源)
THU数据派
12+阅读 · 2019年4月28日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【音乐】Attention
英语演讲视频每日一推
3+阅读 · 2017年8月22日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
语音识别之--韩语语音识别
微信AI
15+阅读 · 2017年8月2日
Arxiv
6+阅读 · 2019年7月11日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
3+阅读 · 2018年11月13日
VIP会员
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
收藏 | Tensorflow实现的深度NLP模型集锦(附资源)
THU数据派
12+阅读 · 2019年4月28日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【音乐】Attention
英语演讲视频每日一推
3+阅读 · 2017年8月22日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
语音识别之--韩语语音识别
微信AI
15+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员