This article describes an efficient end-to-end speech translation (E2E-ST) framework based on non-autoregressive (NAR) models. End-to-end speech translation models have several advantages over traditional cascade systems such as inference latency reduction. However, conventional AR decoding methods are not fast enough because each token is generated incrementally. NAR models, however, can accelerate the decoding speed by generating multiple tokens in parallel on the basis of the token-wise conditional independence assumption. We propose a unified NAR E2E-ST framework called Orthros, which has an NAR decoder and an auxiliary shallow AR decoder on top of the shared encoder. The auxiliary shallow AR decoder selects the best hypothesis by rescoring multiple candidates generated from the NAR decoder in parallel (parallel AR rescoring). We adopt conditional masked language model (CMLM) and a connectionist temporal classification (CTC)-based model as NAR decoders for Orthros, referred to as Orthros-CMLM and Orthros-CTC, respectively. We also propose two training methods to enhance the CMLM decoder. Experimental evaluations on three benchmark datasets with six language directions demonstrated that Orthros achieved large improvements in translation quality with a very small overhead compared with the baseline NAR model. Moreover, the Conformer encoder architecture enabled large quality improvements, especially for CTC-based models. Orthros-CTC with the Conformer encoder increased decoding speed by 3.63x on CPU with translation quality comparable to that of an AR model.


翻译:本篇文章描述基于非自动递增模式的高效端到端语音翻译(E2E-ST)框架。 端到端语音翻译模型比传统的级联系统( 如导引延延缩缩放) 有几个优势。 但是, 常规AR解码方法不够快, 因为每个符号都是递增生成的。 但是, NAR 模型可以在象征性有条件独立假设的基础上同时生成多个符号, 从而加速解码速度。 我们提议一个统一的NAR E2E- ST框架, 称为Orthros, 在共享编码器的顶端有一个NAR解码器和一个辅助浅度的AR解码器。 辅助浅度 AR 解码器选择了最好的假设, 重新校验同时生成的NAR解码器产生的多个候选人( parllel AR 重校验) 。 我们采用有条件的遮码语言模型( CMM ) 和基于连接时间的模型( Cros) 以NAR deco 基础模型为基础, 称为Orth- LM 和 Orros 快速解译的升级模型, 和 Cral 分别提出C- cal 的升级的升级 。 我们还提议用大规模的两种方法, 在大规模的升级的升级的模型上,, 和大规模的升级的升级的解算,,,, 和大规模的解译程的解码的解码,, 的解码的解码的解码结构将提升了C- 。

0
下载
关闭预览

相关内容

通过计算机进行不同语言之间的直接语音翻译,辅助不同语言背景的人们进行沟通已经成为世界各国研究的重点。 和一般的文本翻译不同,语音翻译需要把语音识别、机器翻译和语音合成三大技术进行集成,具有很大的挑战性。
【UBC】高级机器学习课程,Advanced Machine Learning
专知会员服务
24+阅读 · 2021年1月26日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
106+阅读 · 2020年5月3日
【新书】Python编程基础,669页pdf
专知会员服务
192+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
24+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
机器翻译 | Bleu:此蓝;非彼蓝
黑龙江大学自然语言处理实验室
4+阅读 · 2018年3月14日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
Arxiv
6+阅读 · 2019年7月11日
Arxiv
7+阅读 · 2018年1月30日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
24+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
机器翻译 | Bleu:此蓝;非彼蓝
黑龙江大学自然语言处理实验室
4+阅读 · 2018年3月14日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
Top
微信扫码咨询专知VIP会员