Previous studies demonstrated that a dynamic phone-informed compression of the input audio is beneficial for speech translation (ST). However, they required a dedicated model for phone recognition and did not test this solution for direct ST, in which a single model translates the input audio into the target language without intermediate representations. In this work, we propose the first method able to perform a dynamic compression of the input indirect ST models. In particular, we exploit the Connectionist Temporal Classification (CTC) to compress the input sequence according to its phonetic characteristics. Our experiments demonstrate that our solution brings a 1.3-1.5 BLEU improvement over a strong baseline on two language pairs (English-Italian and English-German), contextually reducing the memory footprint by more than 10%.


翻译:先前的研究显示,对输入音频进行动态的电话知情压缩有利于语音翻译。然而,它们需要专用电话识别模式,而没有测试这种直接识别的解决方案,即一个单一模式将输入音频翻译为目标语言,而没有中间代表。在这项工作中,我们提出第一个能够对输入音频的输入间接压缩的方法。特别是,我们利用连接时空分类(CTC)根据语音特征压缩输入序列。我们的实验表明,我们的解决方案带来了1.3-1.5 BLEU的改进,超越了两种语言(英语-意大利语和英语-德语)的强力基线,在背景上将记忆足迹减少10%以上。

0
下载
关闭预览

相关内容

通过计算机进行不同语言之间的直接语音翻译,辅助不同语言背景的人们进行沟通已经成为世界各国研究的重点。 和一般的文本翻译不同,语音翻译需要把语音识别、机器翻译和语音合成三大技术进行集成,具有很大的挑战性。
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
36+阅读 · 2020年3月3日
Transformer文本分类代码
专知会员服务
118+阅读 · 2020年2月3日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
基于BERT的ASR纠错
深度学习自然语言处理
8+阅读 · 2020年7月16日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
3+阅读 · 2018年4月18日
VIP会员
Top
微信扫码咨询专知VIP会员