The end-to-end architecture has made promising progress in speech translation (ST). However, the ST task is still challenging under low-resource conditions. Most ST models have shown unsatisfactory results, especially in the absence of word information from the source speech utterance. In this study, we survey methods to improve ST performance without using source transcription, and propose a learning framework that utilizes a language-independent universal phone recognizer. The framework is based on an attention-based sequence-to-sequence model, where the encoder generates the phonetic embeddings and phone-aware acoustic representations, and the decoder controls the fusion of the two embedding streams to produce the target token sequence. In addition to investigating different fusion strategies, we explore the specific usage of byte pair encoding (BPE), which compresses a phone sequence into a syllable-like segmented sequence. Due to the conversion of symbols, a segmented sequence represents not only pronunciation but also language-dependent information lacking in phones. Experiments conducted on the Fisher Spanish-English and Taigi-Mandarin drama corpora show that our method outperforms the conformer-based baseline, and the performance is close to that of the existing best method using source transcription.


翻译:语言翻译(ST) 端到端结构在语音翻译(ST) 方面取得了大有希望的进展。 但是,ST任务在低资源条件下仍然具有挑战性。 多数ST模型显示的结果不尽如人意, 特别是在没有源言言语述说的文字信息的情况下。 在这项研究中, 我们调查如何改进ST性能, 不使用源代码转录, 并提议一个使用语言独立通用电话识别器的学习框架。 该框架基于基于关注的顺序到序列模式, 编码器生成语音嵌入和电话觉声表, 解码器控制了两个嵌入流的融合, 以生成目标符号序列。 除了调查不同的聚合战略外, 我们探索如何具体使用字节配对编码( BBE ), 将一个电话序列压缩成一个可交集式的通用电话识别器。 由于符号转换, 分段序列不仅代表读音, 也代表手机中缺少语言依赖的信息。 在Fisher Eng 和 Taigigi- Mandar Coria Cora 进行实验, 显示我们使用的最佳方法超越了目前的业绩记录来源。

0
下载
关闭预览

相关内容

通过计算机进行不同语言之间的直接语音翻译,辅助不同语言背景的人们进行沟通已经成为世界各国研究的重点。 和一般的文本翻译不同,语音翻译需要把语音识别、机器翻译和语音合成三大技术进行集成,具有很大的挑战性。
【ACL2020】多模态信息抽取,365页ppt
专知会员服务
146+阅读 · 2020年7月6日
【ACL2020】端到端语音翻译的课程预训练
专知会员服务
5+阅读 · 2020年7月2日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
6+阅读 · 2019年7月11日
Arxiv
3+阅读 · 2018年6月19日
Arxiv
3+阅读 · 2018年3月28日
Arxiv
7+阅读 · 2018年1月30日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员