The end-to-end architecture has made promising progress in speech translation (ST). However, the ST task is still challenging under low-resource conditions. Most ST models have shown unsatisfactory results, especially in the absence of word information from the source speech utterance. In this study, we survey methods to improve ST performance without using source transcription, and propose a learning framework that utilizes a language-independent universal phone recognizer. The framework is based on an attention-based sequence-to-sequence model, where the encoder generates the phonetic embeddings and phone-aware acoustic representations, and the decoder controls the fusion of the two embedding streams to produce the target token sequence. In addition to investigating different fusion strategies, we explore the specific usage of byte pair encoding (BPE), which compresses a phone sequence into a syllable-like segmented sequence. Due to the conversion of symbols, a segmented sequence represents not only pronunciation but also language-dependent information lacking in phones. Experiments conducted on the Fisher Spanish-English and Taigi-Mandarin drama corpora show that our method outperforms the conformer-based baseline, and the performance is close to that of the existing best method using source transcription.


翻译:语言翻译(ST) 端到端结构在语音翻译(ST) 方面取得了大有希望的进展。 但是,ST任务在低资源条件下仍然具有挑战性。 多数ST模型显示的结果不尽如人意, 特别是在没有源言言语述说的文字信息的情况下。 在这项研究中, 我们调查如何改进ST性能, 不使用源代码转录, 并提议一个使用语言独立通用电话识别器的学习框架。 该框架基于基于关注的顺序到序列模式, 编码器生成语音嵌入和电话觉声表, 解码器控制了两个嵌入流的融合, 以生成目标符号序列。 除了调查不同的聚合战略外, 我们探索如何具体使用字节配对编码( BBE ), 将一个电话序列压缩成一个可交集式的通用电话识别器。 由于符号转换, 分段序列不仅代表读音, 也代表手机中缺少语言依赖的信息。 在Fisher Eng 和 Taigigi- Mandar Coria Cora 进行实验, 显示我们使用的最佳方法超越了目前的业绩记录来源。

0
下载
关闭预览

相关内容

通过计算机进行不同语言之间的直接语音翻译,辅助不同语言背景的人们进行沟通已经成为世界各国研究的重点。 和一般的文本翻译不同,语音翻译需要把语音识别、机器翻译和语音合成三大技术进行集成,具有很大的挑战性。
【ACL2020】端到端语音翻译的课程预训练
专知会员服务
5+阅读 · 2020年7月2日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
意识是一种数学模式
CreateAMind
3+阅读 · 2019年6月24日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
3+阅读 · 2018年6月19日
Arxiv
7+阅读 · 2018年1月30日
VIP会员
相关VIP内容
【ACL2020】端到端语音翻译的课程预训练
专知会员服务
5+阅读 · 2020年7月2日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
相关资讯
Top
微信扫码咨询专知VIP会员