Bilingual English speakers speak English as one of their languages. Their English is of a non-native kind, and their conversations are of a code-mixed fashion. The intelligibility of a bilingual text-to-speech (TTS) system for such non-native English speakers depends on a lexicon that captures the phoneme sequence used by non-native speakers. However, due to the lack of non-native English lexicon, existing bilingual TTS systems employ native English lexicons that are widely available, in addition to their native language lexicon. Due to the inconsistency between the non-native English pronunciation in the audio and native English lexicon in the text, the intelligibility of synthesized speech in such TTS systems is significantly reduced. This paper is motivated by the knowledge that the native language of the speaker highly influences non-native English pronunciation. We propose a generic approach to obtain rules based on letter to phoneme alignment to map native English lexicon to their non-native version. The effectiveness of such mapping is studied by comparing bilingual (Indian English and Hindi) TTS systems trained with and without the proposed rules. The subjective evaluation shows that the bilingual TTS system trained with the proposed non-native English lexicon rules obtains a 6% absolute improvement in preference.


翻译:讲英语的人说英语是他们的语言之一。英语是一种非母语语言,他们的谈话是一种混合语言。对于这种非母语英语的人来说,双语文字对语言系统(TTS)的可知性取决于一种能捕捉非母语发言人使用的语音序列的词汇。然而,由于缺乏非母语英语词汇,现有的双语TTS系统除了使用其母语词汇外,还使用广泛可用的本地英语词汇。由于音频和本地英语词汇中非本地英语发音的不一致,这种非母语英语词汇系统综合语言的可知性大大降低。本文的动因是知道该发言者的母语对非母语英语发音有高度影响。我们提议一种通用办法,根据电话偏好于本地英语词汇和非本地语言版本来获取规则。这种制图的效果是通过在文本中将双语(印度语和本地英语原英语的绝对语言规则)与拟议的双语(经过培训的英语和TTTTTLL)规则与经过培训的绝对性规则进行比较研究。在不将双语(印度语和经过培训的英语)系统与拟议的双语规则进行比较,从而将拟议的英语和经过培训的双语理解的TTTTTTLLLA规则与拟议的绝对性规则进行比较。

0
下载
关闭预览

相关内容

语音合成(Speech Synthesis),也称为文语转换(Text-to-Speech, TTS,它是将任意的输入文本转换成自然流畅的语音输出。语音合成涉及到人工智能、心理学、声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域中的一项前沿技术。 随着计算机技术的不断提高,语音合成技术从早期的共振峰合成,逐步发展为波形拼接合成和统计参数语音合成,再发展到混合语音合成;合成语音的质量、自然度已经得到明显提高,基本能满足一些特定场合的应用需求。目前,语音合成技术在银行、医院等的信息播报系统、汽车导航系统、自动应答呼叫中心等都有广泛应用,取得了巨大的经济效益。 另外,随着智能手机、MP3、PDA 等与我们生活密切相关的媒介的大量涌现,语音合成的应用也在逐渐向娱乐、语音教学、康复治疗等领域深入。可以说语音合成正在影响着人们生活的方方面面。
【ACL2020】端到端语音翻译的课程预训练
专知会员服务
5+阅读 · 2020年7月2日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
别说还不懂依存句法分析
人工智能头条
23+阅读 · 2019年4月8日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
已删除
将门创投
4+阅读 · 2018年11月20日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
4+阅读 · 2018年5月24日
Arxiv
4+阅读 · 2018年2月13日
VIP会员
相关VIP内容
【ACL2020】端到端语音翻译的课程预训练
专知会员服务
5+阅读 · 2020年7月2日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Top
微信扫码咨询专知VIP会员