©PaperWeekly 原创 · 作者 | 音月
语音合成(Text-to-Speech, TTS)是指文字转语音相关技术。随着人工智能技术的发展,TTS 的声学模型和声码器模型效果都在不断提高,单一语言在数据量足够的情况下已经可以合成较高品质的语音。
论文链接:
演示网址:
目前跨语言TTS的主要实现方法有:跨语言中间特征、跨语言文本表示、对抗式训练、发音单元设计、跨语言文本处理模型等。更多相关背景知识及发展概述可阅读:《跨语言语音合成方法的发展趋势与方向》,本文不再赘述。
近年来,FastSpeech、FastPitch、FastSpeech2 等非自回归声学模型除了在语音生成速度上表现出巨大优势,生成语音自然程度也越来越高,相关论文作者试图在跨语言语音合成系统中使用非自回归声学模型,但是由于典型的非自回归声学模型需要加入显式的音素发音时长进行模型训练,这会导致模型增加使用 IPA 这类跨语言文本表示的难度(因为这样会需要有一个跨语言的文本语音对齐系统)。
首先基于开源字典 [1] 构造一个自定义的字典,将语言相关的音素转换(LDP)为 IPA 表示,其中语言相关的音素集在中文中为拼音,在英文中为 Aprabet 表示,将 IPA 音素序列及其对应 LDP 的音素长度输入到上图的 Phoneme Length Regulator,即可实现输入表示序列与单语言对齐系统得到的发音时长相匹配,进而完成声学模型的训练。
以下图中的 “Steins Gate 的选择”为例,“Steins Gate” 对应的 Aprabet 表示为:S T AY1 N Z,“的选择”对应的拼音为:d e0 x uan3 z e2;根据前面构造的自定义字典将语言相关的音素(LDP)转换为对应的 IPA 字符及其 IPA 字符数量;通过 embedding 的方式将 IPA 字符映射成对应的 IPA embedding 序列,并基于 LDP 对应的 IPA 字符数量对 IPA embedding 序列进行聚合得到,LDP 级别的 embedding 序列。
论文首先研究了训练集中包含不同数量的说话人时,说话人和语言信息之间的纠缠情况。其中 d1 有 2 个说话人,d1+d2 有 4 个说话人,d1+d2+d3 有 8 个说话人,均为性别及语言平衡的数据集。表 2 评估了 d1 数据集中文男声在纯中文、纯英文和中英混合句子的语音自然程度及相似度。
可以发现,d1 训练集中,中文男声在中文语音上表现最好,中英混合语音表现次之,纯英文表现最差,尤其是纯英文的相似度指标上。这意味着训练集中一种语言只有一个说话人,对提升目标说话人的跨语言发音能力帮助有限;同时作者也推测虽然 IPA 符号可以用在所有语言上,但是依旧存在某种语音有一些独有的 IPA 符号的情况,从而在这种一种语言只有一个说话人的训练集上导致了说话人音色信息和语言信息的混淆。
4.2 对比实验
论文选择了 3 个对比模型,一个是基于 IPA 表示 Tacotron 声学模型框架的 Tacotron-based,二是基于 LDP 表示和 GRL(gradient reversal layer)Fastspeech 声学模型框架的 FastSpeech-LDP,三是将 FastSpeech-LDP 中的 LDP 表示替换为本文中的 IPA 表示加 Phoneme Length Regulator 模块的方法,最后则是本文提出的模型框架。
总的来说,在本实验中几个非自回归模型的表基本都好于 Tacotron-based;对比 FastSpeech-LDP 和 FastSpeech-IPA 中英说话人在三种类型文本的Naturalness和Similarity指标,两者的 Naturalness 基本接近,不过 FastSpeech-IPA 在大部分情况取得了更高的 Similarity 主观评分,这表明 IPA 表示加上 Phoneme Length Regulator 模块的实现可以帮助模型学习不同语言的发音。
论文提出了 Phoneme Length Regulator 模块,使得非自回归跨语言 TTS 模型中的 IPA 表示与单语言强制对齐信息可以同时使用;构造了一个不需要对抗式训练、基于 IPA 表示的 Fastpitch-based 模型,取得了不错的语音自然程度及说话人相似度。论文实验表明说话人多样性、IPA 表示、variance adaptors 都能够帮助非自回归跨语言 TTS 模型解耦说话人和语言信息。
参考文献
[1] 开源IPA字典:https://github.com/open-dsl-dict/ipa-dict-dsl
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编