We propose a novel robust and efficient Speech-to-Animation (S2A) approach for synchronized facial animation generation in human-computer interaction. Compared with conventional approaches, the proposed approach utilize phonetic posteriorgrams (PPGs) of spoken phonemes as input to ensure the cross-language and cross-speaker ability, and introduce corresponding prosody features (i.e. pitch and energy) to further enhance the expression of generated animation. Mixtureof-experts (MOE)-based Transformer is employed to better model contextual information while provide significant optimization on computation efficiency. Experiments demonstrate the effectiveness of the proposed approach on both objective and subjective evaluation with 17x inference speedup compared with the state-of-the-art approach.


翻译:我们为在人与计算机的互动中同步生成面部动画提出了一种新颖、稳健、高效的语音到动画(S2A)方法。 与常规方法相比,拟议方法使用口声电话的语音后方格(PPGs)作为输入,以确保跨语言和跨口音能力,并引入相应的手动功能(即投放和能量),以进一步加强所生成动画的表达。 混合专家(MOE)的变异器被用于更好地模拟背景信息,同时对计算效率提供显著的优化。 实验表明,与最新方法相比,客观和主观评价的拟议方法的有效性为17x推论速度。

0
下载
关闭预览

相关内容

专知会员服务
75+阅读 · 2021年9月27日
【ICLR2021】彩色化变换器,Colorization Transformer
专知会员服务
9+阅读 · 2021年2月9日
最新《Transformers模型》教程,64页ppt
专知会员服务
307+阅读 · 2020年11月26日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
17+阅读 · 2021年3月29日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
3+阅读 · 2018年11月13日
Arxiv
5+阅读 · 2018年10月4日
VIP会员
相关论文
Arxiv
17+阅读 · 2021年3月29日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
3+阅读 · 2018年11月13日
Arxiv
5+阅读 · 2018年10月4日
Top
微信扫码咨询专知VIP会员