SVVTTS: 具有精确的为自动语音而使用口语同步同步器的TTS (VisualTTS: TTS with Accurate Lip-Speech Synchronization for Automatic Voice Over)

In this paper, we formulate a novel task to synthesize speech in sync with a silent pre-recorded video, denoted as automatic voice over (AVO). Unlike traditional speech synthesis, AVO seeks to generate not only human-sounding speech, but also perfect lip-speech synchronization. A natural solution to AVO is to condition the speech rendering on the temporal progression of lip sequence in the video. We propose a novel text-to-speech model that is conditioned on visual input, named VisualTTS, for accurate lip-speech synchronization. The proposed VisualTTS adopts two novel mechanisms that are 1) textual-visual attention, and 2) visual fusion strategy during acoustic decoding, which both contribute to forming accurate alignment between the input text content and lip motion in input lip sequence. Experimental results show that VisualTTS achieves accurate lip-speech synchronization and outperforms all baseline systems.

翻译：在本文中,我们设计了一项新颖的任务,即将语言与无声预录视频同步合成,称为自动语音(AVO ) 。与传统的语音合成不同,AVO寻求不仅产生人听的语音,而且产生完美的嘴语同步。AVO的自然解决方案是将讲话以视频中嘴语顺序的时序发展为条件。我们提出了一个以视觉输入为条件的新颖的文字对口语模式,名为“视觉TTTS ”, 以精确的嘴语同步为条件。拟议的视觉TTTS 采用了两种新颖机制,即:(1) 文字-视觉关注,和(2) 声学解码期间的视觉融合战略,两者都有助于在输入文字内容和输入唇序列的唇动之间形成准确的一致。实验结果表明,视觉TTTS 实现了准确的嘴语同步,超越了所有基线系统。

相关内容

语音合成

关注 491

语音合成（Speech Synthesis），也称为文语转换（Text-to-Speech, TTS,它是将任意的输入文本转换成自然流畅的语音输出。语音合成涉及到人工智能、心理学、声学、语言学、数字信号处理、计算机科学等多个学科技术，是信息处理领域中的一项前沿技术。随着计算机技术的不断提高，语音合成技术从早期的共振峰合成,逐步发展为波形拼接合成和统计参数语音合成，再发展到混合语音合成；合成语音的质量、自然度已经得到明显提高，基本能满足一些特定场合的应用需求。目前，语音合成技术在银行、医院等的信息播报系统、汽车导航系统、自动应答呼叫中心等都有广泛应用，取得了巨大的经济效益。另外，随着智能手机、MP3、PDA 等与我们生活密切相关的媒介的大量涌现，语音合成的应用也在逐渐向娱乐、语音教学、康复治疗等领域深入。可以说语音合成正在影响着人们生活的方方面面。

深度对抗视觉生成综述

专知会员服务

55+阅读 · 2021年9月3日

【因果人工智能系统】106页ppt，Causal AI for Systems

专知会员服务

97+阅读 · 2021年8月28日

【CVPR 2021】姿态可控的语音驱动说话人脸

专知会员服务

16+阅读 · 2021年5月13日