深度视觉语音生成研究进展与展望

为了进一步推进深度学习技术驱动的视觉语音生成相关科学问题的研究进展,阐述了视觉语音生成的研究意义与基本定义,并深入剖析了该领域面临的难点与挑战；在此基础上,介绍了目前视觉语音生成研究的现状与发展水平,基于生成框架的区别对近期主流方法进行了梳理、归类和评述；最后探讨视觉语音生成研究潜在的问题和可能的研究方向。本质上是视觉和听觉双模态的。视觉语音是指语音信号在视觉域的表现形式，即人在说话时产生的嘴唇、舌头、牙齿、下巴以及其他面部肌肉的自发运动［１］，而音频语音则是指说话者所发出的声波波形。１９７６年，著名的“麦格克效应”［２］表明，人类的语音感知是一种感性认知现象，不仅只取决于听觉信息，还会受到嘴唇运动等视觉线索的影响。因此，不可否认对视觉语音的研究有助于提升人类对语音感知的主观舒适度，特别是对于遭受听力受损或听力障碍的人群。作为计算机视觉、计算机图形学和多媒体领域的一个基本且具有挑战性的课题，视觉语音生成（ｖｉｓｕａｌｓｐｅｅｃｈｇｅｎｅｒａｔｉｏｎ，ＶＳＧ）近年来受到越来越多的关注，因为它在许多新兴应用中发挥着重要作用。其典型的学术和现实应用包括说话人识别与验证［３］、医疗救助、公共安全、视频压缩、影视娱乐、人机交互、情感理解［４－５］等。例如：在公共安全领域，视觉语音可以应用于人脸伪造检测［６］和活体检测［７］。在人机交互中，视觉语音可以作为一种新型交互信息，提高交互的多样性和鲁棒性［８－９］。在影视娱乐领域，ＶＳＧ技术可以在虚拟游戏中生成语音驱动的个性化３Ｄ虚拟角色［１０］，以及为电影后期制作（如视觉重配音）实现高保真度的视和序列建模。在传统机器学习方法占主导地位的时代，视觉语音的表征方法如视素［１２－１３］、唇部几何描述符［１４］、线性变换特征［１５］、统计表示［１６］等，以及序列建模方法如高斯过程动力学模型［１７］、隐马尔可夫模型［１８］（ｈｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌ，ＨＭＭ）、决策树模型［１９］等被广泛应用于ＶＳＧ研究。自深度神经网络（ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓ，ＤＮＮｓ）在图像分类任务中取得重大突破［２０］以来，绝大多数计算机视觉和自然语言相关问题的研究热点都聚焦在深度学习方法上，包括ＶＳＧ问题。２０１６年，基于深度学习的ＶＳＧ方法［２１］在性能上大幅度超越传统方法，引领ＶＳＧ进入深度学习时代。同时，大规模音视数据集［２２－２５］的不断涌现也进一步推动了深度学习驱动的ＶＳＧ研究。因此，本文主要关注基于深度学习的ＶＳＧ方法。视觉语音技术从２０１６年至今的里程碑工作如图１所示，包括具有代表性的深度ＶＳＧ方法以及相关的音视基准数据的进展，但不可否认ＶＳＧ的研究仍处于早期阶段，尚未达到满足实际应用的水平，许多问题仍待解决。因此，系统性地回顾该领域的最新进展，总结阻碍其发展的主要挑战和未解决的问题，并探讨和挖掘有潜力的发展方向是非常有价值的。Ｍａｔｔｈｅｙｓｅｓ等［２６］广泛而全面地对音视语音生成进行了总结和讨论。我们建议读者参考该论文以了解视觉语音生成在２０１５年之前的详细发展历程。本文在其基础上，聚焦于深度学习驱动的ＶＳＧ研究进展。Ｃｈｅｎ等［２７］对说话人身份独立的ＶＳＧ方法进行了综述。以身份信息保留、音视同步以及视觉质量三个核心需求为牵引，对相关方法进行了讨论分析，并为其设计了性能评估基准。他们的核心贡献在于提出并定义了明确的评估标准，而非ＶＳＧ方法的全面讨论和总结。总之，已有ＶＳＧ综述调研性的工作在时效性、前瞻性、统筹性等方面尚有不足。因此，本文旨在进一步填补该领域综述调研上的空白。本文对当前ＶＳＧ的基本定义和研究意义、所面临的难点与挑战、主流的深度学习驱动方法进行了系统性的介绍、阐述和归纳。并于文末探讨了研究潜在的问题及未来可能的研究方向，以期进一步推动与此相关问题的研究。