为了进一步推进深度学习技术驱动的视觉语音生成相关科学问题的研究进展,阐述了视觉语音生成的研究意义与基本定义,并深入剖析了该领域面临的难点与挑战;在此基础上,介绍了目前视觉语音生成研究的现状与发展水平,基于生成框架的区别对近期主流方法进行了梳理、归类和评述;最后探讨视觉语音生成研究潜在的问题和可能的研究方向。本质上是视觉和听觉双模态的。视觉语音是指 语音信号在视觉域的表现形式,即人在说话时 产生的嘴唇、舌头、牙齿、下巴以及其他面部肌 肉的自发运动[1] ,而音频语音则是指说话者所 发出的声波波形。1976年,著名的“麦格克效 应”[2] 表明,人类的语音感知是一种感性认知现 象,不仅只取决于听觉信息,还会受到嘴唇运动 等视觉线索的影响。因此,不可否认对视觉语 音的研究有助于提升人类对语音感知的主观舒 适度,特别是对于遭受听力受损或听力障碍的 人群。 作为计算机视觉、计算机图形学和多媒体 领域的一个基本且具有挑战性的课题,视觉语 音生成(visualspeechgeneration,VSG)近年来受 到越来越多的关注,因为它在许多新兴应用中 发挥着重要作用。其典型的学术和现实应用包 括说话人识别与验证[3] 、医疗救助、公共安全、 视频压缩、影视娱乐、人机交互、情感理解[4-5] 等。例如:在公共安全领域,视觉语音可以应用 于人脸伪造检测[6] 和活体检测[7] 。在人机交互 中,视觉语音可以作为一种新型交互信息,提 高交互的多样性和鲁棒性[8-9] 。在影视娱乐 领域,VSG技术可以在虚拟游戏中生成语音驱 动的个性化 3D虚拟角色[10] ,以及为电影后期 制作(如视觉重配音)实现高保真度的视和序列建模。在传统机器学习方法占主导地位的 时代,视觉语音的表征方法如视素[12-13] 、唇部几 何描述符[14] 、线性变换特征[15] 、统计表示[16]等, 以及序列建模方法如高斯过程动力学模型[17] 、隐 马尔可夫模型[18](hiddenMarkovmodel,HMM)、 决策树模型[19] 等被广泛应用于 VSG研究。自深 度神经网络(deepneuralnetworks,DNNs)在图像 分类任务中取得重大突破[20] 以来,绝大多数计算 机视觉和自然语言相关问题的研究热点都聚焦在 深度学习方法上,包括 VSG问题。2016年,基于 深度学习的 VSG方法[21] 在性能上大幅度超越传 统方法,引领 VSG进入深度学习时代。同时,大 规模音视数据集[22-25]的不断涌现也进一步推动 了深度学习驱动的 VSG研究。因此,本文主要关 注基于深度学习的 VSG方法。视觉语音技术从 2016年至今的里程碑工作如图 1所示,包括具有 代表性的深度 VSG方法以及相关的音视基准数据的进展,但不可否认 VSG的研究仍处于早期阶 段,尚未达到满足实际应用的水平,许多问题仍待 解决。因此,系统性地回顾该领域的最新进展,总 结阻碍其发展的主要挑战和未解决的问题,并探 讨和挖掘有潜力的发展方向是非常有价值的。 Mattheyses等[26] 广泛而全面地对音视语音生成进 行了总结和讨论。我们建议读者参考该论文以了 解视觉语音生成在 2015年之前的详细发展历程。 本文在其基础上,聚焦于深度学习驱动的 VSG研 究进展。Chen等[27] 对说话人身份独立的 VSG方 法进行了综述。以身份信息保留、音视同步以及 视觉质量三个核心需求为牵引,对相关方法进行 了讨论分析,并为其设计了性能评估基准。他们 的核心贡献在于提出并定义了明确的评估标准, 而非 VSG方法的全面讨论和总结。总之,已有 VSG综述调研性的工作在时效性、前瞻性、统筹 性等方面尚有不足。因此,本文旨在进一步填补 该领域综述调研上的空白。 本文对当前 VSG的基本定义和研究意义、所 面临的难点与挑战、主流的深度学习驱动方法进 行了系统性的介绍、阐述和归纳。并于文末探讨 了研究潜在的问题及未来可能的研究方向,以期 进一步推动与此相关问题的研究。

成为VIP会员查看完整内容
24

相关内容

神经网络架构搜索研究进展与展望
专知会员服务
48+阅读 · 2023年12月21日
基于机器学习的交通流预测方法综述
专知会员服务
34+阅读 · 2023年8月17日
集成学习研究现状及展望
专知会员服务
57+阅读 · 2023年7月20日
计算成像前沿进展
专知会员服务
28+阅读 · 2022年6月29日
机器学习在金融资产定价中的应用研究综述
专知会员服务
36+阅读 · 2022年6月14日
面向任务型的对话系统研究进展
专知会员服务
57+阅读 · 2021年11月17日
专知会员服务
66+阅读 · 2021年5月21日
专知会员服务
32+阅读 · 2021年2月1日
多模态视觉语言表征学习研究综述
专知会员服务
191+阅读 · 2020年12月3日
深度学习可解释性研究进展
专知会员服务
98+阅读 · 2020年6月26日
数据驱动的态势认知技术及发展思考
专知
15+阅读 · 2022年7月12日
智能合约的形式化验证方法研究综述
专知
15+阅读 · 2021年5月8日
图像修复研究进展综述
专知
19+阅读 · 2021年3月9日
多模态情绪识别研究综述
专知
22+阅读 · 2020年12月21日
基于深度学习的数据融合方法研究综述
专知
31+阅读 · 2020年12月10日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
基于图神经网络的知识图谱研究进展
AI科技评论
20+阅读 · 2020年8月31日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
【深度学习】深度学习技术发展趋势浅析
产业智能官
11+阅读 · 2019年4月13日
贝叶斯机器学习前沿进展
架构文摘
13+阅读 · 2018年2月11日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
159+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
412+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
Arxiv
150+阅读 · 2023年3月24日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关VIP内容
神经网络架构搜索研究进展与展望
专知会员服务
48+阅读 · 2023年12月21日
基于机器学习的交通流预测方法综述
专知会员服务
34+阅读 · 2023年8月17日
集成学习研究现状及展望
专知会员服务
57+阅读 · 2023年7月20日
计算成像前沿进展
专知会员服务
28+阅读 · 2022年6月29日
机器学习在金融资产定价中的应用研究综述
专知会员服务
36+阅读 · 2022年6月14日
面向任务型的对话系统研究进展
专知会员服务
57+阅读 · 2021年11月17日
专知会员服务
66+阅读 · 2021年5月21日
专知会员服务
32+阅读 · 2021年2月1日
多模态视觉语言表征学习研究综述
专知会员服务
191+阅读 · 2020年12月3日
深度学习可解释性研究进展
专知会员服务
98+阅读 · 2020年6月26日
相关资讯
数据驱动的态势认知技术及发展思考
专知
15+阅读 · 2022年7月12日
智能合约的形式化验证方法研究综述
专知
15+阅读 · 2021年5月8日
图像修复研究进展综述
专知
19+阅读 · 2021年3月9日
多模态情绪识别研究综述
专知
22+阅读 · 2020年12月21日
基于深度学习的数据融合方法研究综述
专知
31+阅读 · 2020年12月10日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
基于图神经网络的知识图谱研究进展
AI科技评论
20+阅读 · 2020年8月31日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
【深度学习】深度学习技术发展趋势浅析
产业智能官
11+阅读 · 2019年4月13日
贝叶斯机器学习前沿进展
架构文摘
13+阅读 · 2018年2月11日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员