Audio-Driven Face Animation is an eagerly anticipated technique for applications such as VR/AR, games, and movie making. With the rapid development of 3D engines, there is an increasing demand for driving 3D faces with audio. However, currently available 3D face animation datasets are either scale-limited or quality-unsatisfied, which hampers further developments of audio-driven 3D face animation. To address this challenge, we propose MMFace4D, a large-scale multi-modal 4D (3D sequence) face dataset consisting of 431 identities, 35,904 sequences, and 3.9 million frames. MMFace4D has three appealing characteristics: 1) highly diversified subjects and corpus, 2) synchronized audio and 3D mesh sequence with high-resolution face details, and 3) low storage cost with a new efficient compression algorithm on 3D mesh sequences. These characteristics enable the training of high-fidelity, expressive, and generalizable face animation models. Upon MMFace4D, we construct a challenging benchmark of audio-driven 3D face animation with a strong baseline, which enables non-autoregressive generation with fast inference speed and outperforms the state-of-the-art autoregressive method. The whole benchmark will be released.


翻译:音频驱动的面部动画是VR/AR、游戏和电影制作等应用程序中期待已久的技术。随着3D引擎的快速发展,越来越多的人需要使用音频驱动的3D面部。然而,当前可用的3D面部动画数据集在规模上或质量上受到限制,这阻碍了音频驱动3D面部动画的进一步发展。为了解决这一挑战,我们提出了MMFace4D,一个大规模多模态4D(3D序列)面部数据集,由431个身份,35,904个序列和390万帧组成。MMFace4D具有三个优点:1)高度多样化的主题和语料库;2)具有高分辨率面部细节的同步音频和3D网格序列;3)使用新的高效压缩算法的3D网格序列低存储成本。这些特征使得可以训练高保真度、富有表现力、具有泛化能力的面部动画模型。在MMFace4D上,我们构建了一个具有强大基线的具有挑战性的音频驱动3D面部动画基准,并启用非自回归生成和快速推理速度,优于最先进的自回归方法。整个基准将被发布。

1
下载
关闭预览

相关内容

3D是英文“Three Dimensions”的简称,中文是指三维、三个维度、三个坐标,即有长、有宽、有高,换句话说,就是立体的,是相对于只有长和宽的平面(2D)而言。
【CVPR2023】NS3D:3D对象和关系的神经符号Grounding
专知会员服务
21+阅读 · 2023年3月26日
【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型
【CVPR2022】UKPGAN:一个通用的自我监督的关键点检测器
专知会员服务
14+阅读 · 2022年4月5日
CVPR2022 | 多模态Transformer用于视频分割效果惊艳
专知会员服务
40+阅读 · 2022年3月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
超全的人脸识别数据集汇总,附打包下载
极市平台
90+阅读 · 2020年3月7日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集
泡泡机器人SLAM
11+阅读 · 2019年1月4日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【泡泡一分钟】Matterport3D: 从室内RGBD数据集中训练 (3dv-22)
泡泡机器人SLAM
16+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
12+阅读 · 2021年6月21日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员