MMFace4D：一个用于音频驱动的3D面部动画的大规模多模态4D面部数据集 (MMFace4D: A Large-Scale Multi-Modal 4D Face Dataset for Audio-Driven 3D Face Animation) - 专知论文

会员服务 ·

0

3D · 数据集 · state-of-the-art · Storage · FAST ·

2023 年 3 月 17 日

MMFace4D: A Large-Scale Multi-Modal 4D Face Dataset for Audio-Driven 3D Face Animation

翻译：MMFace4D：一个用于音频驱动的3D面部动画的大规模多模态4D面部数据集

Haozhe Wu,Jia Jia,Junliang Xing,Hongwei Xu,Xiangyuan Wang,Jelo Wang

Audio-Driven Face Animation is an eagerly anticipated technique for applications such as VR/AR, games, and movie making. With the rapid development of 3D engines, there is an increasing demand for driving 3D faces with audio. However, currently available 3D face animation datasets are either scale-limited or quality-unsatisfied, which hampers further developments of audio-driven 3D face animation. To address this challenge, we propose MMFace4D, a large-scale multi-modal 4D (3D sequence) face dataset consisting of 431 identities, 35,904 sequences, and 3.9 million frames. MMFace4D has three appealing characteristics: 1) highly diversified subjects and corpus, 2) synchronized audio and 3D mesh sequence with high-resolution face details, and 3) low storage cost with a new efficient compression algorithm on 3D mesh sequences. These characteristics enable the training of high-fidelity, expressive, and generalizable face animation models. Upon MMFace4D, we construct a challenging benchmark of audio-driven 3D face animation with a strong baseline, which enables non-autoregressive generation with fast inference speed and outperforms the state-of-the-art autoregressive method. The whole benchmark will be released.

翻译：音频驱动的面部动画是VR/AR、游戏和电影制作等应用程序中期待已久的技术。随着3D引擎的快速发展，越来越多的人需要使用音频驱动的3D面部。然而，当前可用的3D面部动画数据集在规模上或质量上受到限制，这阻碍了音频驱动3D面部动画的进一步发展。为了解决这一挑战，我们提出了MMFace4D，一个大规模多模态4D（3D序列）面部数据集，由431个身份，35,904个序列和390万帧组成。MMFace4D具有三个优点：1）高度多样化的主题和语料库；2）具有高分辨率面部细节的同步音频和3D网格序列；3）使用新的高效压缩算法的3D网格序列低存储成本。这些特征使得可以训练高保真度、富有表现力、具有泛化能力的面部动画模型。在MMFace4D上，我们构建了一个具有强大基线的具有挑战性的音频驱动3D面部动画基准，并启用非自回归生成和快速推理速度，优于最先进的自回归方法。整个基准将被发布。

1

相关内容

3D是英文“Three Dimensions”的简称，中文是指三维、三个维度、三个坐标，即有长、有宽、有高，换句话说，就是立体的，是相对于只有长和宽的平面（2D）而言。

【CVPR2023】NS3D：3D对象和关系的神经符号Grounding

【CVPR2023】NS3D：3D对象和关系的神经符号Grounding

专知会员服务

22+阅读 · 2023年3月26日

【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型

【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型

专知会员服务

22+阅读 · 2022年12月5日

【CVPR2022】UKPGAN:一个通用的自我监督的关键点检测器

【CVPR2022】UKPGAN:一个通用的自我监督的关键点检测器

专知会员服务

15+阅读 · 2022年4月5日

【Hugging Face】使用自定义数据集微调语义分割模型，Fine-Tune a Semantic Segmentation Model with a Custom Dataset

【Hugging Face】使用自定义数据集微调语义分割模型，Fine-Tune a Semantic Segmentation Model with a Custom Dataset

专知会员服务

21+阅读 · 2022年3月18日

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

专知会员服务

42+阅读 · 2022年3月12日

【CVPR 2022】从大量非正式视频中构建可动画的3D神经模型，BANMo: Building Animatable 3D Neural Models from Many Casual Videos

【CVPR 2022】从大量非正式视频中构建可动画的3D神经模型，BANMo: Building Animatable 3D Neural Models from Many Casual Videos

专知会员服务

25+阅读 · 2022年3月3日

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

专知会员服务

21+阅读 · 2020年6月13日

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

专知会员服务

25+阅读 · 2020年5月22日

【香港中文大学-CVPR2020】Rotate-and-Render: Unsupervised Photorealistic Face Rotation from Single-View Images

【香港中文大学-CVPR2020】Rotate-and-Render: Unsupervised Photorealistic Face Rotation from Single-View Images

专知会员服务

22+阅读 · 2020年3月18日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

超全的人脸识别数据集汇总，附打包下载

超全的人脸识别数据集汇总，附打包下载

极市平台

90+阅读 · 2020年3月7日

视频分析/多模态学习论文、代码、数据集大列表

视频分析/多模态学习论文、代码、数据集大列表

专知

57+阅读 · 2019年7月13日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

泡泡机器人SLAM

11+阅读 · 2019年1月4日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

FaceForensics：一个用于人脸伪造检测的大型视频数据集

FaceForensics：一个用于人脸伪造检测的大型视频数据集

论智

18+阅读 · 2018年4月14日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

【泡泡一分钟】Matterport3D: 从室内RGBD数据集中训练 (3dv-22)

【泡泡一分钟】Matterport3D: 从室内RGBD数据集中训练 (3dv-22)

泡泡机器人SLAM

16+阅读 · 2017年12月31日

2017-最全手势识别/跟踪相关资源大列表分享（论文、数据集、比赛等）

2017-最全手势识别/跟踪相关资源大列表分享（论文、数据集、比赛等）

深度学习与NLP

64+阅读 · 2017年10月29日

基于深度学习的金丝猴面部特性的检测与识别算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂场景下非合作目标鲁棒识别方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

语音同步的高真实感三维人脸情感动画研究

国家自然科学基金

0+阅读 · 2013年12月31日

海量数据驱动的高维材质外观建模方法

国家自然科学基金

0+阅读 · 2013年12月31日

高可靠软件建模语言及模型自动转换方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

PSCA对前列腺癌细胞自分泌IL-6的调控作用及其机制

国家自然科学基金

0+阅读 · 2012年12月31日

语义驱动的个性化虚拟人重建技术研究

国家自然科学基金

1+阅读 · 2012年12月31日

图像统计特性的随机场建模与应用

国家自然科学基金

0+阅读 · 2012年12月31日

基于list-mode数据的快速SART真3D PET断层重建算法的研究

国家自然科学基金

0+阅读 · 2011年12月31日

位移细分曲面的建模和编辑方法

国家自然科学基金

0+阅读 · 2009年12月31日

Self-supervised Learning for Pre-Training 3D Point Clouds: A Survey

Arxiv

5+阅读 · 2023年5月8日

High Quality Large-Scale 3-D Urban Mapping with Multi-Master TomoSAR

Arxiv

0+阅读 · 2023年5月8日

OpenViVQA: Task, Dataset, and Multimodal Fusion Models for Visual Question Answering in Vietnamese

Arxiv

1+阅读 · 2023年5月7日

Generating Virtual On-body Accelerometer Data from Virtual Textual Descriptions for Human Activity Recognition

Arxiv

0+阅读 · 2023年5月4日

Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQLs

Arxiv

0+阅读 · 2023年5月4日

Versatile Multi-Modal Pre-Training for Human-Centric Perception

Versatile Multi-Modal Pre-Training for Human-Centric Perception

Arxiv

16+阅读 · 2022年3月25日

Recovering 3D Human Mesh from Monocular Images: A Survey

Arxiv

12+阅读 · 2022年3月8日

3D Object Detection for Autonomous Driving: A Survey

Arxiv

12+阅读 · 2021年6月21日

SVT-Net: Super Light-Weight Sparse Voxel Transformer for Large Scale Place Recognition

Arxiv

12+阅读 · 2021年5月30日

Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba

Arxiv

15+阅读 · 2018年5月24日

VIP会员

文章信息

相关主题

state-of-the-art

相关VIP内容

【CVPR2023】NS3D：3D对象和关系的神经符号Grounding

【CVPR2023】NS3D：3D对象和关系的神经符号Grounding

专知会员服务

22+阅读 · 2023年3月26日

【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型

【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型

专知会员服务

22+阅读 · 2022年12月5日

【CVPR2022】UKPGAN:一个通用的自我监督的关键点检测器

【CVPR2022】UKPGAN:一个通用的自我监督的关键点检测器

专知会员服务

15+阅读 · 2022年4月5日

【Hugging Face】使用自定义数据集微调语义分割模型，Fine-Tune a Semantic Segmentation Model with a Custom Dataset

【Hugging Face】使用自定义数据集微调语义分割模型，Fine-Tune a Semantic Segmentation Model with a Custom Dataset

专知会员服务

21+阅读 · 2022年3月18日

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

专知会员服务

42+阅读 · 2022年3月12日

【CVPR 2022】从大量非正式视频中构建可动画的3D神经模型，BANMo: Building Animatable 3D Neural Models from Many Casual Videos

【CVPR 2022】从大量非正式视频中构建可动画的3D神经模型，BANMo: Building Animatable 3D Neural Models from Many Casual Videos

专知会员服务

25+阅读 · 2022年3月3日

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

专知会员服务

21+阅读 · 2020年6月13日

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

专知会员服务

25+阅读 · 2020年5月22日

【香港中文大学-CVPR2020】Rotate-and-Render: Unsupervised Photorealistic Face Rotation from Single-View Images

【香港中文大学-CVPR2020】Rotate-and-Render: Unsupervised Photorealistic Face Rotation from Single-View Images

专知会员服务

22+阅读 · 2020年3月18日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

热门VIP内容

开通专知VIP会员享更多权益服务

小规模训练指南：打造世界级大语言模型的关键方法

无人机编队飞行：复杂环境中作战的策略、挑战与应用

大模型APP，AI时代第一个爆款

从数据中心视角出发的高效大语言模型训练综述

相关资讯

超全的人脸识别数据集汇总，附打包下载

超全的人脸识别数据集汇总，附打包下载

极市平台

90+阅读 · 2020年3月7日

视频分析/多模态学习论文、代码、数据集大列表

视频分析/多模态学习论文、代码、数据集大列表

专知

57+阅读 · 2019年7月13日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

泡泡机器人SLAM

11+阅读 · 2019年1月4日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

FaceForensics：一个用于人脸伪造检测的大型视频数据集

FaceForensics：一个用于人脸伪造检测的大型视频数据集

论智

18+阅读 · 2018年4月14日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

【泡泡一分钟】Matterport3D: 从室内RGBD数据集中训练 (3dv-22)

【泡泡一分钟】Matterport3D: 从室内RGBD数据集中训练 (3dv-22)

泡泡机器人SLAM

16+阅读 · 2017年12月31日

2017-最全手势识别/跟踪相关资源大列表分享（论文、数据集、比赛等）

2017-最全手势识别/跟踪相关资源大列表分享（论文、数据集、比赛等）

深度学习与NLP

64+阅读 · 2017年10月29日

相关论文

Self-supervised Learning for Pre-Training 3D Point Clouds: A Survey

Arxiv

5+阅读 · 2023年5月8日

High Quality Large-Scale 3-D Urban Mapping with Multi-Master TomoSAR

Arxiv

0+阅读 · 2023年5月8日

OpenViVQA: Task, Dataset, and Multimodal Fusion Models for Visual Question Answering in Vietnamese

Arxiv

1+阅读 · 2023年5月7日

Generating Virtual On-body Accelerometer Data from Virtual Textual Descriptions for Human Activity Recognition

Arxiv

0+阅读 · 2023年5月4日

Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQLs

Arxiv

0+阅读 · 2023年5月4日

Versatile Multi-Modal Pre-Training for Human-Centric Perception

Versatile Multi-Modal Pre-Training for Human-Centric Perception

Arxiv

16+阅读 · 2022年3月25日

Recovering 3D Human Mesh from Monocular Images: A Survey

Arxiv

12+阅读 · 2022年3月8日

3D Object Detection for Autonomous Driving: A Survey

Arxiv

12+阅读 · 2021年6月21日

SVT-Net: Super Light-Weight Sparse Voxel Transformer for Large Scale Place Recognition

Arxiv

12+阅读 · 2021年5月30日

Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba

Arxiv

15+阅读 · 2018年5月24日

相关基金

基于深度学习的金丝猴面部特性的检测与识别算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂场景下非合作目标鲁棒识别方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

语音同步的高真实感三维人脸情感动画研究

国家自然科学基金

0+阅读 · 2013年12月31日

海量数据驱动的高维材质外观建模方法

国家自然科学基金

0+阅读 · 2013年12月31日

高可靠软件建模语言及模型自动转换方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

PSCA对前列腺癌细胞自分泌IL-6的调控作用及其机制

国家自然科学基金

0+阅读 · 2012年12月31日

语义驱动的个性化虚拟人重建技术研究

国家自然科学基金

1+阅读 · 2012年12月31日

图像统计特性的随机场建模与应用

国家自然科学基金

0+阅读 · 2012年12月31日

基于list-mode数据的快速SART真3D PET断层重建算法的研究

国家自然科学基金

0+阅读 · 2011年12月31日

位移细分曲面的建模和编辑方法

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员