点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
Conversation Head Generation
MM 2022 Challenge
01
比赛介绍
✦
在面对面的交流中,讲者通过与听者的反应保持同步,明确地传递语言及非语言的动作、表情等信息,而听者则通过非语言的行为(如点头、微笑、摇头等)来表示接收信息,并向讲者提供实时的响应性反馈。在面对面的人机交互过程中,生成生动的讲者视频和能够表达带有响应性的倾听行为的听者对数字人来说都是至关重要的。
这项挑战基于"ViCo"数据集——迄今为止第一个包含各种场景下面对面对话视频片段的视频对话数据集。ViCo数据集来源于从YouTube上选取的对话视频片段,其中每个片段包含两个人的正面脸,且严格遵循一个视频片段只包含唯一识别的听者和讲者的原则、并要求听者对讲者的对话内容有响应性的非语言反馈。
该竞赛与ACM MultiMedia 2022联合举办。参赛者可以提交4页的论文至workshop,优胜者则可以在workshop上展示他们的工作,并获得证书。欢迎大家报名参赛。
02
比赛时间
✦
训练集公布 |
2022.03.31 |
比赛开始 |
2022.04.08 |
测试集下载 |
2022.05.23 |
结果提交截止 |
2022.06.03 |
结果宣布 |
2022.06.08 |
论文提交截止 |
2022.06.18 |
论文接收通知 |
2022.07.07 |
Camera Ready |
2022.07.20 |
03
比赛内容
✦
本次比赛分为两个赛道:
Vivid Talking Head Video Generation
旨在给定讲者identity image和音频信号的情况下,生成一段生动的讲者头部视频
Responsive Listening Head Video Generation
旨在给定听者identity image、讲者的视频及音频信号的情况下,生成一段生动的、能响应讲者的听者头部视频
生成的视频应当是清晰的、生动的并且保存该人的identity信息。一般来说,我们鼓励数字人去模拟如何与用户交谈、观看和倾听,就像在面对面的交谈中理解话语背后的含义一样。
04
基线代码
✦
组织方同时在github提供了一套baseline方法及相应代码,代码中除包含数据预处理、特征抽取、模型训练、视频渲染等全套流程外,还包含一些列评估脚本:如评估生成质量的SSIM,CPBD,PNSR,FID、评估identity信息的CSIM、评估表情和头部运动的特征距离、针对讲者评估唇部运动的Lip Sync、LMD等。
如下为生成视频样例(更多视频样例见比赛官方网站):
05
联系方式
✦
比赛网站:http://vico-challenge.github.io/
基线代码:https://github.com/dc3ea9f/vico_challenge_baseline
联系邮箱:mhzhou99@outlook.com
ICCV和CVPR 2021论文和代码下载
后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集
后台回复:ICCV2021,即可下载ICCV 2021论文和代码开源的论文合集
后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF
图像分割和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer6666,即可添加CVer小助手微信,便可申请加入CVer-图像分割或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如图像分割或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信: CVer6666,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!
▲扫码进群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看