不如跳舞！伯克利的舞蹈动作迁移效果逆天

2018 年 8 月 25 日 论智

来源：arXiv

编译：Bing

编者按：UC Berkeley近日发表了一篇论文，题目简洁明了：Everybody Dance Now，大家一起跳起来！没错，这个被网友称为“mad lab”的实验室提出了一种框架，把专业舞蹈演员的动作迁移到不会跳舞的人身上，不论是酷酷的街舞还是优雅的芭蕾，效果简直是神同步，流畅度和还原度都非常高。下面跟着论智一起看看这篇论文吧。

我们在这篇文章中提出了一个简单的方法进行动作迁移：首先选择一支单人跳舞视频作为源视频，几分钟后，在另一个目标视频上（完全不会跳舞的人）会呈现同样的动作。我们将这一问题看作是每一帧上图像到图像的转换，同时保证时间和空间的流畅。用动作探测器作为源视频和目标视频中间的表示，我们学习了一种从舞者动作画面到目标物体的映射，并且对这一设置进行调整，让它与视频完美融合，同时还加上了真实的人脸合成。

先放个视频感受一下这惊艳的效果，在后半部分的补充案例中，还展示了芭蕾舞的迁移。可以看到，原视频中芭蕾舞演员的大腿部分被裙子遮挡，但是映射到目标视频中，大腿动作也能正确呈现，效果满分！

简介

我们提出了一种方法，实现了动作在不同视频中的不同人物之间的转换。现在有两段视频，其中一段是我们希望进行合成的目标（不会跳舞的人），另一个是模仿的源视频（专业舞者）。我们通过基于像素的端到端通道实现了这一动作迁移。这一方法与过去二十年常见的最近邻搜索或3D中的重新制定目标动作不同。通过这一框架，我们让很多未经训练的人跳出了芭蕾和街舞。

为了实现两视频之间每帧的动作迁移，我们必须学习一种两个人物之间的映射。我们的目标是在源视频和目标视频之间进行图像到图像的转换。然而，我们没有两个目标物体做出同样动作的图片，也就无法直接对这一转换进行监督学习。即使视频中的两个人做出一系列同样的动作，还是很难提取每一帧的姿势，因为身体形状和风格完全不同。

我们发现，能体现身体各部分位置的关键点可以用作二者之间的表示。于是，我们设计了用来体现动作的“中间表示（火柴人）”，如图所示：

从目标视频中，我们用动作识别器为每一帧制作了(火柴人, 目标人物图像)的组合。有了这样相关的数据，我们就能用监督方法学习火柴人和目标人物之间图像到图像的转换模型了。于是，我们的模型通过训练，可以生成个性化的视频。之后，为了将源视频的动作迁移到目标视频中，我们把火柴人输入到经过训练的模型后，得到和源视频中人物相同的目标动作。另外，为了提高生成的质量，我们添加了两个元素。为了使生成的模型更流畅，我们都会根据上一帧对目前的帧进行预测。为了提高生成人脸的真实性，我们还加入了经过训练的GAN来生成目标人物的脸部。