让图片动起来，特朗普和蒙娜丽莎深情合唱《Unravel》

会员服务 ·

让图片动起来，特朗普和蒙娜丽莎深情合唱《Unravel》

2020 年 9 月 28 日 THU数据派

来源：Jack Cui

本文约 2861字 ，建议阅读 6分钟。

本文介绍了DeepFake 一阶运动模型，让万物皆可动，再使用 OpenCV 和 ffmpeg 做视频、音频和图像的处理，让图片“学会”唱歌。

前言

让一张图片，动起来，应该怎么做？

DeepFake 一阶运动模型，让万物皆可动。

利用这项技术，用特朗普和蒙娜丽莎的图片，合唱一首《Unravel》，是什么效果？

今天，它来了！

今天，继续手把手教学。

算法原理、环境搭建、效果实现，一条龙服务，尽在下文！

算法原理

First Order Motion，也就是一阶运动模型，来自 NeurIPS 2019 论文。

「First Order Motion Model for Image Animation」

论文最初的目的是让「静态图片」动起来。如下图所示：“你动，它也动”。

这个模型可以轻易地让「权利的游戏」中的人物模仿特朗普进行讲话，还可以让静态的马跑起来等。

一阶运动模型的思想是用一组自学习的关键点和局部仿射变换来建立复杂运动模型。

模型由运动估计模块和图像生成模块两个主要部分组成。

首先进行关键点检测，然后根据关键点，进行运动估计，最后使用图像生成模块，生成最终效果。

在运动估计模块中，该模型通过自监督学习将目标物体的外观和运动信息进行分离，并进行特征表示。

而在图像生成模块中，模型会对目标运动期间出现的遮挡进行建模，然后从给定的图片中提取外观信息，结合先前获得的特征表示，生成图片。

作者使用该算法在四个数据集上进行了训练和测试。

VoxCeleb 数据集、UvA-Nemo 数据集、The BAIR robot pushing dataset、作者自己收集的数据集。

其中，VoxCeleb 是一个大型人声识别数据集。

它包含来自 YouTube 视频的 1251 位名人的约 10 万段语音，同时数据基本上是性别平衡的（男性占 55％），这些名人有不同的口音、职业和年龄。

First Order Motion 利用了这个数据集的视频图像，进行了模型训练。

我们就可以利用这个训练好的，人脸的运动估计模型，完成我们今天的任务。

「特朗普和蒙娜丽莎的深情合唱」。

除了需要用到这个一阶运动模型，还需要使用 OpenCV 和 ffmpeg 做视频、音频和图像的处理。

具体的实现，在下文的「效果实现」中说明。

环境搭建

效果实现上，我们可以直接用已有的库去实现我们想要的功能。

「Real Time Image Animation」

项目地址：

https://github.com/anandpawara/Real_Time_Image_Animation

Python 为什么这么受欢迎，就是因为这一点。

有很多开源项目，方便我们快速实现自己想要的功能，极大降低了开发成本。

真是，谁用谁知道啊。

环境搭建，还是建议使用 Anaconda，安装一些必要的第三方库，可以参考这篇开发环境搭建的内容：

《Pytorch深度学习实战教程（一）：语义分割基础与环境搭建》

这个项目需要用到的第三方库，也都写的很全：

https://github.com/anandpawara/Real_Time_Image_Animation/blob/master/requirements.txt

直接使用 pip 安装即可：

python -m pip install -r requirements.txt

此外，为了处理音频和视频，还需要配置 ffmpeg。

安装好 ffmpeg 并配置好环境变量即可。

ffmpeg 下载地址：

https://ffmpeg.zeranoe.com/builds/

效果实现

实现也非常简单。

首先，整理一下思路：

「Real Time Image Animation」使用一阶运动模型，根据已有视频，让静态图动起来。

左图为原始图片，中间为生成结果，右侧为原始视频。

但是，这个项目只能处理图像，不能保留音频。

所以，我们需要先将音频保存，再将处理好的视频和音频进行合成。

这个功能，就用我们下载好的 ffmpeg 实现。

编写如下代码：

import subprocessimport osfrom PIL import Image
def video2mp3(file_name):    """    将视频转为音频    :param file_name: 传入视频文件的路径    :return:    """    outfile_name = file_name.split('.')[0] + '.mp3'    cmd = 'ffmpeg -i ' + file_name + ' -f mp3 ' + outfile_name    subprocess.call(cmd, shell=True)
def video_add_mp3(file_name, mp3_file):    """     视频添加音频    :param file_name: 传入视频文件的路径    :param mp3_file: 传入音频文件的路径    :return:    """    outfile_name = file_name.split('.')[0] + '-f.mp4'    subprocess.call('ffmpeg -i ' + file_name                    + ' -i ' + mp3_file + ' -strict -2 -f mp4 '                    + outfile_name, shell=True)

搞定，视频转音频，以及音频合成都搞定了。

我们需要对「Real Time Image Animation」这个项目进行修改，修改 image_animation.py 文件。

import imageioimport torchfrom tqdm import tqdmfrom animate import normalize_kpfrom demo import load_checkpointsimport numpy as npimport matplotlib.pyplot as pltimport matplotlib.animation as animationfrom skimage import img_as_ubytefrom skimage.transform import resizeimport cv2import osimport argparse
import subprocessimport osfrom PIL import Image
def video2mp3(file_name):    """    将视频转为音频    :param file_name: 传入视频文件的路径    :return:    """    outfile_name = file_name.split('.')[0] + '.mp3'    cmd = 'ffmpeg -i ' + file_name + ' -f mp3 ' + outfile_name    print(cmd)    subprocess.call(cmd, shell=True)

def video_add_mp3(file_name, mp3_file):    """     视频添加音频    :param file_name: 传入视频文件的路径    :param mp3_file: 传入音频文件的路径    :return:    """    outfile_name = file_name.split('.')[0] + '-f.mp4'    subprocess.call('ffmpeg -i ' + file_name                    + ' -i ' + mp3_file + ' -strict -2 -f mp4 '                    + outfile_name, shell=True)
ap = argparse.ArgumentParser()ap.add_argument("-i", "--input_image", required=True,help="Path to image to animate")ap.add_argument("-c", "--checkpoint", required=True,help="Path to checkpoint")ap.add_argument("-v","--input_video", required=False, help="Path to video input")
args = vars(ap.parse_args())
print("[INFO] loading source image and checkpoint...")source_path = args['input_image']checkpoint_path = args['checkpoint']if args['input_video']:    video_path = args['input_video']else:    video_path = Nonesource_image = imageio.imread(source_path)source_image = resize(source_image,(256,256))[..., :3]
generator, kp_detector = load_checkpoints(config_path='config/vox-256.yaml', checkpoint_path=checkpoint_path)
if not os.path.exists('output'):    os.mkdir('output')

relative=Trueadapt_movement_scale=Truecpu=False
if video_path:    cap = cv2.VideoCapture(video_path)     print("[INFO] Loading video from the given path")else:    cap = cv2.VideoCapture(0)    print("[INFO] Initializing front camera...")
fps = cap.get(cv2.CAP_PROP_FPS)size = (int(cap.get(cv2.CAP_PROP_FRAME_WIDTH)), int(cap.get(cv2.CAP_PROP_FRAME_HEIGHT)))

video2mp3(file_name = video_path)


fourcc = cv2.VideoWriter_fourcc('M','P','E','G')#out1 = cv2.VideoWriter('output/test.avi', fourcc, fps, (256*3 , 256), True)out1 = cv2.VideoWriter('output/test.mp4', fourcc, fps, size, True)
cv2_source = cv2.cvtColor(source_image.astype('float32'),cv2.COLOR_BGR2RGB)with torch.no_grad() :    predictions = []    source = torch.tensor(source_image[np.newaxis].astype(np.float32)).permute(0, 3, 1, 2)    if not cpu:        source = source.cuda()    kp_source = kp_detector(source)    count = 0    while(True):        ret, frame = cap.read()        frame = cv2.flip(frame,1)        if ret == True:
            if not video_path:                x = 143                y = 87                w = 322                h = 322                 frame = frame[y:y+h,x:x+w]            frame1 = resize(frame,(256,256))[..., :3]
            if count == 0:                source_image1 = frame1                source1 = torch.tensor(source_image1[np.newaxis].astype(np.float32)).permute(0, 3, 1, 2)                kp_driving_initial = kp_detector(source1)
            frame_test = torch.tensor(frame1[np.newaxis].astype(np.float32)).permute(0, 3, 1, 2)
            driving_frame = frame_test            if not cpu:                driving_frame = driving_frame.cuda()            kp_driving = kp_detector(driving_frame)            kp_norm = normalize_kp(kp_source=kp_source,                                kp_driving=kp_driving,                                kp_driving_initial=kp_driving_initial,                                 use_relative_movement=relative,                                use_relative_jacobian=relative,                                 adapt_movement_scale=adapt_movement_scale)            out = generator(source, kp_source=kp_source, kp_driving=kp_norm)            predictions.append(np.transpose(out['prediction'].data.cpu().numpy(), [0, 2, 3, 1])[0])            im = np.transpose(out['prediction'].data.cpu().numpy(), [0, 2, 3, 1])[0]            im = cv2.cvtColor(im,cv2.COLOR_RGB2BGR)            #joinedFrame = np.concatenate((cv2_source,im,frame1),axis=1)            #joinedFrame = np.concatenate((cv2_source,im,frame1),axis=1)
            #cv2.imshow('Test',joinedFrame)            #out1.write(img_as_ubyte(joinedFrame))            out1.write(img_as_ubyte(im))            count += 1#            if cv2.waitKey(20) & 0xFF == ord('q'):#                break        else:            break
    cap.release()    out1.release()    cv2.destroyAllWindows()
video_add_mp3(file_name='output/test.mp4', mp3_file=video_path.split('.')[0] + '.mp3')

然后下载算法需要的权重文件和视频图片素材。

修改好的代码、权重文件、视频图片素材，我都已经打包好了，拿来直接用也可以。

下载链接（密码:amz5）：

https://pan.baidu.com/s/1TEd7SOaO5mzPaxpOh2pALQ

运行命令：

python image_animation.py -i path_to_input_file -c path_to_checkpoint -v path_to_video_file

path_to_input_file 是输入的模板图片。

path_to_checkpoint 是权重文件路径。

path_to_video_file 是输入的视频文件。

如果使用我打包好的程序，可以使用如下指令直接运行，获得文章开头的视频：

python image_animation.py -i Inputs/trump2.png -c checkpoints/vox-cpk.pth.tar -v 1.mp4

最后生成的视频存放在 output 文件夹下。

大功告成！

最后

算法处理视频的速度很快，用 GPU 几秒钟就能搞定。

我还生成了 PDD 演唱《Unravel》版，最后再回味一下。

—— END ——

登录查看更多

相关内容

MP3

关注 1

MP3是当今较流行的一种数字音频编码和有损压缩格式，它设计用来大幅度地降低音频数据量，而对于大多数用户的听觉感受来说，重放的音质与最初的不压缩音频相比没有明显的下降。它是在1991年，由位于德国埃尔朗根的研究组织Fraunhofer-Gesellschaft的一组工程师发明和标准化的。

【Twitter】时序图神经网络

专知会员服务

95+阅读 · 2020年10月15日

【CVPR2020-Facebook AI】单样本自适应域脸生成，One-Shot Domain Adaptation

专知会员服务

29+阅读 · 2020年4月6日

【DeepMind-牛津-CMU-CVPR2020】无监督词映射视觉基准，Visual Grounding in Video

专知会员服务

12+阅读 · 2020年3月13日

【DeepMind-牛津-CMU-CVPR2020】无监督文字翻译视频中的视觉基础，Visual Grounding in Video for Unsupervised Word Translation

专知会员服务

13+阅读 · 2020年3月12日

【干货】用BRET进行多标签文本分类（附代码）

专知会员服务

85+阅读 · 2019年12月27日

有了这个开源项目，说你是老板都有人信？

程序猿

3+阅读 · 2019年9月8日

框一下就能从视频隐身，这是现实版的「隐身衣」？

机器之心

5+阅读 · 2019年7月9日

当你的头出现在A片演员的身体上

PingWest品玩

7+阅读 · 2019年1月6日

特朗普飙中文、董明珠闯红灯：细数 2018 人工智能的 10 个逗趣瞬间

雷锋网

4+阅读 · 2019年1月2日

神奇女侠演员下海拍片？都是 ML 算法搞的……这是如何做到的？

Linux爱好者

18+阅读 · 2017年12月17日

Single-Shot Freestyle Dance Reenactment

Arxiv

0+阅读 · 2020年12月2日

Class-agnostic Object Detection

Arxiv

0+阅读 · 2020年11月28日

Exploring the Semantics for Visual Relationship Detection

Arxiv

3+阅读 · 2019年4月3日

Phrase-Based & Neural Unsupervised Machine Translation

Arxiv

4+阅读 · 2018年4月20日

Two can play this Game: Visual Dialog with Discriminative Question Generation and Answering

Arxiv

8+阅读 · 2018年3月29日

VIP会员