不可思议！DALL·E实现虚拟视频换装，网友：买衣服的钱省了

2022 年 8 月 31 日 机器之心

机器之心报道

编辑：小舟、陈萍

一位twitter博主借助DALL·E模型，成功给视频中的人物虚拟换装。

DALL·E 是 OpenAI 推出的文本转图像模型，生成效果奇幻且逼真。升级为 DALL·E 2 后，生成图像具有更高的分辨率和更低的延迟。值得注意的是，DALL·E 2 还添加了一个图像编辑功能，可以修改图像的部分区域，例如在下图中 3 的位置加一只柯基犬：

现在，twitter 用户 Karen X. Cheng 把 DALL·E 2 的这个编辑功能用在了视频换装上，我们看到视频中的女生在往前走的过程中换了多套衣服，并且丝滑切换，无缝衔接。

要了解这个视频用到的方法，我们首先要了解一下 DALL·E 生成「数字化」服装的能力。日前，一位名为 Paul Trillo 的 twitter 用户此前展示了他与艺术家 Shyama Golden 合作完成的上百套设计服装。

相比于大多数用 AI 进行服装设计的研究，DALL·E 2 的优点就是让设计者可以使用文本描述来扩展设计空间，其文本到图像的强大生成能力可以完成很多新奇的设计思路。

而 Karen X. Cheng 发布的换装视频不仅生成了多套服装，还能在人行走运动的过程中丝滑切换，我们来具体看一下她是怎么做的。

DALL·E + 开源工具

视频作者 Karen X. Cheng 首先涂抹掉现有服装的一部分，然后在上面涂上颜色。这一步她也考虑过涂抹掉整个衣服，但生成结果看起来没有那么好，因此选择保留衣服原有的一小部分，这样一来，DALL·E 能够更好地匹配颜色和照明。

如下动图所示，衣服上身被涂抹掉，最后生成了三种不同类型的上衣。

然后一个关键的难题是 DALL·E 在生成图像方面表现卓越，但在视频上就不太行了，要让 DALL·E 生成的图像实现帧与帧之间的一致性是很困难的。这里 Karen X. Cheng 列举了一些早期试验的失败案例，下面动图在换装时，很明显能看到不同衣服之间存在交叉部分：

可能有人会问，让 DALL·E 在每一帧中生成不同的衣服，衣服存在交叉部分问题就可以解决了。但作者想要的效果是同一套衣服坚持几帧，以实现较好的展示效果，但这是 DALL·E 目前做不到的。

经过一番实验，作者发现了一个可用的工具 EbSynth，该工具主要是将视频素材转换为各种风格的动画。简单来说，就是从一段视频中选出几张图，然后根据自己的喜好，换成你想要的风格，整个视频就能全部变成你期望的画风了。效果如下所示：

EbSynth 擅长风格转换，如果把 DALL·E 生成静态图和 EbSynth 转换视频风格的功能结合起来，就能够形成视频中无缝换装的效果：

最后作者还用到了 DAIN（视频补帧）工具，该工具可以给一些动作场面添加新的帧，让整个视频看起来更加流畅。作者用实验证明了这一点

这样 Karen X. Cheng 就完成了整个换装视频。有网友表示希望作者开设一门课程，专门介绍这项研究，详细解读一下。

还有网友调侃道网络红人甚至不用再买新衣服了：

看来以后穿搭博主的视频也可以用上 DALL·E 这样的 AI 模型了。

参考链接：https://twitter.com/karenxcheng/status/1564626773001719813

掌握「声纹识别技术」：前20小时交给我，后9980小时……

《声纹识别：从理论到编程实战》中文课上线，由谷歌声纹团队负责人王泉博士主讲。

课程视频内容共 12 小时，着重介绍基于深度学习的声纹识别系统，包括大量学术界与产业界的最新研究成果。

同时课程配有 32 次课后测验、10 次编程练习、10 次大作业，确保课程结束时可以亲自上手从零搭建一个完整的声纹识别系统。

点击阅读原文，了解更多课程内容。

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

登录查看更多

相关内容

视频

关注 0

视频

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知会员服务

47+阅读 · 2022年10月31日

视频自监督学习综述

专知会员服务

53+阅读 · 2022年7月5日

搞AR/VR元宇宙实战书！【Manning2022新书】Unity 实战，418页pdf

专知会员服务

95+阅读 · 2022年1月10日

视频处理与压缩技术

专知会员服务

15+阅读 · 2021年3月26日

KDD2020 | 真实世界超图的结构模式和生成模型

专知会员服务

30+阅读 · 2020年8月18日

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

专知会员服务

58+阅读 · 2020年5月26日

Google 发布图片配对基准及挑战：从系列图像重建三维物体和建筑物

专知会员服务

40+阅读 · 2020年4月4日

【大佬约架】Yoshua Bengio与Gary Marcus之圣诞AI论战「 AI 之道」，附视频地址与slides下载

专知会员服务

24+阅读 · 2019年12月25日

【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换

专知会员服务

36+阅读 · 2019年12月15日

【ICIP 2019 Tutorials】图像到图像的转换（Image-to-Image Translation）,英伟达研究员Ming-Yu Liu

专知会员服务

27+阅读 · 2019年8月10日

自导自演皮克斯动画不再是梦，这个工具实现了高分辨率、高度可控的真人视频转动画

机器之心

1+阅读 · 2022年10月9日

真·拿嘴做视频！Meta「AI导演」一句话搞定视频素材，网友：我已跟不上AI发展速度

量子位

1+阅读 · 2022年9月30日

英伟达：从图像中抽象出概念再生成新的图像，网友：人类幼崽这个技能AI终于学会了

量子位

0+阅读 · 2022年8月13日

GPT-3组合DALL·E，60秒内搞定游戏设定和原型动画！网友看后：这游戏想玩

量子位

0+阅读 · 2022年8月6日

《哈利·波特》的赫敏本该长这样？DALL·E2「还原」小说人物形象

机器之心

0+阅读 · 2022年7月27日

OpenAI的DALL·E迎来升级，不止文本生成图像，还可二次创作

机器之心

1+阅读 · 2022年4月7日

这款AI语音模型让派大星承认自己是钢铁侠，造假小扎对口型，火到挤爆服务器|在线可玩

量子位

0+阅读 · 2021年12月27日

试试这个！效果爆炸的漫画变身AI，火到服务器几度挤爆

THU数据派

1+阅读 · 2021年11月23日

英伟达又一次突破想象力！一句话实时P图在线Demo可玩，「神笔马良」升级「创世纪」

量子位

0+阅读 · 2021年11月23日

加强版CycleGAN！贾佳亚等提出卡通图与真实人脸转换模型，看女神突破次元壁长啥样

量子位

10+阅读 · 2019年7月11日

有氧运动通过LncRNAs调控miR-492/resistin表达改善主动脉内皮胰岛素抵抗的机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向视频立体化应用的运动人体三维建模方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

语音同步的高真实感三维人脸情感动画研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于部分参考图像质量评估的二维矢量图形快速渲染技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

中国传统艺术计算审美与数字解构艺术绘制研究

国家自然科学基金

3+阅读 · 2012年12月31日

高精细模型的向量位移映射表示及几何处理

国家自然科学基金

0+阅读 · 2011年12月31日

基于反向纹理合成的视频编码技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于2D视频视觉关注度的3D重建方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

GPU加速的视频抽象化和卡通化

国家自然科学基金

0+阅读 · 2009年12月31日

基于结构分析的视频卡通风格绘制技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

NeuralUDF: Learning Unsigned Distance Fields for Multi-view Reconstruction of Surfaces with Arbitrary Topologies

Arxiv

0+阅读 · 2022年11月25日

Unifying conditional and unconditional semantic image synthesis with OCO-GAN

Arxiv

0+阅读 · 2022年11月25日

Efficient Incremental Text-to-Speech on GPUs

Arxiv

0+阅读 · 2022年11月25日

Multi-label Few-shot ICD Coding as Autoregressive Generation with Prompt

Arxiv

0+阅读 · 2022年11月24日

Latent Video Diffusion Models for High-Fidelity Video Generation with Arbitrary Lengths

Arxiv

0+阅读 · 2022年11月23日

Nonlinear Equivariant Imaging: Learning Multi-Parametric Tissue Mapping without Ground Truth for Compressive Quantitative MRI

Arxiv

0+阅读 · 2022年11月23日

Exploiting Fine-grained Face Forgery Clues via Progressive Enhancement Learning

Arxiv

12+阅读 · 2021年12月28日

A Survey on Neural Speech Synthesis

Arxiv

14+阅读 · 2021年6月30日

3D Hand Shape and Pose Estimation from a Single RGB Image

Arxiv

17+阅读 · 2019年3月3日

Dynamic Graph Neural Networks

Arxiv

24+阅读 · 2018年10月24日

VIP会员