朱俊彦团队最新论文：用GAN监督学习给左晃右晃的猫狗加表情，很丝滑很贴合

会员服务 ·

朱俊彦团队最新论文：用GAN监督学习给左晃右晃的猫狗加表情，很丝滑很贴合

2021 年 12 月 19 日 量子位

丰色发自凹非寺
量子位报道 | 公众号 QbitAI

GAN又被开发出一项“不正经”用途。

给猫狗加表情：

给马斯克加胡子：

不管视频中的脑袋怎么左晃右晃，这些表情都能始终如一地贴合面部，且每一帧都表现得非常丝滑。

这就是朱俊彦等人的最新研究成果：

一种利用GAN监督学习实现的密集视觉对齐（Visual alignment）方法。

该方法的性能显著优于目前的自监督算法，在多个数据集上的性能都与SOTA算法相当，有的甚至还实现了两倍超越。

用GAN监督学习实现密集视觉对齐

视觉对齐是计算机视觉中光流、3D匹配、医学成像、跟踪和增强现实等应用的一个关键要素。

直白地说，比如在人脸识别中，就是不管一张脸是倒着立着还是歪着，任何角度都可以精确识别出哪块是眼睛哪块是鼻子。

而开创性的无监督视觉对齐方法Congealing，在MNIST digits这种简单的二值图像（binary images）上表现得出奇好，在处理大多数具有显著外观和姿势变化的数据集上就差了点。

为了解决这个问题，该团队提出了这个叫做GANgealing的新视觉对齐方法。

它是一种GAN监督算法，同时也受到Congealing的启发。

Congealing模型的框架如下：

首先，在未对齐的数据上训练生成器G。

然后在生成器G的潜空间中通过学习模式c，来创建一个合成数据集以进行后续对齐。

接着使用该数据集训练空间变换网络T（STN，Spatial Transformer Networks），最后在预测和目标图像中使用感知损失将未对齐的图像映射到相应的对齐图像。

该算法的关键是利用GAN的潜空间（在未对齐的数据上训练）为STN自动生成成对的训练数据。

并且在这个GAN监督学习框架中，STN和目标图像实现联合学习模式，STN专门使用GAN图像进行训练，并在测试时推广到真实图像。

实际效果如何？

实验发现，GANgealing在八个数据集（自行车、狗、猫、汽车、马、电视等）上都能准确找出图片之间的密集对应关系。

其中，每个数据集的第一行表示未对齐的图像和数据集的平均图像（每行最右那张），第二行为转换后的对齐效果，第三行则显示图像之间的密集对应关系。

在图像编辑应用中，GANgealing可以只在平均图像（下图最左）进行示范，就能在数据集中的其他图像上实现同样的效果——不管这些图像的角度和姿势变换有多大。

比如第一行为给小猫加蝙蝠侠眼镜，最后一行为给汽车车身贴上黑色图案。

在视频编辑中，GANgealing在每一帧上的效果都相当丝滑，尤其是和监督光流算法（比如如RAFT）对比，差距非常明显：

因此作者也表示，GANgealing可以用在混合现实应用中。

而在定量实验中，GANgealing在非常精确的阈值（<2像素误差容限）条件下优于现有的监督方法，在有的数据集上甚至表现出很大的优势。

再在具有挑战的SPair-71K数据集上将GANgealing与几种自监督SOTA方法进行性能评估。

比的则是PCK-Transfer值（PCK，percentage of keypoints），它衡量的是关键点从源图像转换到目标图像的百分比。

结果发现，GANgealing在3个类别上的表现都明显优于目前的方法，尤其是在自行车和猫图集上实现了对自监督方法CNNgeo和A2Net的两倍超越。

当然，GANgealing在数据集图片与示例差太多时表现得就不太好，比如面对下面这种侧脸的猫以及张开翅膀的小鸟。

作者介绍

GANgealing的作者们分别来自UC伯克利、CMU、Adobe以及MIT。

一作为UC伯克利三年级的博士生Bill Peebles，研究方向为无监督学习，重点是图像和视频的深度生成模型。

目前在CMU担任助理教授的青年大牛朱俊彦也在其中。

通讯作者为Adobe Research的高级首席科学家Eli Shechtman，他发表了100多篇论文，曾获得ECCV 2002最佳论文奖、WACV 2018最佳论文奖、FG 2020最佳论文亚军以及ICCV 2017的时间检验奖等荣誉。

论文地址：
https://arxiv.org/abs/2112.05143

代码：
https://github.com/wpeebles/gangealing

项目主页：

https://www.wpeebles.com/gangealing

— 完 —

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容，未经账号授权，禁止随意转载。

「智能汽车」交流群招募中！

欢迎关注智能汽车、自动驾驶的小伙伴们加入社群，与行业大咖交流、切磋，不错过智能汽车行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

相关内容

GAN监督学习

关注 0

【CVPR2022】好玩有趣的新成果：GAN监督学习实现密集视觉对齐（代码开源，附slides，伯克利、CMU、MIT等联合发表）

专知会员服务

30+阅读 · 2022年3月16日

如何造出逼真图像？南洋理工Chuanxia Zheng博士论文《基于深度生成学习的逼真图像合成》197页pdf阐述视觉合成工作

专知会员服务

51+阅读 · 2022年3月9日

【ICCV2021】一张草图训练可控的GAN？CMU朱俊彦团队

专知会员服务

22+阅读 · 2021年8月10日

【CVPR2021】自监督几何感知

专知会员服务

46+阅读 · 2021年3月6日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

注意力机制YYDS，AI编辑人脸终于告别P一处而毁全图

量子位

0+阅读 · 2022年2月16日

朱俊彦团队最新论文：用GAN监督学习给猫狗加表情！真的很丝滑！

CVer

0+阅读 · 2021年12月29日

用GAN也可以P图，效果还不输PS | 英伟达出品

量子位

0+阅读 · 2021年11月12日

加强版CycleGAN！贾佳亚等提出卡通图与真实人脸转换模型，看女神突破次元壁长啥样

量子位

10+阅读 · 2019年7月11日

头像神器！照片一键秒转简笔画，清华刘永进等CVPR 19 Oral研究 | 在线可玩

量子位

18+阅读 · 2019年6月16日

融合多尺度稀疏与稠密特征结构的透视不变图像匹配模型研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向概念车外形设计的高层次几何处理方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向多场景图像自适应的三维人脸建模研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于语义的图像合成

国家自然科学基金

0+阅读 · 2011年12月31日

表情人脸的视觉认知与智能计算

国家自然科学基金

0+阅读 · 2009年12月31日

Fully Dynamic All Pairs All Shortest Paths

Arxiv

0+阅读 · 2022年4月20日

Sound-Guided Semantic Video Generation

Arxiv

0+阅读 · 2022年4月20日

A Dynamic 3D Spontaneous Micro-expression Database: Establishment and Evaluation

Arxiv

0+阅读 · 2022年4月20日

StyleT2F: Generating Human Faces from Textual Description Using StyleGAN2

Arxiv

0+阅读 · 2022年4月17日

GAN Inversion: A Survey

Arxiv

19+阅读 · 2021年1月14日

VIP会员