利用AI进行高精度图像编辑︰EditGAN(附链接)

2022 年 3 月 30 日 大数据文摘

大数据文摘转载自数据派THU

作者︰Nathan Horrocks

翻译︰Gabriel Ng

校对:张睿毅


本文为大家介绍了如何利用AI进行高精度图像编辑。


处理猫咪、汽车、甚至是古董画的照片,对于这项工作的需求,在以前从未能像现在一样容易被满足,这归功于一个生成对抗网络 (GAN) 模型,叫做EditGAN。


这项工作出自NVIDIA、多伦多大学和麻省理工学院的研究员们,部署自 DatasetGAN (一个人工智能视觉模型,训练只须用少如 16张人工注释的图像,性能虽然和其他方法一样高效,但其他方法需要100倍更多的图像。EditGAN 有先前模型提供的强大功能,并赋能用户去处理或操控想要的图像,例如绘图,所用的命令很简单,且原始图像质量不降低。


什么是EditGAN?


根据这篇论文:

https://arxiv.org/pdf/2111.03186.pdf


EditGAN 是第一个 GAN 驱动,图像编辑的框架,这个框架同时提供如下功能:

  • 非常高精度的编辑;
  • 仅需要非常低注释的训练数据(并且不需要外界的分类器);
  • 可以实时运行并互动;
  • 允许直接组合多次编辑;
  • 可处理实时嵌入图像、GAN生成图像、甚至超出设定范围的图像。

本模型学习一个定量的编辑向量,这个向量可以在一个图片上多次带反馈地施加。本质上,它形成了一个针对图像集和它们的内容的直观理解,这个直观理解可以被用户权衡使用,在各种特定的修改和编辑中。本模型的学习来源是相似的图像集,它能够识别不同组成部分以及图像内物体的特定部分。一个用户能利用这点,去定向修改不同分块,或者在特定区域内进行编辑。本模型的精确度使得图像不会被用户所设参数之外的因素导致失真。

Fig 1 EditGAN在工作中,模型中训练的人工智能允许用户对原始图像进行改变,有时很戏剧性

“该框架允许我们学习编辑向量时,向量的数量能随意设定,这使得之后这个编辑向量能在其他图像上用互相反馈的方式直接适配。”研究人员在他们的研究中解释道。“我们用实例展示了EditGAN 可能会以之前达不到的程度操控图像的细节和自由度,同时还能保持图像质量完整。我们还可以轻松地合并多个编辑,并做出在 EditGAN 的训练数据中没有的合理编辑操作。我们在多变的图像类型上展示了 EditGAN的优势,并量化分析了它在标准编辑里面的参考线任务中,比之前的几种编辑方法的超水平发挥程度。”

从添加各种微笑、改变某人注视的方向、创造一种新发型,到给汽车一套更好的轮子,研究员展示了究竟一个模型用最少的数据标注量可以逼出多少内在要素。用户可以绘制一个简图,或把想要编辑的部分做一一映射,引导 AI 模型理解修改任务,例如猫耳朵增大或汽车前照灯更酷。这个AI之后渲染图像,同时维持高准确性并保持原始图像的质量。之后,同样的编辑可以应用到其他实时图像上。

Fig 2 一个例子,像素分配到图像的不同部分。AI发现该不同部分并根据人工输入作出编辑

这个GAN的运作原理是?

EditGAN 给图像的每个像素赋值一个类别,例如轮胎、挡风玻璃或车架。这些像素要控制在 AI 当前的空间内,并且这些像素要基于用户输入调整,让用户有轻松,灵活地编辑这些类别的空间。EditGAN 处理仅和所需更改相关的像素。AI了解每个像素的表意是通过模型训练中的其他图像,因此你试不出来这种情况:把猫耳朵加到汽车的图像上,之后AI准确识别出结果。但是当模型正确的情况下,EditGAN 表现非常棒,提供出色的图像编辑结果。

Fig 3 EditGAN能够训练一系列类别的图像集,从动物系列到环境系列的广泛范围,可以使得它形成对内容的细节性理解

EditGAN的潜力

人工智能驱动的编辑照片和图像有可能使得摄影师和内容创作者的工作流更加清晰,将创新和数字艺术赋能到新高度。EditGAN 也赋能入门的摄影师和编辑师,产出高质量内容,或少见的疯传模因(爆款)。

“本人工智能可能会改变我们编辑的方式,不仅关于图片,可能最终也关乎视频。它允许一个人获取图像,并使用简单的文本命令对其更改。如果你有包含一辆汽车的一张照片,并且你想让车轮更大,只需输入“让车轮更大”,噗!—— 一张图片,完全像照片,里面还是那辆车,轮子更大。”– 财富杂志

EditGAN 可能也会未来被用于其他重要的应用上。比如,EditGAN 的编辑能力可以用作:生成大型数据集,包含一些既定特征。此类定制数据集能起到很大作用,比如训练低层次机器学习模型处理不同的计算机视觉任务。

此外,EditGAN 框架可能会影响未来几代 GAN 的发展。虽然当前版本的 EditGAN 专注于图像编辑,但类似的方法也可潜在地被用于编辑 3D 形状和物体,该能力将会高可用地创建虚拟 3D 内容,在游戏、电影或元宇宙领域。

想深入了解有关这种神奇方法的更多信息,请查看论文:
https://arxiv.org/pdf/2111.03186.pdf

英伟达始终站在技术的最前沿,请查看英伟达研究院:
https://www.nvidia.com/en-us/research/

原文链接:
https://developer.nvidia.com/blog/high-precision-image-editing-with-ai-editgan/
原文标题︰
High-precision Image Editing with AI: EditGAN


点「在看」的人都变好看了哦!
登录查看更多
3

相关内容

【CVPR2022】用于全身图像生成的 InsetGAN
专知会员服务
26+阅读 · 2022年3月17日
【NeurIPS 2021】基于潜在空间能量模型的可控和组分生成
专知会员服务
17+阅读 · 2021年10月23日
专知会员服务
22+阅读 · 2021年8月10日
专知会员服务
39+阅读 · 2021年5月16日
 【SIGGRAPH 2020】人像阴影处理,Portrait Shadow Manipulation
专知会员服务
29+阅读 · 2020年5月19日
【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
57+阅读 · 2020年3月6日
AI也可以脑补画面了吗?
阿里技术
0+阅读 · 2021年12月5日
英伟达把P图软件GAN了
量子位
0+阅读 · 2021年12月5日
用GAN也可以P图,效果还不输PS | 英伟达出品
量子位
0+阅读 · 2021年11月12日
CVPR 2018 论文解读 | 基于GAN和CNN的图像盲去噪
PaperWeekly
13+阅读 · 2019年1月22日
基于GAN的极限图像压缩框架
论智
11+阅读 · 2018年4月15日
深度图像先验:无需学习即可生成新图像
论智
45+阅读 · 2017年12月4日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
13+阅读 · 2021年5月25日
Deep learning for cardiac image segmentation: A review
Arxiv
21+阅读 · 2019年11月9日
VIP会员
相关VIP内容
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员