谷歌P图神器来了！不用学不用教，输入一句话，分分钟给结果

会员服务 ·

谷歌P图神器来了！不用学不用教，输入一句话，分分钟给结果

2022 年 11 月 6 日 量子位

Pine 发自凹非寺
量子位 | 公众号 QbitAI

当你拍照片时，“模特不好好配合”怎么办？

没事！现在只用一句话就能后期P图了，还是能改变动作、表情的那种！

比如说你能轻松让鸟张开翅膀（输入“张开翅膀的鸟”即可）：

又或者说，想要让一只站立的狗蹲下：

看起来还真不赖！而这个新的“P图”方法呢，名叫Imagic，是基于爆火的扩散模型（Diffusion Model）来实现的。

是的，又是扩散模型，它的能耐想必也不用多介绍了吧（那看那铺天盖地和它相关的论文就能佐证）。

那在扩散模型加持下的Imagic到底有何厉害之处，话不多说，一起来看看吧！

多达6种功能

据不完全统计，Imagic的功能就有6种。

改变姿势、变换构图、切换滤镜、多个对象编辑、添加对象、更改颜色……

先来看看这个P图神器改变姿势的效果，比如说输入一条站立的狗，通过变换提示文字，得到的效果是酱紫的～

或者说输入一个随意站立的人，输入口令，他就“乖乖听话，任你摆布”（手动狗头）了，甚至还能凭空出现一个水杯。

还没看够？那再来康康Imagic其他功能：改变颜色，或者增加对象，也可以多种功能同时使用。

总的来说，Imagic的厉害之处太多，这里就不一一详细展开了，效果可以看下图。

除了这么多功能之外，Imagic还有另外一个比较人性化的点，就是当你告诉它要如何“P图”后，它会随机生成几个不同的选项供你选择。

其实这种在真实图像上编辑的模型Imagic不是第一个，在此之前就已经有很多个类似的模型。

这时就会有网友问了，“Imagic有什么厉害的点呢？”

话不多说，直接上效果对比。

这里选取了比较常见的基于真实图像编辑的两个模型：SDEdit、Text2LIVE与Imagic作对比。

结果很显然，Imagic完成“P图指令”的效果很好，在细节上也丝毫不逊色其他模型。

（确实妙啊）

那Imagic是如何“击败”SDEdit、Text2LIVE，实现这样的效果呢？

是怎样实现的

千言万语汇成四个字：扩散模型，在论文的标题上它都赫然在列。

具体到Imagic中，扩散模型的作用是如何发挥出来的，来看看详细的“P图”过程。

整体来说分为三大步。

第一步是优化文本嵌入层。

具体来说，先给定输入的图像和目标文本，然后对目标文本进行编码，得到初始的嵌入层。

然后不断调整初始嵌入层，让其能够通过预先训练的扩散模型很好地重建输入图像。

这样一来，最终便会得到优化后的嵌入层（能够很好地重建输入图像）。

第二步是对扩散模型进行微调，这时就要用到上一步已经优化之后的嵌入层，让嵌入层经过模型后重建输入图像。

在重建的过程，需要不断更改模型中损失函数的参数，以让模型适应优化后的输入层，直到能够很好地重建输入图像时为止，这样一来便得到了微调之后的模型。

第三步就要开始正式P图了。

值得一提的是，这一步除了输入初始的目标嵌入层（tgt）外，还会插入优化好的嵌入层（opt），它们的关系如下图。

通过变换参数，实际的效果如下图。

如果你想更加详细地了解Imagic，可以戳文末链接阅读论文原文。

研究团队

Imagic的六位作者均来自Google Research，论文有两位第一作者：Bahjat Kawar和Shiran Zada，均来自以色列。

值得一提的是，Bahjat Kawar还是一位以色列理工学院在读博士，他是在Google Research实习期间完成了这项研究。

而Shiran Zada今年5月刚加入Google Research，目前是计算机视觉研究员。

他曾在微软担任软件工程师以及技术主管的职务，主要负责网络安全相关的项目开发。

参考链接：
[1]https://arxiv.org/abs/2210.09276
[2]https://twitter.com/Buntworthy/status/1582307817884889088
[3]https://github.com/justinpinkney/stable-diffusion/blob/main/notebooks/imagic.ipynb

— 完 —

MEET 2023 大会启动

邀你共论智能产业穿越周期之道

今年12月，MEET2023智能未来大会将再度邀请智能科技产业、科研、投资领域大咖嘉宾，共同探讨人工智能行业破局之道。

欢迎智能科技企业参会，分享突破性成果，交流时代级变革，共襄盛会！点击链接或下方图片查看大会详情：

量子位「MEET 2023智能未来大会」启动，邀你共论智能产业穿越周期之道

点这里关注我 👇 记得标星噢 ~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

登录查看更多

相关内容

扩散模型

关注 34

扩散模型是近年来快速发展并得到广泛关注的生成模型。它通过一系列的加噪和去噪过程，在复杂的图像分布和高斯分布之间建立联系，使得模型最终能将随机采样的高斯噪声逐步去噪得到一张图像。

扩散模型数学太难？经典扩散模型DDPM手把手Pytorch代码实现，对照数学公式详解

专知会员服务

123+阅读 · 2022年9月8日

多模态图像合成与编辑这么火，马普所、南洋理工等出了份详细综述

专知会员服务

30+阅读 · 2022年8月24日

5400亿！谷歌「Pathways语言模型」发布，能理解做推理生成代码

专知会员服务

40+阅读 · 2022年4月5日

【MM 2021】基于单张图像的多风格说话人合成，Imitating Arbitrary Talking Style for Realistic Audio-Driven Talking Face Synthesis

专知会员服务

6+阅读 · 2022年3月22日

基于预训练语言模型的文本生成

专知会员服务

29+阅读 · 2022年1月28日

Google-EfficientNet v2来了！更快，更小，更强！

专知会员服务

19+阅读 · 2021年4月4日

【ACM MM2020】对偶注意力GAN语义图像合成

专知会员服务

36+阅读 · 2020年9月2日

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

【AAAI2020论文-清华大学】基于人物稀疏数据的预训练个性化对话生成模型（A Pre-training Based Personalized Dialogue Generation Model with Persona-sparse Data）

专知会员服务

29+阅读 · 2019年11月15日

英伟达「一句话生成3D模型」碾压谷歌：分辨率清晰8倍，速度快2倍，编辑文本还可直接修改

量子位

1+阅读 · 2022年11月22日

Stable Diffusion新玩法，一句话帮你换图，网友魔改《戴珍珠耳环的少女》长这样

机器之心

2+阅读 · 2022年10月23日

一句话生成3D模型，但只需2D数据训练｜谷歌&UC Berkeley

量子位

0+阅读 · 2022年10月4日

千万别让富坚义博看到这个

量子位

0+阅读 · 2022年7月22日

这个“1句话生成视频”AI爆火：支持中文输入，分辨率达到480×480，清华&智源出品

量子位

0+阅读 · 2022年6月3日

二次元萌妹在电车上顺拐啾咪为哪般？

量子位

0+阅读 · 2022年2月20日

3D模型“换皮肤”有多简单？也就一句话的事

量子位

0+阅读 · 2021年12月29日

AI也可以脑补画面了吗？

阿里技术

0+阅读 · 2021年12月5日

图像、视频生成大一统！MSRA+北大全华班「女娲」模型怒刷8项SOTA，完虐OpenAI DALL-E

新智元

0+阅读 · 2021年11月26日

英伟达又一次突破想象力！一句话实时P图在线Demo可玩，「神笔马良」升级「创世纪」

THU数据派

0+阅读 · 2021年11月24日

基于记忆学习与免疫系统的仿生控制研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于sEMG信号的下肢康复机器人肌力预测模型与交互式自适应阻抗控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

视频客观质量评价中的运动掩膜特性研究

国家自然科学基金

0+阅读 · 2013年12月31日

结构化矢量图的模式样本合成与操控

国家自然科学基金

0+阅读 · 2013年12月31日

自动识别自定义指令提高高层次综合效率的研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于线性贝叶斯MAP估计和稀疏表达模型的图像插值算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于部件神经网络模型的复杂制冷空调系统混合仿真方法

国家自然科学基金

0+阅读 · 2012年12月31日

基于语义的敦煌壁画的模拟与渲染

国家自然科学基金

0+阅读 · 2012年12月31日

新型高速大容量长距离光纤频域传输机理和方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

多张裁剪曲面拼接模型的水密融合

国家自然科学基金

0+阅读 · 2009年12月31日

Second Thoughts are Best: Learning to Re-Align With Human Values from Text Edits

Arxiv

0+阅读 · 2023年1月5日

已删除

Arxiv

32+阅读 · 2020年3月23日

Talking-Heads Attention

Arxiv

15+阅读 · 2020年3月5日

Towards a Human-like Open-Domain Chatbot

Arxiv

14+阅读 · 2020年1月27日

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Arxiv

11+阅读 · 2019年6月2日

Fast Interactive Object Annotation with Curve-GCN

Arxiv

15+阅读 · 2019年3月16日

Linguistically-Informed Self-Attention for Semantic Role Labeling

Arxiv

17+阅读 · 2018年8月28日

End-to-End Dense Video Captioning with Masked Transformer

Arxiv

14+阅读 · 2018年4月3日

Mobile Video Object Detection with Temporally-Aware Feature Maps

Arxiv

11+阅读 · 2018年3月28日

Rotation-Sensitive Regression for Oriented Scene Text Detection

Arxiv

13+阅读 · 2018年3月14日

VIP会员