成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
「图像编辑」太卷了!谷歌最新论文发布仅6小时就被自己砸了场子
2022 年 10 月 22 日
新智元
新智元报道
编辑:LRS
【新智元导读】
谷歌的生产力太猛了...
文本引导的图像生成模型火了,同时带火的还有用文本提示对图像进行修改的模型。
比如已经有了一张照片或者是生成的图片,想要给图片中的猫加个帽子,或者给人物换个姿势、图像换个风格,用文字命令的形式输入到模型中,这个过程就叫
基于文本的图像编辑(Text-Based Image Editing)
。
本文将为大家介绍两个时下最新的「图像编辑」工具。
第一个是浏览器中
在线就能用
的
Runway
,其内置在AI Magic Tools下的
「Erase and Replace」
功能也是刚刚上线。
网站地址:
https://runwayml.com/
第二个则是
Google Research
最近联合魏茨曼科学研究所发布的新模型
Imagic
,首次实现了应用于单一真实图像复杂的(非刚性的)语义编辑能力。
论文地址:
https://arxiv.org/pdf/2210.09276.pdf
相比以往的方法限于特定的编辑类型(如物体叠加、风格转移)、仅适用于合成图像、或者需要一个物体的多张输入图像,Imagic可以改变图像中一个或多个物体的姿势和构成,同时保留其原始特征,比如让一只站立的狗坐下、跳起来,让鸟张开翅膀等等。
Stable Diffusion提供的重渲染功能每次编辑都会改变图像中其他的重要元素,所以老手们不得不再使用Photoshop修复丢失元素,而Imagic的处理结果更好
(显然不利于Photoshop的推广)
。
顺带一提,就在
Imagic发布的6个小时后
,就被自家兄弟砸了场子。
左为Imagic,右为UniTune
Google Research的第二篇论文中提出的模型
UniTune
同样是在单张图像
通过文本对图像进行编辑。
论文地址:
https://arxiv.org/pdf/2210.09477.pdf
UniTune方法的核心是,通过正确的参数选择,可以在单个图像上对大型文本到图像的扩散模型(文中使用Imagen)进行微调,促使模型保持对输入图像的保真度,同时允许用户进行转换操作。
开箱即用的Runway
Runway中的「Erase and Replace」功能专门处理静止图像,尽管 官方在文本到视频编辑解决方案中预览了类似的功能,但该解决方案还没有正式上线。
虽然Runway没有公布该功能背后的技术细节,不过从渲染速度来看,引擎肯定用的是扩散模型,比如Stable Diffusion(或者,不太可能是获得许可的DALL-E 2)
Runway系统也有一些类似DALL-E 2的限制,输入的图片或文本触发过滤器机制将会收到一个警告,在发生进一步违规时可能暂停帐户,基本上和OpenAI对DALL-E 2的现行政策一样。
Runway ML是Stable Diffusion的投资方和研究合作伙伴,内部使用的可能是训练过专用模型,其性能优于当前开源的1.4版本,因为就Runway的修改结果来看,编辑后的图像不存在Stable Diffusion中常见的粗糙边缘。
和Imagic一样,Erase and Replace功能是「面向物体的」,用户无法擦除图片中的「empty」部分,然后用文本提示的结果来修改空白部分。如果强行这样做,系统会简单地沿着蒙版的视线追踪最近的明显物体(比如墙或电视) ,然后在找到的物体上应用目标转换效果。
Runway目前是否针对受版权保护的图像在后端渲染引擎中进行优化仍然没有定论,不过从唐老鸭的图画和一些少儿不宜的壁画来看,目前后端检查不是特别严格。
想实现这个功能也可以复杂一点,首先把图像输入到基于某些派生版本的CLIP模型,通过物体识别和语义分割将整张图像分割多个离散的部分,但这些操作产生的结果肯定不如Stable Diffusion的效果好。
Imagic
Imagic主要解决的问题就是物体识别模糊,论文中提供了大量的编辑实例,可以在不影响图像其余部分的同时,成功修改图像。
Imagic模型采用了三阶段的架构。
1. 优化文本嵌入
获取目标文本的词向量后,固定扩散生成模型的参数,将目标词向量通过降噪扩散模型目标进行优化,使得文本向量和输入图像的嵌入之间尽可能接近。
重复几个step之后,获得优化后的文本嵌入,使得后续在嵌入空间中的线性插值有意义。
2. 微调扩散模型以更好地匹配给定图像
当把优化嵌入输入到生成扩散的过程中后,并不能精确地导向输入图像,所以还需要再次优化模型的参数。
3. 生成修改后的图像
因为生成扩散模型的训练就是完全对输入图像进行重新创建,而优化后的向量已经是目标图像了,所以想实现编辑操作,只需要在「目标嵌入」和「优化嵌入」之间插值即可。
整个框架和Google之前发布的Imagen类似,研究人员表示,该系统的设计原则广泛适用于潜扩散模型(latent diffusion models)。
Imagen 使用三层架构,包括一个以64x64px 分辨率运行的生成扩散模型;一个超分辨率模型,将输出提升到256x256px;以及一个额外的超分辨率模型,将输出一直提升到1024 × 1024分辨率。
Imagic在训练过程的最初阶段进行干预,用Adam优化器以0.0001的静态学习速率在64px阶段对输入文本的词嵌入进行优化。
然后在Imagen的基础模型上进行微调,对每个输入图像执行1500步修正嵌入空间。
同时,在条件图像上并行优化从64px到256px的第二层,研究人员指出,对最后的256px到1024px图层进行类似的优化对最终的结果「几乎没有影响」,因此在实验中没有增加。
最后,在双TPUv4芯片上对每个图像的优化过程大约需要8分钟。
与谷歌的DreamBooth类似的微调过程一样,由此产生的嵌入可以额外用于强化样式化,以及包含从支持 Imagen 的更广泛的底层数据库中提取信息对相片进行编辑。
研究人员将Imagic与之前的模型进行了比较,包括2021年斯坦福大学和卡内基梅隆大学合作的基于GAN的方法 SDEdit,和2022年4月魏茨曼科学研究所和 NVIDIA 合作的 Text2Live。
很明显,Imagic完胜,尤其是第三个,人物的姿势发生较大的转变,从放松下垂变成抱住胳膊,SDEdit和Text2Live基本没什么反应。
就目前而言,Imagic是一个更适合做成API的产品,不过Google Research对这种可能用于伪造的技术通常很谨慎,不会轻易开源。
参考资料:
https://www.unite.ai/ai-assisted-object-editing-with-googles-imagic-and-runways-erase-and-replace/
登录查看更多
点赞并收藏
0
暂时没有读者
1
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
谷歌
关注
13
谷歌公司(Google Inc.)成立于1998年9月4日,由拉里·佩奇和谢尔盖·布林共同创建,被公认为全球最大的搜索引擎。公司总部称为“Googleplex”,位于美国加州圣克拉拉县的芒廷维尤。业务包括互联网搜索、云计算、广告技术等,同时开发并提供大量基于互联网的产品与服务,其主要利润来自于AdWords等广告服务。
《用对抗样本防御基于深度学习的视频指纹攻击》美海军研究生院2022最新60页论文
专知会员服务
26+阅读 · 2022年10月7日
5400亿!谷歌「Pathways语言模型」发布,能理解做推理生成代码
专知会员服务
38+阅读 · 2022年4月5日
深度学习模型图难画论文难中?这个ML Visual利器帮你快速画出漂亮的模型图,160个模板
专知会员服务
871+阅读 · 2022年3月1日
ICCV2021接受论文!
专知会员服务
26+阅读 · 2021年7月23日
ICML2021论文太多看不过来?这份《一句话点评1183篇论文亮点》帮你快速找到想看的
专知会员服务
59+阅读 · 2021年7月11日
近期必读的6篇顶会CVPR 2021【对抗攻击】相关论文和代码
专知会员服务
50+阅读 · 2021年7月10日
ECCV2020论文代码不好找?这份《一句话点评1357篇论文亮点与170篇码》帮你快速找到想看的
专知会员服务
15+阅读 · 2020年8月24日
1750亿参数!GPT-3来了!31位作者,OpenAI发布小样本学习器语言模型
专知会员服务
72+阅读 · 2020年5月30日
Google 发布图片配对基准及挑战:从系列图像重建三维物体和建筑物
专知会员服务
39+阅读 · 2020年4月4日
谷歌提出“T5” 新NLP模型,突破迁移学习局限,多基准测试达SOTA!
专知会员服务
40+阅读 · 2020年2月26日
英伟达「一句话生成3D模型」碾压谷歌:分辨率清晰8倍,速度快2倍,编辑文本还可直接修改
量子位
1+阅读 · 2022年11月22日
7 Papers & Radios | 谷歌推出DreamBooth扩散模型;张益唐零点猜想论文出炉
机器之心
2+阅读 · 2022年11月13日
只需3个样本一句话,AI就能定制照片级图像,谷歌在玩一种很新的扩散模型
机器之心
0+阅读 · 2022年11月11日
谷歌Imagen首次开放测试,安卓苹果都能玩,还有AI写作助手、超长连贯性视频生成模型
量子位
0+阅读 · 2022年11月3日
挡不住了!扩散模型只用文字就能PS照片了
极市平台
0+阅读 · 2022年10月19日
论文修改100遍也别慌!Meta发布全新写作语言模型PEER:参考文献都会加
新智元
0+阅读 · 2022年9月1日
谷歌亮出 AI“王牌”,生成超逼真图片,网友:OpenAI DALL-E 要被碾压了?
AI前线
0+阅读 · 2022年6月9日
谷歌新作Imagen:用Transformer和扩散模型把"文字到图像生成"卷上天!
CVer
0+阅读 · 2022年5月27日
视频也可以用扩散模型来生成了,效果很能打:新SOTA已达成 | 谷歌
量子位
1+阅读 · 2022年4月11日
给几个关键词就能出摄影大片,英伟达GauGAN上新2.0:将文本转成逼真图像
机器之心
0+阅读 · 2021年11月23日
GPU加速和风格感知的艺术图像和谐克隆
国家自然科学基金
4+阅读 · 2014年12月31日
人脑类别归纳推理的双加工机制研究
国家自然科学基金
1+阅读 · 2014年12月31日
脊髓和海马突触长时程增强及PKMζ在慢性功能性内脏痛中枢敏化中的作用
国家自然科学基金
0+阅读 · 2014年12月31日
基于动态点云的人脸表情建模和编辑方法研究
国家自然科学基金
0+阅读 · 2013年12月31日
基于脑电技术的设计概念产生与概念表达关系模型研究
国家自然科学基金
2+阅读 · 2012年12月31日
复杂形体时空动态变化生成技术
国家自然科学基金
0+阅读 · 2012年12月31日
可编辑三维电视中多视点视图合成理论与方法
国家自然科学基金
0+阅读 · 2012年12月31日
面向视力残疾人网页内容无障访问的自动图片描述技术研究
国家自然科学基金
0+阅读 · 2011年12月31日
基于手持移动设备的三维用户界面研究
国家自然科学基金
0+阅读 · 2011年12月31日
GPU加速的视频抽象化和卡通化
国家自然科学基金
0+阅读 · 2009年12月31日
Who Evaluates the Evaluators? On Automatic Metrics for Assessing AI-based Offensive Code Generators
Arxiv
0+阅读 · 2022年12月12日
Controllable 3D Face Synthesis with Conditional Generative Occupancy Fields
Arxiv
0+阅读 · 2022年12月12日
T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics
Arxiv
0+阅读 · 2022年12月12日
PhysDiff: Physics-Guided Human Motion Diffusion Model
Arxiv
0+阅读 · 2022年12月9日
Generating Holistic 3D Human Motion from Speech
Arxiv
0+阅读 · 2022年12月8日
Fine-grained Image Editing by Pixel-wise Guidance Using Diffusion Models
Arxiv
0+阅读 · 2022年12月8日
Graph Contrastive Learning with Adaptive Augmentation
Arxiv
10+阅读 · 2021年2月26日
Image-to-Image Retrieval by Learning Similarity between Scene Graphs
Arxiv
21+阅读 · 2020年12月29日
已删除
Arxiv
32+阅读 · 2020年3月23日
3D Hand Shape and Pose Estimation from a Single RGB Image
Arxiv
17+阅读 · 2019年3月3日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
谷歌
论文
扩散模型
Adobe Photoshop
魏茨曼科学研究所
非刚性
相关VIP内容
《用对抗样本防御基于深度学习的视频指纹攻击》美海军研究生院2022最新60页论文
专知会员服务
26+阅读 · 2022年10月7日
5400亿!谷歌「Pathways语言模型」发布,能理解做推理生成代码
专知会员服务
38+阅读 · 2022年4月5日
深度学习模型图难画论文难中?这个ML Visual利器帮你快速画出漂亮的模型图,160个模板
专知会员服务
871+阅读 · 2022年3月1日
ICCV2021接受论文!
专知会员服务
26+阅读 · 2021年7月23日
ICML2021论文太多看不过来?这份《一句话点评1183篇论文亮点》帮你快速找到想看的
专知会员服务
59+阅读 · 2021年7月11日
近期必读的6篇顶会CVPR 2021【对抗攻击】相关论文和代码
专知会员服务
50+阅读 · 2021年7月10日
ECCV2020论文代码不好找?这份《一句话点评1357篇论文亮点与170篇码》帮你快速找到想看的
专知会员服务
15+阅读 · 2020年8月24日
1750亿参数!GPT-3来了!31位作者,OpenAI发布小样本学习器语言模型
专知会员服务
72+阅读 · 2020年5月30日
Google 发布图片配对基准及挑战:从系列图像重建三维物体和建筑物
专知会员服务
39+阅读 · 2020年4月4日
谷歌提出“T5” 新NLP模型,突破迁移学习局限,多基准测试达SOTA!
专知会员服务
40+阅读 · 2020年2月26日
热门VIP内容
开通专知VIP会员 享更多权益服务
《优化联合作战准备:日本视角》最新21页
《基于嵌入式导弹系统的自主防空系统以挫败巡航威胁的定量论证》90页
乌克兰首次完全依靠UGV 和 FPV 无人机全自动攻击俄罗斯部队
《中高度长航时遥控无人机自动定位和跟踪》190页
相关资讯
英伟达「一句话生成3D模型」碾压谷歌:分辨率清晰8倍,速度快2倍,编辑文本还可直接修改
量子位
1+阅读 · 2022年11月22日
7 Papers & Radios | 谷歌推出DreamBooth扩散模型;张益唐零点猜想论文出炉
机器之心
2+阅读 · 2022年11月13日
只需3个样本一句话,AI就能定制照片级图像,谷歌在玩一种很新的扩散模型
机器之心
0+阅读 · 2022年11月11日
谷歌Imagen首次开放测试,安卓苹果都能玩,还有AI写作助手、超长连贯性视频生成模型
量子位
0+阅读 · 2022年11月3日
挡不住了!扩散模型只用文字就能PS照片了
极市平台
0+阅读 · 2022年10月19日
论文修改100遍也别慌!Meta发布全新写作语言模型PEER:参考文献都会加
新智元
0+阅读 · 2022年9月1日
谷歌亮出 AI“王牌”,生成超逼真图片,网友:OpenAI DALL-E 要被碾压了?
AI前线
0+阅读 · 2022年6月9日
谷歌新作Imagen:用Transformer和扩散模型把"文字到图像生成"卷上天!
CVer
0+阅读 · 2022年5月27日
视频也可以用扩散模型来生成了,效果很能打:新SOTA已达成 | 谷歌
量子位
1+阅读 · 2022年4月11日
给几个关键词就能出摄影大片,英伟达GauGAN上新2.0:将文本转成逼真图像
机器之心
0+阅读 · 2021年11月23日
相关基金
GPU加速和风格感知的艺术图像和谐克隆
国家自然科学基金
4+阅读 · 2014年12月31日
人脑类别归纳推理的双加工机制研究
国家自然科学基金
1+阅读 · 2014年12月31日
脊髓和海马突触长时程增强及PKMζ在慢性功能性内脏痛中枢敏化中的作用
国家自然科学基金
0+阅读 · 2014年12月31日
基于动态点云的人脸表情建模和编辑方法研究
国家自然科学基金
0+阅读 · 2013年12月31日
基于脑电技术的设计概念产生与概念表达关系模型研究
国家自然科学基金
2+阅读 · 2012年12月31日
复杂形体时空动态变化生成技术
国家自然科学基金
0+阅读 · 2012年12月31日
可编辑三维电视中多视点视图合成理论与方法
国家自然科学基金
0+阅读 · 2012年12月31日
面向视力残疾人网页内容无障访问的自动图片描述技术研究
国家自然科学基金
0+阅读 · 2011年12月31日
基于手持移动设备的三维用户界面研究
国家自然科学基金
0+阅读 · 2011年12月31日
GPU加速的视频抽象化和卡通化
国家自然科学基金
0+阅读 · 2009年12月31日
相关论文
Who Evaluates the Evaluators? On Automatic Metrics for Assessing AI-based Offensive Code Generators
Arxiv
0+阅读 · 2022年12月12日
Controllable 3D Face Synthesis with Conditional Generative Occupancy Fields
Arxiv
0+阅读 · 2022年12月12日
T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics
Arxiv
0+阅读 · 2022年12月12日
PhysDiff: Physics-Guided Human Motion Diffusion Model
Arxiv
0+阅读 · 2022年12月9日
Generating Holistic 3D Human Motion from Speech
Arxiv
0+阅读 · 2022年12月8日
Fine-grained Image Editing by Pixel-wise Guidance Using Diffusion Models
Arxiv
0+阅读 · 2022年12月8日
Graph Contrastive Learning with Adaptive Augmentation
Arxiv
10+阅读 · 2021年2月26日
Image-to-Image Retrieval by Learning Similarity between Scene Graphs
Arxiv
21+阅读 · 2020年12月29日
已删除
Arxiv
32+阅读 · 2020年3月23日
3D Hand Shape and Pose Estimation from a Single RGB Image
Arxiv
17+阅读 · 2019年3月3日
大家都在搜
无人艇
洛克菲勒
大型语言模型
CMU博士论文
态势感知
自主可控
palantir
3D建模
中科院无人机
社区分享 | 用 PoseNet + TensorFlow.js 在浏览器实现体感游戏
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top