Stable Diffusion新玩法,一句话帮你换图,网友魔改《戴珍珠耳环的少女》长这样

2022 年 10 月 23 日 机器之心

机器之心报道

编辑:杜伟、陈萍

修改一张图,一句话的事就搞定。


输入一句话,就能把图片修改好,这是很多画师梦寐以求的修图工具!但是话说回来,再优秀的画师,如果仅凭自己的专业优势,不借助其他工具,也很难在短时间内完成图片的修改。


现在好了,AI 正在向图片生成领域发起挑战,各大科技公司、高校等开始纷纷涉足。最近一段时间,关心 AI 圈的人可能都有这样一种感受:扩散模型被越来越多的人提及,基于扩散模型的各种图片生成工具被开发出来。


在众多模型中,Stable Diffusion 可谓是最出圈的一个,为其捐赠计算资源的英国开源人工智能公司 Stability AI 为此还获得了 1.01 亿美元融资,融资完成后,Stability AI 估值将达到 10 亿美元。就在最近,还闹出了 Stable Diffusion 背后团队互撕的笑话,原因是他们都想当 Stable Diffusion 的所有者。


其实这个模型的技术来源是发表在 CVPR 2022 中的一篇论文《High-Resolution Image Synthesis with Latent Diffusion Models》,署名作者一共五位,分别来自慕尼黑大学、海德堡大学和 AI 视频剪辑技术创业公司 Runway。



研究者对 Stable Diffusion 的开发一直在继续。就在今日,reddit 上一则帖子点赞量已经突破 800+。



大概意思就是:Stable Diffusion 背后团队之一的 Runway 公司发布了一个由 Stable Diffusion 模型驱动的图像擦除和替换(Erase and Replace)工具,该工具可以修改图像任何部分。用户需要做的就是擦除该区域并编写自然语言描述,剩下的交给程序就可以了。


举例来说,一开始树叶上是一只七星瓢虫,用户擦出掉(如紫色区域)该动物,然后输入自然语言描述「正在找食物的蜜蜂」,点击「替换」按钮就可以了。



土地里「长」出不同的植物:



站在柱子上的不同种类的鸟:



不同样式的林中小屋:



宇航员替换成卫星:



看完上述展示,不禁有种修改一张图,就一句话的事的感觉。


此外,Runway 还发布了「擦除和替换」功能背后的模型,感兴趣的小伙伴可以在 GitHub 上查看。该公司计划在未来推出更多 Stable Diffusion 检查点,并在 Runway 的 HPC 集群上进行训练。



GitHub 地址:https://github.com/runwayml/stable-diffusion#inpainting-with-stable-diffusion


项目首先通过 Huggingface 的 Diffusers 库来使用修复模型。Diffusers 是在 PyTorch 中用于图像和音频生成的 SOTA 扩散模型,并作为扩散模型推理和训练的模块化工具箱。


相关代码如下所示。



同时,为了评估修复模型的性能,项目使用了与论文《High-Resolution Image Synthesis with Latent Diffusion Models》中相同的评估协议。由于 Stable Diffusion 修复模型接受文本输入,因而只使用一个固定提示,即「photograph of a beautiful empty scene, highest quality settings.」。


评估结果如下所示。



网友大开脑洞,生成创意图片


这个「擦除和替换」工具大大激发了网友的创作兴趣,各种猎奇的创意作品都整出来了,让人不得不佩服脑洞之大。


有人使用它恶搞了前几天宣布辞职的英国前首相莉兹 · 特拉斯。


Twitter@aifunhouse


还有人对荷兰画家约翰内斯 · 维米尔的油画《戴珍珠耳环的少女》进行了一系列「改写」,有趣极了。


Twitter@Yining Shi


感兴趣的读者也可以试玩下:https://app.runwayml.com/login


参考链接:

https://github.com/huggingface/diffusers

https://80.lv/articles/runway-released-a-stable-diffusion-powered-tool-to-replace-images/


声纹识别:从理论到编程实战

《声纹识别:从理论到编程实战》中文课上线,由谷歌声纹团队负责人王泉博士主讲。目前,课程答疑正在持续更新中。
课程视频内容共 12 小时,着重介绍基于深度学习的声纹识别系统,包括大量学术界与产业界的最新研究成果。
同时课程配有 32 次课后测验、10 次编程练习、10 次大作业,确保课程结束时可以亲自上手从零搭建一个完整的声纹识别系统。
点击阅读原文,了解更多课程内容。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

登录查看更多
2

相关内容

视觉的有效扩散模型综述
专知会员服务
87+阅读 · 2022年10月20日
【CVPR2022】用于全身图像生成的 InsetGAN
专知会员服务
25+阅读 · 2022年3月17日
CVPR2022 | 多模态Transformer用于视频分割效果惊艳
专知会员服务
40+阅读 · 2022年3月12日
专知会员服务
21+阅读 · 2021年8月10日
一图搞定ML!2020版机器学习技术路线图,35页ppt
专知会员服务
92+阅读 · 2020年7月28日
挡不住了!扩散模型只用文字就能PS照片了
极市平台
0+阅读 · 2022年10月19日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Denoising Deep Generative Models
Arxiv
1+阅读 · 2022年12月5日
Arxiv
0+阅读 · 2022年12月2日
Multimodal Query-guided Object Localization
Arxiv
0+阅读 · 2022年12月1日
Arxiv
44+阅读 · 2022年9月6日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员