机器之心报道
修改一张图,一句话的事就搞定。
输入一句话,就能把图片修改好,这是很多画师梦寐以求的修图工具!但是话说回来,再优秀的画师,如果仅凭自己的专业优势,不借助其他工具,也很难在短时间内完成图片的修改。
现在好了,AI 正在向图片生成领域发起挑战,各大科技公司、高校等开始纷纷涉足。最近一段时间,关心 AI 圈的人可能都有这样一种感受:扩散模型被越来越多的人提及,基于扩散模型的各种图片生成工具被开发出来。
在众多模型中,Stable Diffusion 可谓是最出圈的一个,为其捐赠计算资源的英国开源人工智能公司 Stability AI 为此还获得了 1.01 亿美元融资,融资完成后,Stability AI 估值将达到 10 亿美元。就在最近,还闹出了 Stable Diffusion 背后团队互撕的笑话,原因是他们都想当 Stable Diffusion 的所有者。
其实这个模型的技术来源是发表在 CVPR 2022 中的一篇论文《High-Resolution Image Synthesis with Latent Diffusion Models》,署名作者一共五位,分别来自慕尼黑大学、海德堡大学和 AI 视频剪辑技术创业公司 Runway。
研究者对 Stable Diffusion 的开发一直在继续。就在今日,reddit 上一则帖子点赞量已经突破 800+。
大概意思就是:Stable Diffusion 背后团队之一的 Runway 公司发布了一个由 Stable Diffusion 模型驱动的图像擦除和替换(Erase and Replace)工具,该工具可以修改图像任何部分。用户需要做的就是擦除该区域并编写自然语言描述,剩下的交给程序就可以了。
举例来说,一开始树叶上是一只七星瓢虫,用户擦出掉(如紫色区域)该动物,然后输入自然语言描述「正在找食物的蜜蜂」,点击「替换」按钮就可以了。
土地里「长」出不同的植物:
站在柱子上的不同种类的鸟:
不同样式的林中小屋:
宇航员替换成卫星:
看完上述展示,不禁有种修改一张图,就一句话的事的感觉。
此外,Runway 还发布了「擦除和替换」功能背后的模型,感兴趣的小伙伴可以在 GitHub 上查看。该公司计划在未来推出更多 Stable Diffusion 检查点,并在 Runway 的 HPC 集群上进行训练。
GitHub 地址:https://github.com/runwayml/stable-diffusion#inpainting-with-stable-diffusion
项目首先通过 Huggingface 的 Diffusers 库来使用修复模型。Diffusers 是在 PyTorch 中用于图像和音频生成的 SOTA 扩散模型,并作为扩散模型推理和训练的模块化工具箱。
相关代码如下所示。
同时,为了评估修复模型的性能,项目使用了与论文《High-Resolution Image Synthesis with Latent Diffusion Models》中相同的评估协议。由于 Stable Diffusion 修复模型接受文本输入,因而只使用一个固定提示,即「photograph of a beautiful empty scene, highest quality settings.」。
评估结果如下所示。
网友大开脑洞,生成创意图片
这个「擦除和替换」工具大大激发了网友的创作兴趣,各种猎奇的创意作品都整出来了,让人不得不佩服脑洞之大。
有人使用它恶搞了前几天宣布辞职的英国前首相莉兹 · 特拉斯。
Twitter@aifunhouse
还有人对荷兰画家约翰内斯 · 维米尔的油画《戴珍珠耳环的少女》进行了一系列「改写」,有趣极了。
Twitter@Yining Shi
感兴趣的读者也可以试玩下:https://app.runwayml.com/login
参考链接:
https://github.com/huggingface/diffusers
https://80.lv/articles/runway-released-a-stable-diffusion-powered-tool-to-replace-images/
声纹识别:从理论到编程实战
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com