加上Web UI，文本-图像模型Stable Diffusion变身绘图工具，生成艺术大片

2022 年 8 月 29 日 机器之心

‍机器之心报道

编辑：杜伟、陈萍

对于艺术家和插‍图画家来说，这类绘图工具虽然省时省力，但如何保持自己的创作风格是一个大问题。

前段时间，来自慕尼黑大学和 Runway 的研究者，与Eleuther AI、LAION 等团队合作，共同开发了一种文本转图像模型 Stable Diffusion。这项研究入选CVPR 2022 Oral。

Stable Diffusion 可以在消费级 GPU 上的 10 GB VRAM 下运行，并在几秒钟内生成 512x512 像素的图像，无需预处理和后处理。

Stable Diffusion的生成效果是这样的。宇宙的演变：

生物的进化：

这成片质量妥妥达到了大片级别。试想一下，如果将Stable Diffusion的作图功能发展成为一种绘画工具，将其与Web UI相结合，会带来怎样的设计体验。现在，有这样一个项目，可以满足广大研究者的需求。

项目地址： https://github.com/hlky/stable-diffusion
Docker镜像： https://github.com/AbdBarho/stable-diffusion-webui-docker

有了这个项目，没有系统学习UI知识的小伙伴，也可以上手操作。例如自己动手设计城堡，并且周围环境按自己喜好来设计：

在城堡外面安排一名侍卫，并让一位骑马的战士奔向城堡：

城堡上空的光线不好，想换种颜色，也以实现：

不过想要实现上述效果，还需要Gradio库，这是一个免费、开源的Python库，它允许用户为机器学习模型开发易于使用的可定制组件演示，还可以帮助用户构建一个可以互动的网络应用。

不过带有Gradio UI的原始脚本是由一位匿名用户编写的，现在该项目进行了一些修改：

借助这一项目，用户不再需要手动输入参数，需要做的是编写提示并调整滑块就可以了，其强大的设计工具，还可用于重新生成要更改的图像的特定部分，并且生成的图像失真少、质量还高。

该库还内置了GFPGAN选项，不到半秒就能修复失真人脸；此外还内置了RealESRGAN选项，用来提高图像的分辨率。

网友：文本转图像模型有利有弊

对于Stable Diffusion的这一应用，众多网友表示「赞极了」。

对于它的应用前景，更有人预测称，「未来几年用它做专辑封面将会变得更加疯狂。」

不过也有持相反意见的，认为「这是该技术对艺术家和插图画家有害的典型例子，他们不用付出太多天赋和努力就能生成不可思议的艺术图像。不过未来仍需要艺术家，只要他们将自己的风格融入到这些模型中。」

还有些网友认为，文本转图像有点像语言翻译领域正在经历的事情。借助机器学习模型生成的译文质量不一，然后译者对译文进行润色编辑。而由于生成的图像具有各种各样的伪影，艺术家们可能要做更多的修饰工作。

掌握「声纹识别技术」：前20小时交给我，后9980小时……

《声纹识别：从理论到编程实战》中文课上线，由谷歌声纹团队负责人王泉博士主讲。

课程视频内容共 12 小时，着重介绍基于深度学习的声纹识别系统，包括大量学术界与产业界的最新研究成果。

同时课程配有 32 次课后测验、10 次编程练习、10 次大作业，确保课程结束时可以亲自上手从零搭建一个完整的声纹识别系统。

课程目前还在 首周优惠中 ，欢迎对声纹领域感兴趣的同学一起学习。

点击阅读原文，了解更多课程内容。

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

登录查看更多

相关内容

图像模型

关注 1

不可错过！2022伯克利新课-《全栈深度学习2022》课程视频及ppt免费分享

专知会员服务

89+阅读 · 2022年8月19日

CVPR2022开会了！英伟达&Google最新《基于扩散的去噪生成建模:基础与应用》教程，182页ppt带你学习高保真图像生成

专知会员服务

94+阅读 · 2022年6月18日

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

专知会员服务

10+阅读 · 2022年3月6日

深度学习模型图难画论文难中？这个ML Visual利器帮你快速画出漂亮的模型图,160个模板

专知会员服务

898+阅读 · 2022年3月1日

元宇宙知识 | 如何在元宇宙中应用众多GAN模型？？？

专知会员服务

35+阅读 · 2022年1月29日

【ICCV2021】一张草图训练可控的GAN？CMU朱俊彦团队

专知会员服务

22+阅读 · 2021年8月10日

流畅的Python 中英文版 PDF 高清电子书

专知会员服务

83+阅读 · 2020年8月2日

【干货书】用Python构建聊天机器人，205页pdf，使用自然语言处理和机器学习

专知会员服务

220+阅读 · 2020年6月14日

【实战电子书+代码】自然语言处理的实战，545页pdf，使用Python理解、分析和生成文本

专知会员服务

266+阅读 · 2019年12月28日

【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换

专知会员服务

36+阅读 · 2019年12月15日

Stable Diffusion再迎重磅更新！2.0版「涩图」功能被砍，网友狂打差评

新智元

0+阅读 · 2022年11月25日

Stable Diffusion新玩法，一句话帮你换图，网友魔改《戴珍珠耳环的少女》长这样

机器之心

2+阅读 · 2022年10月23日

Stable Diffusion背后公司再融1亿美金，网友：资本的盛宴，艺术家却分不到一杯羹？

量子位

0+阅读 · 2022年10月20日

自导自演皮克斯动画不再是梦，这个工具实现了高分辨率、高度可控的真人视频转动画

机器之心

1+阅读 · 2022年10月9日

这个模型，竟成为网友的AI果照生成器

新智元

3+阅读 · 2022年9月1日

消费级GPU可用，文本转图像开源新模型Stable Diffusion生成宇宙变迁大片

机器之心

0+阅读 · 2022年8月16日

多模态新王登基！OpenAI发布DALL·E 2，生成图像「指哪打哪」

新智元

0+阅读 · 2022年4月10日

OpenAI的DALL·E迎来升级，不止文本生成图像，还可二次创作

机器之心

1+阅读 · 2022年4月7日

OpenAI发布DALL-E 2，文字生成图像工具新的“天花板”？

学术头条

0+阅读 · 2022年4月7日

超越CLIP！OpenAI新作GLIDE：文本引导图像生成新高度！

CVer

2+阅读 · 2021年12月24日

GPU加速和风格感知的艺术图像和谐克隆

国家自然科学基金

4+阅读 · 2014年12月31日

基于跨媒体语义关联模型的图像检索技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

用户自适应的社会标签生成和优化模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

对象模型上交互式修复生成技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

图文混合笔输入文档分析与识别的理论与方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于语义的敦煌壁画的模拟与渲染

国家自然科学基金

0+阅读 · 2012年12月31日

大型语义辞典的自动生成及在文本分析中的应用

国家自然科学基金

1+阅读 · 2012年12月31日

复杂形体时空动态变化生成技术

国家自然科学基金

0+阅读 · 2012年12月31日

交互式艺术汉字造型与绘制的关键技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于视频语义理解的艺术风格化研究

国家自然科学基金

1+阅读 · 2009年12月31日

Spectral Diffusion Processes

Arxiv

0+阅读 · 2022年11月28日

DiffusionBERT: Improving Generative Masked Language Models with Diffusion Models

Arxiv

0+阅读 · 2022年11月28日

3DDesigner: Towards Photorealistic 3D Object Generation and Editing with Text-guided Diffusion Models

Arxiv

0+阅读 · 2022年11月25日

HexaMesh: Scaling to Hundreds of Chiplets with an Optimized Chiplet Arrangement

Arxiv

0+阅读 · 2022年11月25日

Sketch-Guided Text-to-Image Diffusion Models

Arxiv

1+阅读 · 2022年11月24日

AIREPAIR: A Repair Platform for Neural Networks

Arxiv

0+阅读 · 2022年11月24日

DALL-E-Bot: Introducing Web-Scale Diffusion Models to Robotics

Arxiv

0+阅读 · 2022年11月24日

Multi-Agent Simulation for AI Behaviour Discovery in Operations Research

Arxiv

40+阅读 · 2021年8月30日

已删除

Arxiv

33+阅读 · 2020年3月23日

DOTA: A Large-scale Dataset for Object Detection in Aerial Images

Arxiv

19+阅读 · 2018年1月27日

VIP会员