Stable Diffusion火到被艺术家集体举报，网友科普背后机制被LeCun点赞

会员服务 ·

Stable Diffusion火到被艺术家集体举报，网友科普背后机制被LeCun点赞

2022 年 8 月 31 日 量子位

白交发自凹非寺
量子位 | 公众号 QbitAI

免费开源的Stable Diffusion太火了！

有人拿它来做视频短片，几分钟内穿越时间看遍地球万物的演变。

还有人拿它来制作守望先锋里的英雄。

甚至因为使用过于泛滥，牵涉到艺术版权的问题，一群艺术家们还吵了起来，并把一个非官方账号举报到封号。

这背后究竟是如何运作的，才能形成如此惊人的反响？

这几天，有位小哥分享了Stable Diffusion工作机制的线程，还被LeCun点了赞。

来看看究竟说了啥。

又是扩散模型

首先，从名字Stable Diffusion就可以看出，这个主要采用的扩散模型（Diffusion Model）。

简单来说，扩散模型就是去噪自编码器的连续应用，逐步生成图像的过程。

一般所言的扩散，是反复在图像中添加小的、随机的噪声。而扩散模型则与这个过程相反——将噪声生成高清图像。训练的神经网络通常为U-net。

不过因为模型是直接在像素空间运行，导致扩散模型的训练、计算成本十分昂贵。

基于这样的背景下，Stable Diffusion主要分两步进行。

首先，使用编码器将图像x压缩为较低维的潜在空间表示z（x）。

其中上下文（Context）y，即输入的文本提示，用来指导x的去噪。

它与时间步长t一起，以简单连接和交叉两种方式，注入到潜在空间表示中去。

随后在z（x）基础上进行扩散与去噪。换言之，就是模型并不直接在图像上进行计算，从而减少了训练时间、效果更好。

值得一提的是，Stable DIffusion的上下文机制非常灵活，y不光可以是图像标签，就是蒙版图像、场景分割、空间布局，也能够相应完成。

霸占GitHub热榜第一

这个平台一开源，就始终霸占GitHub热榜第一，目前已累计2.9k星。

它是由慕尼黑大学机器视觉与学习研究小组和Runway的研究人员，基于CVPR2022的一篇论文《High-Resolution Image Synthesis with Latent Diffusion Models》，并与其他社区团队合作开发的一款开源模型。

据官方介绍，它能在几秒内在消费级CPU上运行创作，也无需进行任何预处理和后处理。

核心数据集是LAION-5B的一个子集，它是专为基于CLIP的新模型而创建。

同时，它也是首个在4000个A100 Ezra-1 AI超大集群上进行训练的文本转图像模型。

不管怎么说，在文本生成图像这一趴，又多了一位实力强劲的明星了。（狗头）

GitHub链接：
https://github.com/CompVis/latent-diffusion
参考链接：
[1]https://twitter.com/ai__pub/status/1561362542487695360
[2]https://stability.ai/blog/stable-diffusion-announcement
[3]https://arxiv.org/abs/2112.10752

— 完 —

「计算生物学深度产业报告 · 量子位智库」下载

和数十家企业进行沟通交流并广泛调研后，量子位智库撰写了《计算生物学深度产业报告》，扫描下方二维码可下载完整报告。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

一键三连「分享」「点赞」和「在看」

科技前沿进展日日相见 ~

登录查看更多

相关内容

艺术

关注 7

艺术迄今依旧没有公认的定义，目前广义的艺术乃是由具有智能思考能力的动物，透过各种形式及工具以表达其情感与意识，因而产生的结果。艺术不只存在于人类社会中，也存在于其他相对高等的动物。

【NeurIPS 2022】Stable Diffusion采样速度翻倍！清华提出扩散模型高效求解器

专知会员服务

49+阅读 · 2022年11月17日

视觉的有效扩散模型综述

专知会员服务

96+阅读 · 2022年10月20日

图文理解矩阵与线代！《矩阵世界与线性代数艺术》可视化手册，14页pdf，Kenji Hiranabe编著，Lecun点赞！

专知会员服务

150+阅读 · 2022年8月11日

斯坦福大学首个Transformers专题讲座视频放出，NLP、CV和RL无所不包

专知会员服务

47+阅读 · 2022年7月12日

计算机图形学顶会SIGGRAPH 2022最佳论文奖出炉！英伟达等五篇论文斩获！

专知会员服务

22+阅读 · 2022年7月7日

【ICCV2021】一张草图训练可控的GAN？CMU朱俊彦团队

专知会员服务

22+阅读 · 2021年8月10日

《图Transformer网络与语音识别》Facebook语音大牛Awni Hannun，附121页Slides与视频

专知会员服务

33+阅读 · 2021年6月26日

一文概览 CVPR2021 最新18篇 Oral 论文

专知会员服务

26+阅读 · 2021年3月7日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

70+阅读 · 2020年1月17日

FB大牛撰文推介，PySlowFast！Facebook开源视频理解前沿算法代码库，视频SOTA技术全在这了！

专知会员服务

65+阅读 · 2020年1月6日

Stable Diffusion再迎重磅更新！2.0版「涩图」功能被砍，网友狂打差评

新智元

0+阅读 · 2022年11月25日

Stable Diffusion 2.0来了！网友：太快了，V1还没整透彻，V2就来了

机器之心

1+阅读 · 2022年11月24日

Stable Diffusion新玩法，一句话帮你换图，网友魔改《戴珍珠耳环的少女》长这样

机器之心

2+阅读 · 2022年10月23日

Stable Diffusion团队开撕！“背后公司”刚成独角兽，最新版本遭原作者抢发：这是我们的

量子位

0+阅读 · 2022年10月21日

价值1亿美金时，Stable Diffusion背后的团队开始互撕，谁才是真官方？

机器之心

0+阅读 · 2022年10月21日

Stable Diffusion背后的故事：独辟蹊径，开源和社区驱动的AI独角兽｜创始人专访

学术头条

3+阅读 · 2022年10月20日

付费图库集体封禁AI生成图片，网友躺赚版权费梦碎

THU数据派

0+阅读 · 2022年9月28日

可生成高清视频的Stable Diffusion来了！分辨率提升4倍，超分算法来自腾讯，支持Colab在线试玩

量子位

0+阅读 · 2022年9月18日

人人都能用的「AI 作画」，如何把 Stable Diffusion 装进电脑？

少数派

1+阅读 · 2022年9月6日

消费级GPU可用，文本转图像开源新模型Stable Diffusion生成宇宙变迁大片

机器之心

0+阅读 · 2022年8月16日

p65/Sp1-Dnmt1介导甲基化调控糖尿病肾病足细胞nephrin和podocin表达的研究

国家自然科学基金

0+阅读 · 2015年12月31日

GPU加速和风格感知的艺术图像和谐克隆

国家自然科学基金

4+阅读 · 2014年12月31日

沙画艺术的数据场图像分析与演化关键算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于电磁悬浮的南疆机采棉除杂过程杂质运动规律及控制策略的研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向创作的音乐与舞蹈的关联计算模型

国家自然科学基金

0+阅读 · 2012年12月31日

TGF-β1通路相关miRNA调节癌基因trib2在肺腺癌发病中的作用

国家自然科学基金

0+阅读 · 2012年12月31日

Caveolin-1介导多能血管干细胞向增殖型血管平滑肌细胞分化的调节作用及机制

国家自然科学基金

0+阅读 · 2012年12月31日

胶质细胞源性神经营养因子（GDNF）在肝癌新生血管生成中的作用机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

Sop1和Sop2的功能及其在DNA损伤应答中的作用

国家自然科学基金

0+阅读 · 2012年12月31日

基于笔划布置特征学习的视频非真实感绘制

国家自然科学基金

0+阅读 · 2009年12月31日

PIP: Positional-encoding Image Prior

Arxiv

0+阅读 · 2022年11月25日

Spatial-Temporal Attention Network for Open-Set Fine-Grained Image Recognition

Arxiv

0+阅读 · 2022年11月25日

Sketch-Guided Text-to-Image Diffusion Models

Arxiv

1+阅读 · 2022年11月24日

GitHub Considered Harmful? Analyzing Open-Source Projects for the Automatic Generation of Cryptographic API Call Sequences

Arxiv

0+阅读 · 2022年11月24日

SEAT: Stable and Explainable Attention

Arxiv

0+阅读 · 2022年11月23日

Paint by Example: Exemplar-based Image Editing with Diffusion Models

Arxiv

0+阅读 · 2022年11月23日

Latent Video Diffusion Models for High-Fidelity Video Generation with Arbitrary Lengths

Arxiv

0+阅读 · 2022年11月23日

TorchScale: Transformers at Scale

Arxiv

0+阅读 · 2022年11月23日

Reducing Redundancy in the Bottleneck Representation of the Autoencoders

Arxiv

0+阅读 · 2022年11月23日

Fine-grained Entity Typing via Label Reasoning

Arxiv

12+阅读 · 2021年9月13日

VIP会员