成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
扩散模型背后数学太难了,啃不动?谷歌用统一视角讲明白了
2022 年 8 月 28 日
机器之心
机器之心报道
机器之心编辑部
扩散模型背后的数学可是难倒了一批人。
最近一段时间,AI 作画可谓是火的一塌糊涂。
在你惊叹 AI 绘画能力的同时,可能还不知道的是,扩散模型在其中起了大作用。就拿热门模型 OpenAI 的 DALL·E 2 来说,只需输入简单的文本(prompt),它就可以生成多张 1024*1024 的高清图像。
在 DALL·E 2 公布没多久,谷歌随后发布了 Imagen,这是一个文本到图像的 AI 模型,它能够通过给定的文本描述生成该场景下逼真的图像。
就在前几天,Stability.Ai 公开发布文本生成图像模型 Stable Diffusion 的最新版本,其生成的图像达到商用级别。
自 2020 年谷歌发布 DDPM 以来,扩散模型就逐渐成为生成领域的一个新热点。之后 OpenAI 推出 GLIDE、ADM-G 模型等,都让扩散模型火出圈。
很多研究者认为,基于扩散模型的文本图像生成模型不但参数量小,生成的图像质量却更高,大有要取代 GAN 的势头。
不过,扩散模型背后的数学公式让许多研究者望而却步,众多研究者认为,其比 VAE、GAN 要难理解得多。
近日,来自 Google Research 的研究者撰文《 Understanding Diffusion Models: A Unified Perspective 》,本文以极其详细的方式展示了扩散模型背后的数学原理,目的是让其他研究者可以跟随并了解扩散模型是什么以及它们是如何工作的。
论文地址:https://arxiv.org/pdf/2208.11970.pdf
至于这篇论文有多「数学」,论文作者是这样描述的:
我们以及其令人痛苦的细节(excruciating detail)展示了这些模型背后的数学。
论文共分为 6 部分,主要包括生成模型;ELBO、VAE 和分级 VAE;变分扩散模型;基于分数的生成模型等。
以下摘取了论文部分内容进行介绍:
生成模型
给定分布中的观察样本 x,生成模型的目标是学习为其真实数据分布 p(x) 进行建模。模型学习完之后,我们就可以生成新的样本。此外,在某些形式下,我们也可以使用学习模型来进行评估观察或对数据进行采样。
当前研究文献中,有几个重要方向,本文只在高层次上简要介绍,主要包括:GAN,其对复杂分布的采样过程进行建模,该过程以对抗方式学习。生成模型,我们也可称之为「基于似然,likelihood-based」的方法,这类模型可以将高似然分配给观察到的数据样本,通常包括自回归、归一化流、VAE。基于能量的建模,在这种方法中,分布被学习为任意灵活的能量函数,然后被归一化。在基于分数的生成模型中,其没有学习对能量函数本身进行建模,而是将基于能量模型的分数学习为神经网络。
在这项研究中,本文探索和回顾了扩散模型,正如文中展示的那样,它们具有基于可能性和基于分数的解释。
变分扩散模型
以简单的方式来看,一个变分扩散模型(Variational Diffusion Model, VDM)可以被考虑作为具有三个主要限制(或假设)的马尔可夫分层变分自编码器(MHVAE),它们分别为:
潜在维度完全等同于数据维度;
每个时间步上潜在编码器的结构没有被学到,它被预定义为线性高斯模型。换言之,它是以之前时间步的输出为中心的高斯分布;
潜在编码器的高斯参数随时间变化,过程中最终时间步 T 的潜在分布标是准高斯分布。
变分扩散模型的视觉展示图。
此外,研究者明确维护了来自标准马尔可夫分层变分自编码器的分层转换之间的马尔可夫属性。他们对以上三个主要假设的含义一一做了扩展。
从第一个假设开始,由于符号的滥用,现在可以将真实数据样本和潜在变量表示为 x_t,其中 t=0 表示真实样本数据,t ∈ [1, T] 表示相应的潜在变量,它的层级结构由 t 进行索引。VDM 后验与 MHVAE 后验相同,但现在可以重写为如下:
从第二个假设,已知的是编码器中每个潜在变量的分布都是以之前分层潜在变量为中心的高斯分布。与 MHVAE 不同的是,编码器在每个时间步上的结构没有被学到,它被固定为一个线性高斯模型,其中均值和标准差都可以预先设置为超参数或者作为参数学得。在数学上,编码器转换表示为如下:
对第三个假设,α_t 根据固定或可学得的 schedule 而随时间演化,使得最终潜在变量 p(x_T) 的分布为标准高斯分布。然后可以更新 MHVAE 的联合分布,将 VDM 的联合分布写为如下:
总的来说,这一系列假设描述了一个图像随时间演化的稳定噪声。研究者通过添加高斯噪声渐进地破坏图像,直到最终变得与高斯噪声完全相同。
与任何 HVAE 相似的是,VDM 可以通过最大化证据下界(Evidence Lower Bound, ELBO)来优化,可以推导如下:
ELBO 的解释过程如下图 4 所示:
三种等价的解释
正如之前证明的,一个变分扩散模型可以简单地通过学习神经网络来训练,以从任意噪声版本 x_t 及其时间索引 t 中预测原始自然图像 x_0。但是,x_0 有两个等价的参数化,使得可以对 VDM 展开两种进一步的解释。
首先可以利用重参数化技巧。在推导 q(x_t|x_0) 的形式时,文中公式 69 可以被重新排列为如下:
将其带入之前推导出的真实去噪转换均值 µ_q(x_t, x_0),则可以重新推导如下:
因此可以将近似去噪转换均值 µ_θ(x_t, t) 设置为如下:
并且相应的优化问题变成如下:
为了推导出变分扩散模型的三种常见解释,需要求助于 Tweedie 公式,它指的是当给定样本时,指数族分布的真实均值可以通过样本的最大似然估计(也称为经验均值)加上一些涉及估计分数的校正项来估计。
从数学上讲,对于一个高斯变量 z ∼ N (z; µ_z, Σ_z),Tweedie 公式表示如下:
基于分数的生成模型
研究者已经表明,变分扩散模型可以简单地通过优化一个神经网络 s_θ(x_t, t) 来学得,以预测一个得分函数∇ log p(x_t)。但是,推导中的得分项来自 Tweedie 公式的应用。这并不一定为解读得分函数究竟是什么或者它为什么值得建模提供好的直觉或洞见。
好在可以借助另一类生成模型,即基于分数的生成模型,来获得这种直觉。研究者的确证明了之前推导出的 VDM 公式具有等价的基于分数的生成建模公式,使得可以在这两种解释之间灵活切换。
为了理解为什么优化一个得分函数是有意义的,研究者重新审视了基于能量的模型。任意灵活的概率分布可以写成如下形式:
避免计算或建模归一化常数的一种方式是使用神经网络 s_θ(x) 来学习分布 p(x) 的得分函数∇ log p(x)。这是观察到了公式 152 两边可以进行对数求导:
它可以自由地表示为神经网络,不涉及任何归一化常数。通过利用真值得分函数最小化 Fisher 散度,可以优化得分函数。
直观地讲,得分函数在数据 x 所在的整个空间上定义了一个向量场,并指向模型,具体如下图 6 所示。
最终,研究者从训练目标和抽样过程两方面,建立了变分扩散模型和基于分数的生成模型之间的显式关联。
更多细节内容请参阅原论文。
WAIC 2022 · AI 开发者日
重磅登场
2021 图灵奖得主、中外院士领衔 40+ 重磅嘉宾,开发者论坛、技术 Workshop、云帆奖、黑客马拉松 4 大精彩版块…… 9 月 3 日,「WAIC 2022 · AI 开发者日」将重磅登场, 以「 AI 开发者所真正关注的」为主题,集中展示本年度人工智能领域最前沿技术成果和最新实践应用进展,为开发者呈现一场集学习、实战、社交为一体的技术嘉年华。
AI 开发者论坛观众报名已经开启,扫描下图二维码即刻报名。👇
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com
登录查看更多
点赞并收藏
0
暂时没有读者
1
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
扩散模型
关注
32
扩散模型是近年来快速发展并得到广泛关注的生成模型。它通过一系列的加噪和去噪过程,在复杂的图像分布和高斯分布之间建立联系,使得模型最终能将随机采样的高斯噪声逐步去噪得到一张图像。
扩撒模型如何用在医学上?最新《扩散模型医学图像分析》综述,25页pdf全面阐述医学图像扩散模型方法体系
专知会员服务
62+阅读 · 2022年11月19日
视觉的有效扩散模型综述
专知会员服务
92+阅读 · 2022年10月20日
大“火”的扩散模型综述又一弹!UCF等《视觉扩散模型》综述,20页pdf详述三种通用的扩散建模框架
专知会员服务
84+阅读 · 2022年9月13日
扩散模型综述又一弹!西湖大学李子青等最新《生成式扩散模型》综述,18页pdf详解扩散模型基础、方法体系和应用
专知会员服务
117+阅读 · 2022年9月9日
扩散模型数学太难?经典扩散模型DDPM手把手Pytorch代码实现,对照数学公式详解
专知会员服务
121+阅读 · 2022年9月8日
最近大火的“扩散模型”首篇综述来了!北大最新《扩散模型:方法和应用》综述,23页pdf涵盖200页文献
专知会员服务
152+阅读 · 2022年9月5日
什么是扩散模型?谷歌大脑Calvin Luo最新《扩散模型理解》,带你对基于评分与基于能量的扩散模型的统一视角数学理解
专知会员服务
82+阅读 · 2022年8月27日
深度生成模型综述
专知会员服务
51+阅读 · 2022年1月2日
深度生成模型综述(中文版),43页pdf
专知会员服务
182+阅读 · 2020年11月23日
如何构建通用人工智能AGI?这份来自数学家视角见解可以参阅,64页PPT
专知会员服务
43+阅读 · 2020年6月15日
生成扩散模型漫谈:统一扩散模型(应用篇)
PaperWeekly
0+阅读 · 2022年11月19日
斯坦福/谷歌大脑:两次蒸馏,引导扩散模型采样提速256倍!
新智元
2+阅读 · 2022年10月20日
从大一统视角理解扩散模型(Diffusion Models)
PaperWeekly
3+阅读 · 2022年9月27日
「扩散模型」首篇综述!谷歌&北大最新研究
新智元
9+阅读 · 2022年9月24日
「扩散模型」首篇综述+论文分类汇总,谷歌&北大最新研究
量子位
1+阅读 · 2022年9月16日
数学推导详解!什么是扩散模型?谷歌大脑Calvin Luo《扩散模型理解》,带你对基于评分与基于变分的扩散模型的统一视角数学理解
专知
4+阅读 · 2022年8月27日
扩散+超分辨率模型强强联合,谷歌图像生成器Imagen背后的技术
机器之心
0+阅读 · 2022年7月12日
扩散模型又杀疯了!这一次被攻占的领域是...
夕小瑶的卖萌屋
2+阅读 · 2022年6月22日
谷歌新作Imagen:用Transformer和扩散模型把"文字到图像生成"卷上天!
CVer
0+阅读 · 2022年5月27日
扩散模型就是自动编码器!DeepMind研究学者提出新观点并论证
量子位
0+阅读 · 2022年2月12日
HOTAIR/miR-326/SP1调控通路对非小细胞肺癌增殖、迁移和侵袭能力的影响及作用机制
国家自然科学基金
0+阅读 · 2015年12月31日
SIRT1调控miR-15b-5p转录的新机制及其在结直肠癌转移的作用
国家自然科学基金
0+阅读 · 2015年12月31日
基于似然函数的统计推断
国家自然科学基金
5+阅读 · 2014年12月31日
监控复杂变化的统计质量控制图研究
国家自然科学基金
0+阅读 · 2013年12月31日
高维数据的图模型学习与统计推断
国家自然科学基金
8+阅读 · 2012年12月31日
反义miRNA寡核苷酸拮抗血管生成通路改变乏氧微环境增敏肺腺癌脑转移放疗效果的MR评价
国家自然科学基金
0+阅读 · 2012年12月31日
一类半参数时间序列模型的统计推断
国家自然科学基金
0+阅读 · 2012年12月31日
复杂数据下联合均值与方差模型的统计推断
国家自然科学基金
1+阅读 · 2012年12月31日
多孔介质中的几类流体力学模型解的性态研究
国家自然科学基金
0+阅读 · 2012年12月31日
图像局部纹理的稳定场模型及算法研究
国家自然科学基金
0+阅读 · 2008年12月31日
Whole-Body Trajectory Optimization for Robot Multimodal Locomotion
Arxiv
0+阅读 · 2022年11月23日
PANeRF: Pseudo-view Augmentation for Improved Neural Radiance Fields Based on Few-shot Inputs
Arxiv
0+阅读 · 2022年11月23日
SRTGAN: Triplet Loss based Generative Adversarial Network for Real-World Super-Resolution
Arxiv
0+阅读 · 2022年11月22日
Oracle-Efficient Online Learning for Beyond Worst-Case Adversaries
Arxiv
0+阅读 · 2022年11月22日
Holonomic equations and efficient random generation of binary trees
Arxiv
0+阅读 · 2022年11月22日
Unsupervised Domain Adaptation GAN Inversion for Image Editing
Arxiv
0+阅读 · 2022年11月22日
Physics-Informed Machine Learning: A Survey on Problems, Methods and Applications
Arxiv
70+阅读 · 2022年11月15日
A Survey on Generative Diffusion Model
Arxiv
44+阅读 · 2022年9月6日
Prompt Distribution Learning
Arxiv
14+阅读 · 2022年5月6日
Generative Adversarial Autoencoder Networks
Arxiv
11+阅读 · 2018年3月23日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
扩散模型
变分
数学
生成模型
变分自编码
潜在
相关VIP内容
扩撒模型如何用在医学上?最新《扩散模型医学图像分析》综述,25页pdf全面阐述医学图像扩散模型方法体系
专知会员服务
62+阅读 · 2022年11月19日
视觉的有效扩散模型综述
专知会员服务
92+阅读 · 2022年10月20日
大“火”的扩散模型综述又一弹!UCF等《视觉扩散模型》综述,20页pdf详述三种通用的扩散建模框架
专知会员服务
84+阅读 · 2022年9月13日
扩散模型综述又一弹!西湖大学李子青等最新《生成式扩散模型》综述,18页pdf详解扩散模型基础、方法体系和应用
专知会员服务
117+阅读 · 2022年9月9日
扩散模型数学太难?经典扩散模型DDPM手把手Pytorch代码实现,对照数学公式详解
专知会员服务
121+阅读 · 2022年9月8日
最近大火的“扩散模型”首篇综述来了!北大最新《扩散模型:方法和应用》综述,23页pdf涵盖200页文献
专知会员服务
152+阅读 · 2022年9月5日
什么是扩散模型?谷歌大脑Calvin Luo最新《扩散模型理解》,带你对基于评分与基于能量的扩散模型的统一视角数学理解
专知会员服务
82+阅读 · 2022年8月27日
深度生成模型综述
专知会员服务
51+阅读 · 2022年1月2日
深度生成模型综述(中文版),43页pdf
专知会员服务
182+阅读 · 2020年11月23日
如何构建通用人工智能AGI?这份来自数学家视角见解可以参阅,64页PPT
专知会员服务
43+阅读 · 2020年6月15日
热门VIP内容
开通专知VIP会员 享更多权益服务
OpenAI十二天总结与Agent新范式
【伯克利博士论文】高效深度学习推理的全栈方法
【AAAI2025】多层次最优传输用于语言模型中的通用跨标记器知识蒸馏
大规模语言模型增强推荐系统:分类、趋势、应用与未来
相关资讯
生成扩散模型漫谈:统一扩散模型(应用篇)
PaperWeekly
0+阅读 · 2022年11月19日
斯坦福/谷歌大脑:两次蒸馏,引导扩散模型采样提速256倍!
新智元
2+阅读 · 2022年10月20日
从大一统视角理解扩散模型(Diffusion Models)
PaperWeekly
3+阅读 · 2022年9月27日
「扩散模型」首篇综述!谷歌&北大最新研究
新智元
9+阅读 · 2022年9月24日
「扩散模型」首篇综述+论文分类汇总,谷歌&北大最新研究
量子位
1+阅读 · 2022年9月16日
数学推导详解!什么是扩散模型?谷歌大脑Calvin Luo《扩散模型理解》,带你对基于评分与基于变分的扩散模型的统一视角数学理解
专知
4+阅读 · 2022年8月27日
扩散+超分辨率模型强强联合,谷歌图像生成器Imagen背后的技术
机器之心
0+阅读 · 2022年7月12日
扩散模型又杀疯了!这一次被攻占的领域是...
夕小瑶的卖萌屋
2+阅读 · 2022年6月22日
谷歌新作Imagen:用Transformer和扩散模型把"文字到图像生成"卷上天!
CVer
0+阅读 · 2022年5月27日
扩散模型就是自动编码器!DeepMind研究学者提出新观点并论证
量子位
0+阅读 · 2022年2月12日
相关基金
HOTAIR/miR-326/SP1调控通路对非小细胞肺癌增殖、迁移和侵袭能力的影响及作用机制
国家自然科学基金
0+阅读 · 2015年12月31日
SIRT1调控miR-15b-5p转录的新机制及其在结直肠癌转移的作用
国家自然科学基金
0+阅读 · 2015年12月31日
基于似然函数的统计推断
国家自然科学基金
5+阅读 · 2014年12月31日
监控复杂变化的统计质量控制图研究
国家自然科学基金
0+阅读 · 2013年12月31日
高维数据的图模型学习与统计推断
国家自然科学基金
8+阅读 · 2012年12月31日
反义miRNA寡核苷酸拮抗血管生成通路改变乏氧微环境增敏肺腺癌脑转移放疗效果的MR评价
国家自然科学基金
0+阅读 · 2012年12月31日
一类半参数时间序列模型的统计推断
国家自然科学基金
0+阅读 · 2012年12月31日
复杂数据下联合均值与方差模型的统计推断
国家自然科学基金
1+阅读 · 2012年12月31日
多孔介质中的几类流体力学模型解的性态研究
国家自然科学基金
0+阅读 · 2012年12月31日
图像局部纹理的稳定场模型及算法研究
国家自然科学基金
0+阅读 · 2008年12月31日
相关论文
Whole-Body Trajectory Optimization for Robot Multimodal Locomotion
Arxiv
0+阅读 · 2022年11月23日
PANeRF: Pseudo-view Augmentation for Improved Neural Radiance Fields Based on Few-shot Inputs
Arxiv
0+阅读 · 2022年11月23日
SRTGAN: Triplet Loss based Generative Adversarial Network for Real-World Super-Resolution
Arxiv
0+阅读 · 2022年11月22日
Oracle-Efficient Online Learning for Beyond Worst-Case Adversaries
Arxiv
0+阅读 · 2022年11月22日
Holonomic equations and efficient random generation of binary trees
Arxiv
0+阅读 · 2022年11月22日
Unsupervised Domain Adaptation GAN Inversion for Image Editing
Arxiv
0+阅读 · 2022年11月22日
Physics-Informed Machine Learning: A Survey on Problems, Methods and Applications
Arxiv
70+阅读 · 2022年11月15日
A Survey on Generative Diffusion Model
Arxiv
44+阅读 · 2022年9月6日
Prompt Distribution Learning
Arxiv
14+阅读 · 2022年5月6日
Generative Adversarial Autoencoder Networks
Arxiv
11+阅读 · 2018年3月23日
大家都在搜
自主可控
洛克菲勒
大规模语言模型
CMU博士论文
生成式人工智能
palantir
基金
优质企业
技术成熟度
出海产品从 0 到 1 该怎么做
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top