本PPT探讨了基于扩散模型和流模型的推理时引导生成技术,旨在通过动态调整生成过程,提升生成内容与用户偏好的对齐能力。主要内容包括以下三个方面: 1. 扩散模型与流模型的背景与优势

扩散模型通过逐步去噪生成高质量样本,在图像/视频合成中表现优异,但生成速度较慢。 * 流模型通过确定性轨迹实现快速生成(如Stable Diffusion 3、FLUX),但缺乏随机性限制了其灵活性。 1. 推理时引导生成的三大方法

分数/注意力操纵:通过调整扩散模型中的分数或注意力图实现空间引导(如GroundIT的2D布局控制、VideoHandles的3D视频编辑)。 * 基于未来奖励的梯度上升:利用可微奖励函数(如风格一致性、逆向问题求解)优化生成过程(如DPS方法)。 * 粒子采样:通过多粒子搜索处理不可微奖励(如对象计数、文本对齐),适用于流模型时需引入随机性(ODE转SDE)。 1. 关键技术与应用

流模型的推理时扩展:通过插值系数调整和ODE-to-SDE转换,实现粒子采样(如文本对齐、美学生成)。 * 一步式模型的迭代引导:结合朗之万动力学,在隐空间优化生成内容(如ORIGEN的方向控制)。 * 跨领域同步生成:在全景图、3D纹理等任务中同步多生成过程(如SyncTweedies的网格纹理生成)。

未来方向包括探索视觉自回归模型(VAR)与扩散/流模型的混合架构,以平衡生成速度与多模态对齐能力。 核心贡献:提出无需微调的推理时引导框架,扩展了生成模型在复杂任务(如空间 grounding、3D 编辑)中的应用,同时兼容扩散模型和流模型。

成为VIP会员查看完整内容
0

相关内容

扩散模型是近年来快速发展并得到广泛关注的生成模型。它通过一系列的加噪和去噪过程,在复杂的图像分布和高斯分布之间建立联系,使得模型最终能将随机采样的高斯噪声逐步去噪得到一张图像。
基于大模型的图学习
专知会员服务
29+阅读 · 2月27日
利用多个大型语言模型:关于LLM集成的调研
专知会员服务
33+阅读 · 2月27日
通过逻辑推理赋能大语言模型:综述
专知会员服务
30+阅读 · 2月24日
分析学习和训练环境的多模态方法
专知会员服务
17+阅读 · 2024年9月1日
大模型的模型压缩与有效推理综述
专知会员服务
41+阅读 · 2024年7月8日
多模态模型架构的演变
专知会员服务
67+阅读 · 2024年5月29日
大型语言模型的模型压缩与高效推理:综述
专知会员服务
89+阅读 · 2024年2月17日
提示学习在图神经网络中的应用
专知会员服务
35+阅读 · 2023年8月27日
专知会员服务
48+阅读 · 2020年10月20日
面向多智能体博弈对抗的对手建模框架
专知
16+阅读 · 2022年9月28日
基于模型的强化学习综述
专知
37+阅读 · 2022年7月13日
TKDE 2020 | 面向严格冷启动推荐的属性图神经网络
PaperWeekly
13+阅读 · 2020年12月18日
层级强化学习概念简介
CreateAMind
18+阅读 · 2019年6月9日
半监督深度学习小结:类协同训练和一致性正则化
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
边缘计算应用:传感数据异常实时检测算法
计算机研究与发展
11+阅读 · 2018年4月10日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
168+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
453+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
167+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
基于大模型的图学习
专知会员服务
29+阅读 · 2月27日
利用多个大型语言模型:关于LLM集成的调研
专知会员服务
33+阅读 · 2月27日
通过逻辑推理赋能大语言模型:综述
专知会员服务
30+阅读 · 2月24日
分析学习和训练环境的多模态方法
专知会员服务
17+阅读 · 2024年9月1日
大模型的模型压缩与有效推理综述
专知会员服务
41+阅读 · 2024年7月8日
多模态模型架构的演变
专知会员服务
67+阅读 · 2024年5月29日
大型语言模型的模型压缩与高效推理:综述
专知会员服务
89+阅读 · 2024年2月17日
提示学习在图神经网络中的应用
专知会员服务
35+阅读 · 2023年8月27日
专知会员服务
48+阅读 · 2020年10月20日
相关资讯
面向多智能体博弈对抗的对手建模框架
专知
16+阅读 · 2022年9月28日
基于模型的强化学习综述
专知
37+阅读 · 2022年7月13日
TKDE 2020 | 面向严格冷启动推荐的属性图神经网络
PaperWeekly
13+阅读 · 2020年12月18日
层级强化学习概念简介
CreateAMind
18+阅读 · 2019年6月9日
半监督深度学习小结:类协同训练和一致性正则化
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
边缘计算应用:传感数据异常实时检测算法
计算机研究与发展
11+阅读 · 2018年4月10日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员