https://efficient-genai.github.io/ 我们正见证着图像到文本和图像到视频模型的突破性成果。然而,这些模型的生成过程是迭代的,并且计算代价高昂,需要通过大规模的模型进行多次采样。随着需求的增加,如何在不使用过多GPU/TPU的情况下,加快这些算法的速度,以服务数百万用户,成为了一个亟待解决的问题。在本课程中,我们将重点介绍以下技术:渐进并行解码、蒸馏方法和马尔可夫随机场,以在生成模型中实现加速。

扩散模型的数学原理

我们将介绍扩散模型的数学基础[6],这是许多生成方法的基础。我们将特别强调扩散模型背后的理论和基本原理,这是当前社区中关注较少的部分。 高效的文本到图像生成方法

我们将首先提供一些关于文本到图像生成的背景,然后讨论时序蒸馏和基于马尔可夫随机场(MRF)的方法[3],这些方法旨在提高基于标记的生成方法(如Muse[1])的效率。 用于文本到图像生成的连续马尔可夫随机场(MRF)与专家场(FoE)模型

我们将讨论当前的图像生成评估标准(如FID)以及一些改进的评估标准,如CMMD[4]。同时,我们将介绍通过马尔可夫随机场和专家场模型来加速扩散模型的新方法。 高效的文本到3D和文本到视频生成

我们将概述3D和视频生成中的生成算法,特别是讨论通过几何先验驱动的视频生成的高效算法[7]。 用于高效文本到图像和文本到视频生成的潜在表示

我们将概述不同的图像[2]和视频[7]标记化策略,这些策略有助于提高生成效率。如果时间允许,我们还将讨论可以仅在单一3D网格上训练的“数据高效”扩散模型[12]。

References

  1. Chang, H., Zhang, H., Barber, J., Maschinot, A., Lezama, J., Jiang, L., Yang, M.H., Murphy, K., Freeman, W.T., Rubinstein, M., Li, Y., Krishnan, D.: Muse: Text-to-image generation via masked generative transformers. ICML (2023)
  2. Esteves, C., Suhail, M., Makadia, A.: Spectral image tokenizers (2024)
  3. Jayasumana, S., Glasner, D., Ramalingam, S., Veit, A., Chakrabarti, A., Kumar, S.: Markovgen: Structured prediction for efficient text-to-image generation (2023)
  4. Jayasumana, S., Ramalingam, S., Veit, A., Glasner, D., Chakrabarti, A., Kumar, S.: Rethinking fid: Towards a better evaluation metric for image generation (2024)
  5. Mitchel, T., Esteves, C., Makadia, A.: Single mesh diffusion models with field latents for texture generation. In: CVPR (2024)
  6. Sohl-Dickstein, J., Weiss, E., Maheswaranathan, N., Ganguli, S.: Deep unsupervised learning using nonequilibrium thermodynamics. In: Proceedings of the 32nd International Conference on Machine Learning (2015)
  7. Suhail, M., Esteves, C., Sigal, L., Makadia, A.: Four-plane factorized video autoencoders (2024)
  8. Vice, J., Akhtar, N., Hartley, R., Mian, A.: On the fairness, diversity and reliability of textto-image generative models (2024)
  9. Vice, J., Akhtar, N., Hartley, R., Mian, A.: Safety without semantic disruptions: Editingfree safe image generation via context-preserving dual latent reconstruction (2024)
  10. Yang, Z., Yu, Z., Xu, Z., Singh, J., Zhang, J., Campbell, D., Tu, P., Hartley, R.: Impus: Image morphing with perceptually-uniform sampling using diffusion models (2024),
  11. Ranasinghe, K., Jayasumana, S., Veit, A., Chakrabarti, A., Glasner, D., Ryoo, M., Ramalingam, S., Kumar, S., LatentCRF: Continuous CRF for Efficient Latent Diffusion, arxiv 2025
  12. Mitchel, T., Esteves, C., Makadia, A.: Single mesh diffusion models with field latents for texture generation. In: CVPR (2024)
成为VIP会员查看完整内容
6

相关内容

【KDD2024教程】RAG遇上LLMs:迈向检索增强的大语言模型
专知会员服务
65+阅读 · 2024年9月7日
【WWW2024教程】大型语言模型驱动智能体,附slides
专知会员服务
63+阅读 · 2024年5月14日
【CVPR2024】视觉-语言模型的高效测试时间调整
专知会员服务
20+阅读 · 2024年3月30日
【CIKM2023教程】会话人工智能的数据增强,170页ppt
专知会员服务
45+阅读 · 2023年11月11日
【KDD2023教程】用文本编辑模型的快速文本生成, 190页ppt
专知会员服务
27+阅读 · 2023年8月10日
【COLING2022教程】自然语言处理的不确定性估计教程
专知会员服务
31+阅读 · 2022年10月17日
【干货】用BRET进行多标签文本分类(附代码)
专知会员服务
85+阅读 · 2019年12月27日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
干货 | 视频显著性目标检测(文末附有完整源码)
计算机视觉战队
38+阅读 · 2019年9月3日
教程 | 从头开始了解PyTorch的简单实现
机器之心
20+阅读 · 2018年4月11日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
170+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
464+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2022年9月7日
Arxiv
14+阅读 · 2022年5月6日
Arxiv
13+阅读 · 2022年4月12日
Arxiv
10+阅读 · 2021年2月26日
Identity-aware Graph Neural Networks
Arxiv
14+阅读 · 2021年1月25日
Arxiv
26+阅读 · 2019年3月5日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
相关论文
Arxiv
170+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
464+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2022年9月7日
Arxiv
14+阅读 · 2022年5月6日
Arxiv
13+阅读 · 2022年4月12日
Arxiv
10+阅读 · 2021年2月26日
Identity-aware Graph Neural Networks
Arxiv
14+阅读 · 2021年1月25日
Arxiv
26+阅读 · 2019年3月5日
微信扫码咨询专知VIP会员