【TPAMI 2023】生成式AI与图像合成综述发布！ - 专知VIP

会员服务 ·

19

TPAMI 2023 · 生成式AI · 图像合成 ·

2023 年 9 月 7 日

【TPAMI 2023】生成式AI与图像合成综述发布！

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

生成式AI作为当前人工智能领域的前沿技术，已被广泛的应用于各类视觉合成任务。

随着DALL-E2，Stable Diffusion和DreamFusion的发布，AI作画和3D合成实现了令人惊叹的视觉效果并且在全球范围内的爆炸式增长。这些生成式AI技术深刻地拓展了人们对于AI图像生成能力的认识，那么这些生成式AI方法是如何生成以假乱真的视觉效果？又是如何利用深度学习和神经网络技术来实现画作、3D生成以及其他创造性任务的呢？我们的综述论文将会给您提供这些问题的答案。论文：https://arxiv.org/abs/2112.13592

GitHub地址：https://github.com/fnzhan/Generative-AI 项目地址：https://fnzhan.com/Generative-AI/在第一章节，该综述描述了多模态图像合成与编辑任务的意义和整体发展，以及本论文的贡献与总体结构。在第二章节，根据引导图片合成与编辑的数据模态，该综述论文介绍了比较常用的视觉引导，文字引导，语音引导，还有近期DragGAN提出的控制点引导等，并且介绍了相应模态数据的处理方法。

在第三章节，根据图像合成与编辑的模型框架，该论文对目前的各种方法进行了分类，包括基于GAN的方法，扩散模型方法，自回归方法，和神经辐射场（NeRF）方法。

由于基于GAN的方法一般使用条件GAN和 GAN 反演，因此该论文进一步根据控制条件的融合方式，模型的结构，损失函数设计，多模态对齐，和跨模态监督进行了详细描述。

近期，火热的扩散模型也被广泛应用于多模态合成与编辑任务。例如效果惊人的DALLE-2和Imagen都是基于扩散模型实现的。相比于GAN，扩散式生成模型拥有一些良好的性质，比如静态的训练目标和易扩展性。该论文依据条件扩散模型和预训练扩散模型对现有方法进行了分类与详细分析。

相比于基于GAN和扩散模型的方法，自回归模型方法能够更加自然的处理多模态数据，以及利用目前流行的Transformer模型。自回归方法一般先学习一个向量量化编码器将图片离散地表示为token序列，然后自回归式地建模token的分布。由于文本和语音等数据都能表示为token并作为自回归建模的条件，因此各种多模态图片合成与编辑任务都能统一到一个框架当中。

以上方法主要聚焦于2D图像的多模态合成与编辑。近期随着神经辐射场（NeRF）的迅速发展，3D感知的多模态合成与编辑也吸引了越来越多的关注。由于需要考虑多视角一致性，3D感知的多模态合成与编辑是更具挑战性的任务。本文针对单场景优化NeRF，生成式NeRF两种方法对现有工作进行了分类与总结。

随后，该综述对以上四种模型方法的进行了比较和讨论。总体而言，相比于GAN，目前最先进的模型更加偏爱自回归模型和扩散模型。而NeRF在多模态合成与编辑任务的应用为这个领域的研究打开了一扇新的窗户。

在第四章节，该综述汇集了多模态合成与编辑领域流行的数据集以及相应的模态标注，并且针对各模态典型任务（语义图像合成，文字到图像合成，语音引导图像编辑）对当前方法进行了定量的比较。同时也对多种模态同时控制生成的结果进行了可视化。

在第五章节，该综述对此领域目前的挑战和未来方向进行了探讨和分析，包括大规模的多模态数据集，准确可靠的评估指标，高效的网络架构，以及3D感知的发展方向。在第六和第七章节，该综述分别阐述了此领域潜在的社会影响和总结了文章的内容与贡献。

成为VIP会员查看完整内容

49

相关内容

TPAMI 2023

不可错过！斯坦福《图学习》研讨会，Jure Leskovec主持，附slides！

不可错过！斯坦福《图学习》研讨会，Jure Leskovec主持，附slides！

专知会员服务

58+阅读 · 2022年10月5日

推荐！《军事训练中的 AI 增强沉浸式仿真和作战方案（COA）分析》北约2022最新186页技术报告！

推荐！《军事训练中的 AI 增强沉浸式仿真和作战方案（COA）分析》北约2022最新186页技术报告！

专知会员服务

184+阅读 · 2022年10月2日

【ICRA2022】机器人强化学习工具教程, 附slides与视频

【ICRA2022】机器人强化学习工具教程, 附slides与视频

专知会员服务

40+阅读 · 2022年5月27日

不可错过！CMU最新《深度学习》2022春季课程，Ruslan Salakhutdinov教授主讲

不可错过！CMU最新《深度学习》2022春季课程，Ruslan Salakhutdinov教授主讲

专知会员服务

71+阅读 · 2022年3月8日

开课了！CMU《多模态机器学习》2022课程，附课件与视频

开课了！CMU《多模态机器学习》2022课程，附课件与视频

专知会员服务

155+阅读 · 2022年2月1日

清华大学提出ACmix | 这才是Self-Attention与CNN正确的融合范式，性能速度全面提升

清华大学提出ACmix | 这才是Self-Attention与CNN正确的融合范式，性能速度全面提升

专知会员服务

27+阅读 · 2021年12月3日

千亿参数！阿里清华联合推理史上最大中文多模态预训练器M6！

千亿参数！阿里清华联合推理史上最大中文多模态预训练器M6！

专知会员服务

42+阅读 · 2021年3月3日

【NeurIPS 2020】最新《元学习神经架构、初始权值、超参数和算法组件》报告，附视频与PPT

【NeurIPS 2020】最新《元学习神经架构、初始权值、超参数和算法组件》报告，附视频与PPT

专知会员服务

20+阅读 · 2020年12月18日

【硬核课】CMU《多模态机器学习》2020课程，附课件与视频

【硬核课】CMU《多模态机器学习》2020课程，附课件与视频

专知会员服务

138+阅读 · 2020年9月3日

【干货】剑桥大学Alex Kendall 208页博士论文-计算机视觉深度学习中的几何结构与不确定性

【干货】剑桥大学Alex Kendall 208页博士论文-计算机视觉深度学习中的几何结构与不确定性

专知会员服务

33+阅读 · 2019年10月27日

【NeurIPS 2022报告】大语言模型理解，纽约大学David Chalmers

【NeurIPS 2022报告】大语言模型理解，纽约大学David Chalmers

专知

1+阅读 · 2022年12月1日

【2022新书】元学习: 理论，算法和应用, 404页pdf

【2022新书】元学习: 理论，算法和应用, 404页pdf

专知

26+阅读 · 2022年11月27日

业界首个支持9种语言的文图生成模型！智源AltDiffusion开源技术解读

业界首个支持9种语言的文图生成模型！智源AltDiffusion开源技术解读

机器之心

2+阅读 · 2022年11月25日

深度学习如何解决数学方程？四川大学最新《深度神经网络偏微分方程》综述，19页pdf阐述如何用DNN有效地解决PDE

深度学习如何解决数学方程？四川大学最新《深度神经网络偏微分方程》综述，19页pdf阐述如何用DNN有效地解决PDE

专知

6+阅读 · 2022年11月13日

推荐！《可解释人工智能及其军事意义》【译文】印智库ORF2022最新报告

推荐！《可解释人工智能及其军事意义》【译文】印智库ORF2022最新报告

专知

40+阅读 · 2022年11月4日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

推荐！《军事训练中的 AI 增强沉浸式仿真和作战方案（COA）分析》北约2022最新186页技术报告！

推荐！《军事训练中的 AI 增强沉浸式仿真和作战方案（COA）分析》北约2022最新186页技术报告！

专知

25+阅读 · 2022年10月3日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

AI前沿学生论坛 | 朱时超：图神经网络模型及应用进展【附视频+PPT下载】

AI前沿学生论坛 | 朱时超：图神经网络模型及应用进展【附视频+PPT下载】

人工智能前沿讲习班

18+阅读 · 2018年9月25日

超强干货|Python金融数据量化分析教程+机器学习电子书

超强干货|Python金融数据量化分析教程+机器学习电子书

Python程序员

16+阅读 · 2018年6月25日

内容中心无线网络的存储和传输协作机制研究

国家自然科学基金

1+阅读 · 2017年12月31日

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

基于表达水平、剪切机制、序列和结构的动物非编码RNA保守性与进化的系统分析

国家自然科学基金

0+阅读 · 2015年12月31日

云计算下的加密域多媒体水印与模式匹配

国家自然科学基金

1+阅读 · 2015年12月31日

大规模模糊RDF数据管理关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

稀土上转换纳米颗粒对间充质干细胞命运的调控

国家自然科学基金

0+阅读 · 2015年12月31日

面向全双工的新型MIMO系统传输优化

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

设计利用光调控吸着强度的CO2捕获材料

国家自然科学基金

0+阅读 · 2014年12月31日

SHVC质量可伸缩视频编码的快速算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

Hibikino-Musashi@Home 2023 Team Description Paper

Arxiv

0+阅读 · 2023年10月19日

PrivacyGAN: robust generative image privacy

Arxiv

0+阅读 · 2023年10月19日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

223+阅读 · 2023年4月7日

One Small Step for Generative AI, One Giant Leap for AGI: A Complete Survey on ChatGPT in AIGC Era

Arxiv

49+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

494+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

152+阅读 · 2023年3月29日

Knowledge Graphs: Opportunities and Challenges

Arxiv

177+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

85+阅读 · 2023年3月21日

VIP会员

相关主题

相关VIP内容

不可错过！斯坦福《图学习》研讨会，Jure Leskovec主持，附slides！

不可错过！斯坦福《图学习》研讨会，Jure Leskovec主持，附slides！

专知会员服务

58+阅读 · 2022年10月5日

推荐！《军事训练中的 AI 增强沉浸式仿真和作战方案（COA）分析》北约2022最新186页技术报告！

推荐！《军事训练中的 AI 增强沉浸式仿真和作战方案（COA）分析》北约2022最新186页技术报告！

专知会员服务

184+阅读 · 2022年10月2日

【ICRA2022】机器人强化学习工具教程, 附slides与视频

【ICRA2022】机器人强化学习工具教程, 附slides与视频

专知会员服务

40+阅读 · 2022年5月27日

不可错过！CMU最新《深度学习》2022春季课程，Ruslan Salakhutdinov教授主讲

不可错过！CMU最新《深度学习》2022春季课程，Ruslan Salakhutdinov教授主讲

专知会员服务

71+阅读 · 2022年3月8日

开课了！CMU《多模态机器学习》2022课程，附课件与视频

开课了！CMU《多模态机器学习》2022课程，附课件与视频

专知会员服务

155+阅读 · 2022年2月1日

清华大学提出ACmix | 这才是Self-Attention与CNN正确的融合范式，性能速度全面提升

清华大学提出ACmix | 这才是Self-Attention与CNN正确的融合范式，性能速度全面提升

专知会员服务

27+阅读 · 2021年12月3日

千亿参数！阿里清华联合推理史上最大中文多模态预训练器M6！

千亿参数！阿里清华联合推理史上最大中文多模态预训练器M6！

专知会员服务

42+阅读 · 2021年3月3日

【NeurIPS 2020】最新《元学习神经架构、初始权值、超参数和算法组件》报告，附视频与PPT

【NeurIPS 2020】最新《元学习神经架构、初始权值、超参数和算法组件》报告，附视频与PPT

专知会员服务

20+阅读 · 2020年12月18日

【硬核课】CMU《多模态机器学习》2020课程，附课件与视频

【硬核课】CMU《多模态机器学习》2020课程，附课件与视频

专知会员服务

138+阅读 · 2020年9月3日

【干货】剑桥大学Alex Kendall 208页博士论文-计算机视觉深度学习中的几何结构与不确定性

【干货】剑桥大学Alex Kendall 208页博士论文-计算机视觉深度学习中的几何结构与不确定性

专知会员服务

33+阅读 · 2019年10月27日

热门VIP内容

开通专知VIP会员享更多权益服务

《俄乌战争背景下俄罗斯的战略性海军分析（2022-2025年）》最新100页报告

【斯坦福博士论文】数据、决策与依赖：构建可信人工智能的挑战

人工智能时代背景下的未来海战

接触战中的无人机优势：美军旅级部队面临的小型无人机系统挑战与调整

相关资讯

【NeurIPS 2022报告】大语言模型理解，纽约大学David Chalmers

【NeurIPS 2022报告】大语言模型理解，纽约大学David Chalmers

专知

1+阅读 · 2022年12月1日

【2022新书】元学习: 理论，算法和应用, 404页pdf

【2022新书】元学习: 理论，算法和应用, 404页pdf

专知

26+阅读 · 2022年11月27日

业界首个支持9种语言的文图生成模型！智源AltDiffusion开源技术解读

业界首个支持9种语言的文图生成模型！智源AltDiffusion开源技术解读

机器之心

2+阅读 · 2022年11月25日

深度学习如何解决数学方程？四川大学最新《深度神经网络偏微分方程》综述，19页pdf阐述如何用DNN有效地解决PDE

深度学习如何解决数学方程？四川大学最新《深度神经网络偏微分方程》综述，19页pdf阐述如何用DNN有效地解决PDE

专知

6+阅读 · 2022年11月13日

推荐！《可解释人工智能及其军事意义》【译文】印智库ORF2022最新报告

推荐！《可解释人工智能及其军事意义》【译文】印智库ORF2022最新报告

专知

40+阅读 · 2022年11月4日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

推荐！《军事训练中的 AI 增强沉浸式仿真和作战方案（COA）分析》北约2022最新186页技术报告！

推荐！《军事训练中的 AI 增强沉浸式仿真和作战方案（COA）分析》北约2022最新186页技术报告！

专知

25+阅读 · 2022年10月3日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

AI前沿学生论坛 | 朱时超：图神经网络模型及应用进展【附视频+PPT下载】

AI前沿学生论坛 | 朱时超：图神经网络模型及应用进展【附视频+PPT下载】

人工智能前沿讲习班

18+阅读 · 2018年9月25日

超强干货|Python金融数据量化分析教程+机器学习电子书

超强干货|Python金融数据量化分析教程+机器学习电子书

Python程序员

16+阅读 · 2018年6月25日

相关基金

内容中心无线网络的存储和传输协作机制研究

国家自然科学基金

1+阅读 · 2017年12月31日

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

基于表达水平、剪切机制、序列和结构的动物非编码RNA保守性与进化的系统分析

国家自然科学基金

0+阅读 · 2015年12月31日

云计算下的加密域多媒体水印与模式匹配

国家自然科学基金

1+阅读 · 2015年12月31日

大规模模糊RDF数据管理关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

稀土上转换纳米颗粒对间充质干细胞命运的调控

国家自然科学基金

0+阅读 · 2015年12月31日

面向全双工的新型MIMO系统传输优化

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

设计利用光调控吸着强度的CO2捕获材料

国家自然科学基金

0+阅读 · 2014年12月31日

SHVC质量可伸缩视频编码的快速算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

相关论文

Hibikino-Musashi@Home 2023 Team Description Paper

Arxiv

0+阅读 · 2023年10月19日

PrivacyGAN: robust generative image privacy

Arxiv

0+阅读 · 2023年10月19日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

223+阅读 · 2023年4月7日

One Small Step for Generative AI, One Giant Leap for AGI: A Complete Survey on ChatGPT in AIGC Era

Arxiv

49+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

494+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

152+阅读 · 2023年3月29日

Knowledge Graphs: Opportunities and Challenges

Arxiv

177+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

85+阅读 · 2023年3月21日

微信扫码咨询专知VIP会员