成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
多模态图像合成与编辑这么火,马普所、南洋理工等出了份详细综述
2022 年 8 月 22 日
机器之心
机器之心专栏
机器之心编辑部
本篇综述通过对现有的多模态图像合成与编辑方法的归纳总结,对该领域目前的挑战和未来方向进行了探讨和分析。
近期 OpenAI 发布的 DALLE-2 和谷歌发布的 Imagen 等实现了令人惊叹的文字到图像的生成效果,引发了广泛关注并且衍生出了很多有趣的应用。而文字到图像的生成属于多模态图像合成与编辑领域的一个典型任务。
近日,来自马普所和南洋理工等机构的研究人员对多模态图像合成与编辑这一大领域的研究现状和未来发展做了详细的调查和分析。
论文地址:https://arxiv.org/pdf/2112.13592.pdf
项目地址:https://github.com/fnzhan/MISE
在第一章节,该综述描述了多模态图像合成与编辑任务的意义和整体发展,以及本论文的贡献与总体结构。
在第二章节,根据引导图片合成与编辑的数据模态,该综述论文介绍了比较常用的视觉引导(比如 语义图,关键点图,边缘图),文字引导,语音引导,场景图(scene graph)引导和相应模态数据的处理方法以及统一的表示框架。
在第三章节,根据图像合成与编辑的模型框架,该论文对目前的各种方法进行了分类,包括基于 GAN 的方法,自回归方法,扩散模型方法,和神经辐射场(NeRF)方法。
由于基于 GAN 的方法一般使用条件 GAN 和 无条件 GAN 反演,因此该论文将这一类别进一步分为模态内条件(例如语义图,边缘图),跨模态条件(例如文字和语音),和 GAN 反演(统一模态)并进行了详细描述。
相比于基于 GAN 的方法,自回归模型方法能够更加自然的处理多模态数据,以及利用目前流行的 Transformer 模型。自回归方法一般先学习一个向量量化编码器将图片离散地表示为 token 序列,然后自回归式地建模 token 的分布。由于文本和语音等数据都能表示为 token 并作为自回归建模的条件,因此各种多模态图片合成与编辑任务都能统一到一个框架当中。
近期,火热的扩散模型也被广泛应用于多模态合成与编辑任务。例如效果惊人的 DALLE-2 和 Imagen 都是基于扩散模型实现的。相比于 GAN,扩散式生成模型拥有一些良好的性质,比如静态的训练目标和易扩展性。该论文依据条件扩散模型和预训练扩散模型对现有方法进行了分类与详细分析。
以上方法主要聚焦于 2D 图像的多模态合成与编辑。近期随着神经辐射场(NeRF)的迅速发展,3D 感知的多模态合成与编辑也吸引了越来越多的关注。由于需要考虑多视角一致性,3D 感知的多模态合成与编辑是更具挑战性的任务。本文针对单场景优化 NeRF,生成式 NeRF 和 NeRF 反演的三种方法对现有工作进行了分类与总结。
随后,该综述对以上四种模型方法的进行了比较和讨论。总体而言,相比于 GAN,目前最先进的模型更加偏爱自回归模型和扩散模型。而 NeRF 在多模态合成与编辑任务的应用为这个领域的研究打开了一扇新的窗户。
在第四章节,该综述汇集了多模态合成与编辑领域流行的数据集以及相应的模态标注,并且针对各模态典型任务(语义图像合成,文字到图像合成,语音引导图像编辑)对当前方法进行了定量的比较。
在第五章节,该综述对此领域目前的挑战和未来方向进行了探讨和分析,包括大规模的多模态数据集,准确可靠的评估指标,高效的网络架构,以及 3D 感知的发展方向。
在第六和第七章节,该综述分别阐述了此领域潜在的社会影响和总结了文章的内容与贡献。
WAIC 2022 · AI 开发者日
重磅登场
2021 图灵奖得主、中外院士领衔 40+ 重磅嘉宾,开发者论坛、技术 Workshop、云帆奖、黑客马拉松 4 大精彩版块…… 9 月 3 日,「WAIC 2022 · AI 开发者日」将重磅登场, 以「 AI 开发者所真正关注的」为主题,集中展示本年度人工智能领域最前沿技术成果和最新实践应用进展,为开发者呈现一场集学习、实战、社交为一体的技术嘉年华。
AI 开发者论坛观众报名已经开启,扫描下图二维码即刻报名。👇
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com
登录查看更多
点赞并收藏
0
暂时没有读者
1
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
图像合成
关注
3
扩撒模型如何用在医学上?最新《扩散模型医学图像分析》综述,25页pdf全面阐述医学图像扩散模型方法体系
专知会员服务
62+阅读 · 2022年11月19日
【NeurIPS 2022】扩散模型的深度平衡方法
专知会员服务
39+阅读 · 2022年11月5日
视觉的有效扩散模型综述
专知会员服务
92+阅读 · 2022年10月20日
大“火”的扩散模型综述又一弹!UCF等《视觉扩散模型》综述,20页pdf详述三种通用的扩散建模框架
专知会员服务
84+阅读 · 2022年9月13日
如何造出逼真图像?南洋理工Chuanxia Zheng博士论文《基于深度生成学习的逼真图像合成》197页pdf阐述视觉合成工作
专知会员服务
50+阅读 · 2022年3月9日
南洋理工最新《视频自然语言定位》2022综述
专知会员服务
24+阅读 · 2022年1月29日
生成对抗式网络及其医学影像应用研究综述
专知会员服务
40+阅读 · 2021年7月24日
图像描述生成研究进展
专知会员服务
69+阅读 · 2021年3月29日
【南洋理工】三维深度学习医学图像处理综述,13页pdf,
专知会员服务
75+阅读 · 2020年4月6日
新加坡南洋理工最新37页《零样本学习综述》论文
专知会员服务
113+阅读 · 2019年10月20日
「扩散模型」首篇综述!谷歌&北大最新研究
新智元
9+阅读 · 2022年9月24日
覆盖100余篇论文,这篇综述系统回顾了CV中的扩散模型
机器之心
2+阅读 · 2022年9月20日
让换脸无所遁形!南洋理工发布全球首个DeepFake篡改序列检测还原数据集|ECCV 2022
新智元
0+阅读 · 2022年9月7日
马普所、南洋理工等最新《多模态图像合成与编辑》综述论文,20页pdf
专知
1+阅读 · 2022年8月24日
CVPR 2022|只用一张图+相机走位,AI就能脑补周围环境!
极市平台
0+阅读 · 2022年3月21日
如何造出逼真图像?南洋理工Zheng博士论文《基于深度生成学习的逼真图像合成》197页pdf阐述视觉合成工作
专知
7+阅读 · 2022年3月9日
南洋理工最新《视频自然语言定位》2022综述
专知
1+阅读 · 2022年1月29日
DALL-E、「女娲」刷屏背后,多模态图像合成与编辑领域进展如何?
机器之心
1+阅读 · 2022年1月12日
西电最新《场景图生成SGG》全面综述论文,阐述总结138项工作
专知
13+阅读 · 2022年1月4日
用扩散模型生成高保真度图像
TensorFlow
1+阅读 · 2021年8月17日
大规模数据集3D手语识别的研究
国家自然科学基金
1+阅读 · 2014年12月31日
基于图像的室外场景光影分析与编辑
国家自然科学基金
0+阅读 · 2013年12月31日
汉藏双语个性化多语种语音合成中的语言建模的研究
国家自然科学基金
0+阅读 · 2012年12月31日
基于全投影域的医学图像多分辨率非刚性配准方法研究
国家自然科学基金
0+阅读 · 2012年12月31日
基于曲面柔韧度的三维形状局部特征描述符研究
国家自然科学基金
0+阅读 · 2012年12月31日
对象级视频修复与合成篡改检测关键技术研究
国家自然科学基金
1+阅读 · 2012年12月31日
非参数化缺陷图像生成系统和语义驱动方法
国家自然科学基金
0+阅读 · 2012年12月31日
自组装制备NaYF4:Yb,Tm/TiO2/Graphene纳米异质结构及其在高效光催化中的应用研究
国家自然科学基金
0+阅读 · 2011年12月31日
自蔓延高温合成β-FeSi2热电材料的研究
国家自然科学基金
0+阅读 · 2011年12月31日
基于语义的图像合成
国家自然科学基金
0+阅读 · 2011年12月31日
3DDesigner: Towards Photorealistic 3D Object Generation and Editing with Text-guided Diffusion Models
Arxiv
0+阅读 · 2022年11月25日
Latent Video Diffusion Models for High-Fidelity Video Generation with Arbitrary Lengths
Arxiv
0+阅读 · 2022年11月23日
Physics-Informed Machine Learning: A Survey on Problems, Methods and Applications
Arxiv
70+阅读 · 2022年11月15日
A Survey on Graph Neural Networks and Graph Transformers in Computer Vision: A Task-Oriented Perspective
Arxiv
21+阅读 · 2022年9月27日
Cross-Domain Few-Shot Graph Classification
Arxiv
13+阅读 · 2022年1月20日
Graph Neural Networks for Natural Language Processing: A Survey
Arxiv
36+阅读 · 2021年6月10日
Graph Learning: A Survey
Arxiv
57+阅读 · 2021年5月3日
A Survey on Knowledge Graphs: Representation, Acquisition and Applications
Arxiv
93+阅读 · 2020年2月2日
A Survey of Domain Adaptation for Neural Machine Translation
Arxiv
17+阅读 · 2018年6月1日
End-to-End Dense Video Captioning with Masked Transformer
Arxiv
14+阅读 · 2018年4月3日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
图像合成
合成
多模
模态
多模态
综述
相关VIP内容
扩撒模型如何用在医学上?最新《扩散模型医学图像分析》综述,25页pdf全面阐述医学图像扩散模型方法体系
专知会员服务
62+阅读 · 2022年11月19日
【NeurIPS 2022】扩散模型的深度平衡方法
专知会员服务
39+阅读 · 2022年11月5日
视觉的有效扩散模型综述
专知会员服务
92+阅读 · 2022年10月20日
大“火”的扩散模型综述又一弹!UCF等《视觉扩散模型》综述,20页pdf详述三种通用的扩散建模框架
专知会员服务
84+阅读 · 2022年9月13日
如何造出逼真图像?南洋理工Chuanxia Zheng博士论文《基于深度生成学习的逼真图像合成》197页pdf阐述视觉合成工作
专知会员服务
50+阅读 · 2022年3月9日
南洋理工最新《视频自然语言定位》2022综述
专知会员服务
24+阅读 · 2022年1月29日
生成对抗式网络及其医学影像应用研究综述
专知会员服务
40+阅读 · 2021年7月24日
图像描述生成研究进展
专知会员服务
69+阅读 · 2021年3月29日
【南洋理工】三维深度学习医学图像处理综述,13页pdf,
专知会员服务
75+阅读 · 2020年4月6日
新加坡南洋理工最新37页《零样本学习综述》论文
专知会员服务
113+阅读 · 2019年10月20日
热门VIP内容
开通专知VIP会员 享更多权益服务
OpenAI十二天总结与Agent新范式
【伯克利博士论文】高效深度学习推理的全栈方法
【AAAI2025】多层次最优传输用于语言模型中的通用跨标记器知识蒸馏
大规模语言模型增强推荐系统:分类、趋势、应用与未来
相关资讯
「扩散模型」首篇综述!谷歌&北大最新研究
新智元
9+阅读 · 2022年9月24日
覆盖100余篇论文,这篇综述系统回顾了CV中的扩散模型
机器之心
2+阅读 · 2022年9月20日
让换脸无所遁形!南洋理工发布全球首个DeepFake篡改序列检测还原数据集|ECCV 2022
新智元
0+阅读 · 2022年9月7日
马普所、南洋理工等最新《多模态图像合成与编辑》综述论文,20页pdf
专知
1+阅读 · 2022年8月24日
CVPR 2022|只用一张图+相机走位,AI就能脑补周围环境!
极市平台
0+阅读 · 2022年3月21日
如何造出逼真图像?南洋理工Zheng博士论文《基于深度生成学习的逼真图像合成》197页pdf阐述视觉合成工作
专知
7+阅读 · 2022年3月9日
南洋理工最新《视频自然语言定位》2022综述
专知
1+阅读 · 2022年1月29日
DALL-E、「女娲」刷屏背后,多模态图像合成与编辑领域进展如何?
机器之心
1+阅读 · 2022年1月12日
西电最新《场景图生成SGG》全面综述论文,阐述总结138项工作
专知
13+阅读 · 2022年1月4日
用扩散模型生成高保真度图像
TensorFlow
1+阅读 · 2021年8月17日
相关基金
大规模数据集3D手语识别的研究
国家自然科学基金
1+阅读 · 2014年12月31日
基于图像的室外场景光影分析与编辑
国家自然科学基金
0+阅读 · 2013年12月31日
汉藏双语个性化多语种语音合成中的语言建模的研究
国家自然科学基金
0+阅读 · 2012年12月31日
基于全投影域的医学图像多分辨率非刚性配准方法研究
国家自然科学基金
0+阅读 · 2012年12月31日
基于曲面柔韧度的三维形状局部特征描述符研究
国家自然科学基金
0+阅读 · 2012年12月31日
对象级视频修复与合成篡改检测关键技术研究
国家自然科学基金
1+阅读 · 2012年12月31日
非参数化缺陷图像生成系统和语义驱动方法
国家自然科学基金
0+阅读 · 2012年12月31日
自组装制备NaYF4:Yb,Tm/TiO2/Graphene纳米异质结构及其在高效光催化中的应用研究
国家自然科学基金
0+阅读 · 2011年12月31日
自蔓延高温合成β-FeSi2热电材料的研究
国家自然科学基金
0+阅读 · 2011年12月31日
基于语义的图像合成
国家自然科学基金
0+阅读 · 2011年12月31日
相关论文
3DDesigner: Towards Photorealistic 3D Object Generation and Editing with Text-guided Diffusion Models
Arxiv
0+阅读 · 2022年11月25日
Latent Video Diffusion Models for High-Fidelity Video Generation with Arbitrary Lengths
Arxiv
0+阅读 · 2022年11月23日
Physics-Informed Machine Learning: A Survey on Problems, Methods and Applications
Arxiv
70+阅读 · 2022年11月15日
A Survey on Graph Neural Networks and Graph Transformers in Computer Vision: A Task-Oriented Perspective
Arxiv
21+阅读 · 2022年9月27日
Cross-Domain Few-Shot Graph Classification
Arxiv
13+阅读 · 2022年1月20日
Graph Neural Networks for Natural Language Processing: A Survey
Arxiv
36+阅读 · 2021年6月10日
Graph Learning: A Survey
Arxiv
57+阅读 · 2021年5月3日
A Survey on Knowledge Graphs: Representation, Acquisition and Applications
Arxiv
93+阅读 · 2020年2月2日
A Survey of Domain Adaptation for Neural Machine Translation
Arxiv
17+阅读 · 2018年6月1日
End-to-End Dense Video Captioning with Masked Transformer
Arxiv
14+阅读 · 2018年4月3日
大家都在搜
palantir
自主可控
大型语言模型
CMU博士论文
生成式人工智能
无人艇
洛克菲勒
数字孪生
CSIG
出海产品从 0 到 1 该怎么做
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top