扩散模型(DMs)在高质量图像合成中显示出巨大的潜力。然而,在制作复杂场景的图像时,如何正确地描述图像的全局结构和对象细节仍然是一个具有挑战性的任务。在这篇论文中,我们提出了Frido,一个特征金字塔扩散模型执行多尺度粗-细去噪过程的图像合成。我们的模型将输入图像分解为尺度相关的矢量量化特征,然后进行从粗到细的调制生成图像输出。在上述多尺度表示学习阶段,可以进一步利用文本、场景图或图像布局等附加输入条件。因此,Frido也可以用于条件或交叉模态图像合成。我们在各种无条件和有条件的图像生成任务上进行了广泛的实验,从文本到图像合成,从布局到图像,从场景到图像,到标签到图像。更具体地说,我们在五个基准上获得了最先进的FID得分,分别是COCO和OpenImages上的布局到图像,COCO和Visual Genome上的场景到图像,以及COCO上的标签到图像。

https://www.zhuanzhi.ai/paper/d6197fd1315f12b3d3cd40944d4d9272

成为VIP会员查看完整内容
20

相关内容

【AAAI2023】不确定性感知的图像描述生成
专知会员服务
24+阅读 · 2022年12月4日
【CVPR2022】提示分布学习
专知会员服务
29+阅读 · 2022年5月17日
【CVPR2022】高分辨率和多样化的视频-文本预训练模型
专知会员服务
9+阅读 · 2022年3月6日
【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习
专知会员服务
48+阅读 · 2021年12月20日
【CVPR2020】MSG-GAN:用于稳定图像合成的多尺度梯度GAN
专知会员服务
27+阅读 · 2020年4月6日
谷歌提出MaskGIT:掩码生成图像Transformer
CVer
2+阅读 · 2022年3月21日
用扩散模型生成高保真度图像
TensorFlow
1+阅读 · 2021年8月17日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年2月6日
Arxiv
12+阅读 · 2021年11月1日
Generative Adversarial Networks: A Survey and Taxonomy
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员