【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型 - 专知VIP

会员服务 ·

13

AAAI 2023 · 扩散模型 · 图像合成 · 特征金字塔 ·

2022 年 12 月 5 日

【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

扩散模型(DMs)在高质量图像合成中显示出巨大的潜力。然而，在制作复杂场景的图像时，如何正确地描述图像的全局结构和对象细节仍然是一个具有挑战性的任务。在这篇论文中，我们提出了Frido，一个特征金字塔扩散模型执行多尺度粗-细去噪过程的图像合成。我们的模型将输入图像分解为尺度相关的矢量量化特征，然后进行从粗到细的调制生成图像输出。在上述多尺度表示学习阶段，可以进一步利用文本、场景图或图像布局等附加输入条件。因此，Frido也可以用于条件或交叉模态图像合成。我们在各种无条件和有条件的图像生成任务上进行了广泛的实验，从文本到图像合成，从布局到图像，从场景到图像，到标签到图像。更具体地说，我们在五个基准上获得了最先进的FID得分，分别是COCO和OpenImages上的布局到图像，COCO和Visual Genome上的场景到图像，以及COCO上的标签到图像。

https://www.zhuanzhi.ai/paper/d6197fd1315f12b3d3cd40944d4d9272

成为VIP会员查看完整内容

22

相关内容

AAAI 2023

【AAAI2023】不确定性感知的图像描述生成

【AAAI2023】不确定性感知的图像描述生成

专知会员服务

26+阅读 · 2022年12月4日

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

专知会员服务

10+阅读 · 2022年3月6日

AAAI 2022 | 在图像级弱监督语义分割这项CV难题上，字节跳动做到了性能显著提升

AAAI 2022 | 在图像级弱监督语义分割这项CV难题上，字节跳动做到了性能显著提升

专知会员服务

19+阅读 · 2022年1月7日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

专知会员服务

22+阅读 · 2021年2月17日

只需3个样本一句话，AI就能定制照片级图像，谷歌在玩一种很新的扩散模型

只需3个样本一句话，AI就能定制照片级图像，谷歌在玩一种很新的扩散模型

机器之心

0+阅读 · 2022年11月11日

大“火”的扩散模型综述又一弹！UCF等《视觉扩散模型》综述，20页pdf详述三种通用的扩散建模框架

大“火”的扩散模型综述又一弹！UCF等《视觉扩散模型》综述，20页pdf详述三种通用的扩散建模框架

专知

5+阅读 · 2022年9月13日

[ICCV 2021] 联合视觉语义推理：文本识别的多级解码器

[ICCV 2021] 联合视觉语义推理：文本识别的多级解码器

专知

5+阅读 · 2021年11月28日

AI版「女娲」来了！文字生成图像、视频，8类任务一个模型搞定

AI版「女娲」来了！文字生成图像、视频，8类任务一个模型搞定

机器之心

0+阅读 · 2021年11月26日

用扩散模型生成高保真度图像

用扩散模型生成高保真度图像

TensorFlow

1+阅读 · 2021年8月17日

大规模多视角高维图像特征提取

国家自然科学基金

3+阅读 · 2017年12月31日

基于图像配准与表示联合优化的自动人脸识别研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于多尺度分割的视觉显著性模型及其应用研究

国家自然科学基金

2+阅读 · 2011年12月31日

基于语义的图像合成

国家自然科学基金

0+阅读 · 2011年12月31日

多文种文档图像识别的多层次马尔可夫随机场模型研究

国家自然科学基金

1+阅读 · 2008年12月31日

Scanpath Prediction on Information Visualisations

Arxiv

0+阅读 · 2023年2月6日

A Coarse-to-Fine Framework for Dual-Arm Manipulation of Deformable Linear Objects with Whole-Body Obstacle Avoidance

Arxiv

0+阅读 · 2023年2月6日

Towards Robust Visual Information Extraction in Real World: New Dataset and Novel Solution

Arxiv

10+阅读 · 2021年1月24日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

Generative Adversarial Networks: A Survey and Taxonomy

Generative Adversarial Networks: A Survey and Taxonomy

Arxiv

14+阅读 · 2019年6月4日

VIP会员

相关主题

特征金字塔

相关VIP内容

【AAAI2023】不确定性感知的图像描述生成

【AAAI2023】不确定性感知的图像描述生成

专知会员服务

26+阅读 · 2022年12月4日

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

专知会员服务

10+阅读 · 2022年3月6日

AAAI 2022 | 在图像级弱监督语义分割这项CV难题上，字节跳动做到了性能显著提升

AAAI 2022 | 在图像级弱监督语义分割这项CV难题上，字节跳动做到了性能显著提升

专知会员服务

19+阅读 · 2022年1月7日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

专知会员服务

22+阅读 · 2021年2月17日

热门VIP内容

开通专知VIP会员享更多权益服务

前沿人工智能趋势报告（Frontier AI Trends Report）

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

Andrej Karpathy：2025 年 LLM 年度回顾（2025 LLM Year in Review）

音退化问题：基于输入操控的鲁棒语音转换综述

相关资讯

只需3个样本一句话，AI就能定制照片级图像，谷歌在玩一种很新的扩散模型

只需3个样本一句话，AI就能定制照片级图像，谷歌在玩一种很新的扩散模型

机器之心

0+阅读 · 2022年11月11日

大“火”的扩散模型综述又一弹！UCF等《视觉扩散模型》综述，20页pdf详述三种通用的扩散建模框架

大“火”的扩散模型综述又一弹！UCF等《视觉扩散模型》综述，20页pdf详述三种通用的扩散建模框架

专知

5+阅读 · 2022年9月13日

[ICCV 2021] 联合视觉语义推理：文本识别的多级解码器

[ICCV 2021] 联合视觉语义推理：文本识别的多级解码器

专知

5+阅读 · 2021年11月28日

AI版「女娲」来了！文字生成图像、视频，8类任务一个模型搞定

AI版「女娲」来了！文字生成图像、视频，8类任务一个模型搞定

机器之心

0+阅读 · 2021年11月26日

用扩散模型生成高保真度图像

用扩散模型生成高保真度图像

TensorFlow

1+阅读 · 2021年8月17日

相关基金

大规模多视角高维图像特征提取

国家自然科学基金

3+阅读 · 2017年12月31日

基于图像配准与表示联合优化的自动人脸识别研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于多尺度分割的视觉显著性模型及其应用研究

国家自然科学基金

2+阅读 · 2011年12月31日

基于语义的图像合成

国家自然科学基金

0+阅读 · 2011年12月31日

多文种文档图像识别的多层次马尔可夫随机场模型研究

国家自然科学基金

1+阅读 · 2008年12月31日

相关论文

Scanpath Prediction on Information Visualisations

Arxiv

0+阅读 · 2023年2月6日

A Coarse-to-Fine Framework for Dual-Arm Manipulation of Deformable Linear Objects with Whole-Body Obstacle Avoidance

Arxiv

0+阅读 · 2023年2月6日

Towards Robust Visual Information Extraction in Real World: New Dataset and Novel Solution

Arxiv

10+阅读 · 2021年1月24日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

Generative Adversarial Networks: A Survey and Taxonomy

Generative Adversarial Networks: A Survey and Taxonomy

Arxiv

14+阅读 · 2019年6月4日

微信扫码咨询专知VIP会员