GLIGEN：开放式基于文本的图像生成 (GLIGEN: Open-Set Grounded Text-to-Image Generation) - 专知论文

会员服务 ·

0

图像生成 · 门控机制 · 扩散模型 · 可控性 · 模型实现 ·

2023 年 4 月 17 日

GLIGEN: Open-Set Grounded Text-to-Image Generation

翻译：GLIGEN：开放式基于文本的图像生成

Yuheng Li,Haotian Liu,Qingyang Wu,Fangzhou Mu,Jianwei Yang,Jianfeng Gao,Chunyuan Li,Yong Jae Lee

Large-scale text-to-image diffusion models have made amazing advances. However, the status quo is to use text input alone, which can impede controllability. In this work, we propose GLIGEN, Grounded-Language-to-Image Generation, a novel approach that builds upon and extends the functionality of existing pre-trained text-to-image diffusion models by enabling them to also be conditioned on grounding inputs. To preserve the vast concept knowledge of the pre-trained model, we freeze all of its weights and inject the grounding information into new trainable layers via a gated mechanism. Our model achieves open-world grounded text2img generation with caption and bounding box condition inputs, and the grounding ability generalizes well to novel spatial configurations and concepts. GLIGEN's zero-shot performance on COCO and LVIS outperforms that of existing supervised layout-to-image baselines by a large margin.

翻译：大规模的文本到图像扩散模型取得了惊人的进展。然而，现状是仅使用文本输入，这可能会影响可控性。在这项工作中，我们提出了GLIGEN，基于语言和 grounding 输入的图像生成的新方法。该方法依托和扩展了现有的预训练文本到图像扩散模型的功能，使其能够同时受到 grounding 输入的限制。为了保留预训练模型的广泛概念知识，我们冻结了其所有权重，并通过门控机制将 grounding 信息注入到新的可训练层中。我们的模型实现了基于标题和边界框条件输入的开放式 grounded 文本到图像生成，并且 grounding 能力在新的空间配置和概念上具有良好的泛化性。GLIGEN 在 COCO 和 LVIS 上的零样本性能超过了现有的基于监督的布局到图像基线。

0

相关内容

图像生成

百篇论文纵览大型语言模型最新研究进展

百篇论文纵览大型语言模型最新研究进展

专知会员服务

70+阅读 · 2023年3月31日

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

专知会员服务

32+阅读 · 2022年3月12日

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

专知会员服务

27+阅读 · 2022年3月3日

最新《Transformers模型》教程，64页ppt

最新《Transformers模型》教程，64页ppt

专知会员服务

321+阅读 · 2020年11月26日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

【CVPR2020】通过自适应GANs生成不同的图像，Diverse Image Generation via Self-Conditioned GANs

【CVPR2020】通过自适应GANs生成不同的图像，Diverse Image Generation via Self-Conditioned GANs

专知会员服务

34+阅读 · 2020年6月19日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

165+阅读 · 2020年3月18日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

24+阅读 · 2019年12月15日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

论文浅尝 | 弱监督下极简的视觉语言预训练模型

论文浅尝 | 弱监督下极简的视觉语言预训练模型

开放知识图谱

1+阅读 · 2022年9月26日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

CVPR2019| 04-03更新10篇论文及代码（3篇oral、含GAN、文本图像生成等）

CVPR2019| 04-03更新10篇论文及代码（3篇oral、含GAN、文本图像生成等）

极市平台

18+阅读 · 2019年4月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

【论文推荐】最新八篇生成对抗网络相关论文—条件翻译、RGB-D动作识别、量子生成对抗网络、语义对齐、视频摘要、视觉-文本注意力

【论文推荐】最新八篇生成对抗网络相关论文—条件翻译、RGB-D动作识别、量子生成对抗网络、语义对齐、视频摘要、视觉-文本注意力

专知

15+阅读 · 2018年5月15日

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

专知

16+阅读 · 2018年5月14日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

MoCoGAN 分解运动和内容的视频生成

MoCoGAN 分解运动和内容的视频生成

CreateAMind

18+阅读 · 2017年10月21日

PPAR β/δ基因在结直肠癌血管生成调控中的作用及分子机理

国家自然科学基金

2+阅读 · 2014年12月31日

多层药型罩串联EFP形成机理研究

国家自然科学基金

0+阅读 · 2013年12月31日

射频容性耦合等离子体放电中电非对称效应机理的研究

国家自然科学基金

0+阅读 · 2013年12月31日

双目立体视频到多视点立体视频生成及压缩方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

TAp63/miR-200/Fascin信号通路调控膀胱癌细胞侵袭转移的机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于时频二维训练信息的高谱效多天线TFT-OFDM技术研究

国家自然科学基金

1+阅读 · 2012年12月31日

小尺寸HfTiO/TaON/GeON堆栈高k栅介质GeOI基MOSFET研究

国家自然科学基金

0+阅读 · 2012年12月31日

弯曲型离子迁移管的初步研究

国家自然科学基金

0+阅读 · 2012年12月31日

瞬时冷等离子体点火触发爆震机理研究

国家自然科学基金

0+阅读 · 2011年12月31日

纳米粒子辅助刻蚀与等离激元增强硅太阳电池微纳结构研究

国家自然科学基金

0+阅读 · 2011年12月31日

Diffusion Self-Guidance for Controllable Image Generation

Arxiv

0+阅读 · 2023年6月1日

StyleDrop: Text-to-Image Generation in Any Style

Arxiv

0+阅读 · 2023年6月1日

Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion Models

Arxiv

0+阅读 · 2023年6月1日

ViCo: Detail-Preserving Visual Condition for Personalized Text-to-Image Generation

Arxiv

0+阅读 · 2023年6月1日

UniDiff: Advancing Vision-Language Models with Generative and Discriminative Learning

Arxiv

0+阅读 · 2023年6月1日

Explanation Graph Generation via Generative Pre-training over Synthetic Graphs

Arxiv

0+阅读 · 2023年6月1日

Wuerstchen: Efficient Pretraining of Text-to-Image Models

Arxiv

0+阅读 · 2023年6月1日

Nested Diffusion Processes for Anytime Image Generation

Arxiv

0+阅读 · 2023年5月30日

DiffSketching: Sketch Control Image Synthesis with Diffusion Models

Arxiv

0+阅读 · 2023年5月30日

From Show to Tell: A Survey on Image Captioning

Arxiv

15+阅读 · 2021年7月14日

VIP会员

文章信息

相关主题

相关VIP内容

百篇论文纵览大型语言模型最新研究进展

百篇论文纵览大型语言模型最新研究进展

专知会员服务

70+阅读 · 2023年3月31日

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

专知会员服务

32+阅读 · 2022年3月12日

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

专知会员服务

27+阅读 · 2022年3月3日

最新《Transformers模型》教程，64页ppt

最新《Transformers模型》教程，64页ppt

专知会员服务

321+阅读 · 2020年11月26日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

【CVPR2020】通过自适应GANs生成不同的图像，Diverse Image Generation via Self-Conditioned GANs

【CVPR2020】通过自适应GANs生成不同的图像，Diverse Image Generation via Self-Conditioned GANs

专知会员服务

34+阅读 · 2020年6月19日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

165+阅读 · 2020年3月18日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

24+阅读 · 2019年12月15日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

热门VIP内容

开通专知VIP会员享更多权益服务

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

《美国太空军系统全生命周期建模、仿真与分析效能提升方案》最新84页报告

【博士论文】推进数据高效的深度学习：非参数 Transformer、主动测试与上下文学习

自主人工智能：未来战争是否将是自主化的？

相关资讯

论文浅尝 | 弱监督下极简的视觉语言预训练模型

论文浅尝 | 弱监督下极简的视觉语言预训练模型

开放知识图谱

1+阅读 · 2022年9月26日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

CVPR2019| 04-03更新10篇论文及代码（3篇oral、含GAN、文本图像生成等）

CVPR2019| 04-03更新10篇论文及代码（3篇oral、含GAN、文本图像生成等）

极市平台

18+阅读 · 2019年4月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

【论文推荐】最新八篇生成对抗网络相关论文—条件翻译、RGB-D动作识别、量子生成对抗网络、语义对齐、视频摘要、视觉-文本注意力

【论文推荐】最新八篇生成对抗网络相关论文—条件翻译、RGB-D动作识别、量子生成对抗网络、语义对齐、视频摘要、视觉-文本注意力

专知

15+阅读 · 2018年5月15日

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

专知

16+阅读 · 2018年5月14日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

MoCoGAN 分解运动和内容的视频生成

MoCoGAN 分解运动和内容的视频生成

CreateAMind

18+阅读 · 2017年10月21日

相关论文

Diffusion Self-Guidance for Controllable Image Generation

Arxiv

0+阅读 · 2023年6月1日

StyleDrop: Text-to-Image Generation in Any Style

Arxiv

0+阅读 · 2023年6月1日

Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion Models

Arxiv

0+阅读 · 2023年6月1日

ViCo: Detail-Preserving Visual Condition for Personalized Text-to-Image Generation

Arxiv

0+阅读 · 2023年6月1日

UniDiff: Advancing Vision-Language Models with Generative and Discriminative Learning

Arxiv

0+阅读 · 2023年6月1日

Explanation Graph Generation via Generative Pre-training over Synthetic Graphs

Arxiv

0+阅读 · 2023年6月1日

Wuerstchen: Efficient Pretraining of Text-to-Image Models

Arxiv

0+阅读 · 2023年6月1日

Nested Diffusion Processes for Anytime Image Generation

Arxiv

0+阅读 · 2023年5月30日

DiffSketching: Sketch Control Image Synthesis with Diffusion Models

Arxiv

0+阅读 · 2023年5月30日

From Show to Tell: A Survey on Image Captioning

Arxiv

15+阅读 · 2021年7月14日

相关基金

PPAR β/δ基因在结直肠癌血管生成调控中的作用及分子机理

国家自然科学基金

2+阅读 · 2014年12月31日

多层药型罩串联EFP形成机理研究

国家自然科学基金

0+阅读 · 2013年12月31日

射频容性耦合等离子体放电中电非对称效应机理的研究

国家自然科学基金

0+阅读 · 2013年12月31日

双目立体视频到多视点立体视频生成及压缩方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

TAp63/miR-200/Fascin信号通路调控膀胱癌细胞侵袭转移的机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于时频二维训练信息的高谱效多天线TFT-OFDM技术研究

国家自然科学基金

1+阅读 · 2012年12月31日

小尺寸HfTiO/TaON/GeON堆栈高k栅介质GeOI基MOSFET研究

国家自然科学基金

0+阅读 · 2012年12月31日

弯曲型离子迁移管的初步研究

国家自然科学基金

0+阅读 · 2012年12月31日

瞬时冷等离子体点火触发爆震机理研究

国家自然科学基金

0+阅读 · 2011年12月31日

纳米粒子辅助刻蚀与等离激元增强硅太阳电池微纳结构研究

国家自然科学基金

0+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员