Language-guided image generation has achieved great success nowadays by using diffusion models. However, texts can be less detailed to describe highly-specific subjects such as a particular dog or a certain car, which makes pure text-to-image generation not accurate enough to satisfy user requirements. In this work, we present a novel Unified Multi-Modal Latent Diffusion (UMM-Diffusion) which takes joint texts and images containing specified subjects as input sequences and generates customized images with the subjects. To be more specific, both input texts and images are encoded into one unified multi-modal latent space, in which the input images are learned to be projected to pseudo word embedding and can be further combined with text to guide image generation. Besides, to eliminate the irrelevant parts of the input images such as background or illumination, we propose a novel sampling technique of diffusion models used by the image generator which fuses the results guided by multi-modal input and pure text input. By leveraging the large-scale pre-trained text-to-image generator and the designed image encoder, our method is able to generate high-quality images with complex semantics from both aspects of input texts and images.


翻译:语言引导的图像生成目前已经通过使用扩散模型取得了巨大的成功。然而,文本可能缺乏足够的细节来描述高度特定的主体,例如特定的狗或某一辆汽车,这使得纯文本到图像的生成不够准确,不能满足用户要求。在这项工作中,我们提出了一种新颖的统一多模态潜移率(UMM-Diffusion),它将联合含有指定主体的文本和图像作为输入序列,并生成自定义的主体图像。更具体地说,输入文本和图像都被编码成一个统一的多模态潜空间,其中输入图像被学习投影成伪词嵌入,并可以进一步与文本组合以指导图像生成。此外,为了消除输入图像中的无关部分,例如背景或照明等,我们提出了一种由多模态输入和纯文本输入引导的扩散模型的新型采样技术,它融合两种输入引导的结果。通过利用大规模预训练的文本到图像生成器和设计的图像编码器,我们的方法能够从输入文本和图像的两个方面生成具有复杂语义的高质量图像。

0
下载
关闭预览

相关内容

【CVPR2023】基于文本驱动软掩码的多模态表示学习
专知会员服务
20+阅读 · 2023年4月10日
【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型
【CVPR2021】GAN人脸预训练模型
专知会员服务
23+阅读 · 2021年4月10日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
23+阅读 · 2019年12月15日
浅聊对比学习(Contrastive Learning)
极市平台
2+阅读 · 2022年7月26日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员