Multi-modal generation has been widely explored in recent years. Current research directions involve generating text based on an image or vice versa. In this paper, we propose a new task called CIGLI: Conditional Image Generation from Language and Image. Instead of generating an image based on text as in text-image generation, this task requires the generation of an image from a textual description and an image prompt. We designed a new dataset to ensure that the text description describes information from both images, and that solely analyzing the description is insufficient to generate an image. We then propose a novel language-image fusion model which improves the performance over two established baseline methods, as evaluated by quantitative (automatic) and qualitative (human) evaluations. The code and dataset is available at https://github.com/vincentlux/CIGLI.


翻译:近年来广泛探索了多模式生成。 当前的研究方向包括根据图像生成文字或反之亦然。 在本文中,我们提议了一个新的任务,名为 CIGLI: 从语言和图像生成有条件图像。 这项任务不是根据文本生成方式生成图像,而是从文本生成方式生成图像,而是从文本描述和图像提示中生成图像。 我们设计了一个新的数据集,以确保文本描述能够描述来自两种图像的信息,而仅仅分析描述不足以生成图像。 然后我们提出了一个新的语言图像聚合模式,通过定量(自动)和定性(人)评估,改进两种既定基线方法的性能。 代码和数据集可以在 https://github.com/vicentlux/CIGLI上查阅。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
专知会员服务
61+阅读 · 2021年3月12日
Python图像处理,366页pdf,Image Operators Image Processing in Python
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
91+阅读 · 2019年10月16日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
自然语言处理 (NLP)资源大全
机械鸡
35+阅读 · 2017年9月17日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
Arxiv
15+阅读 · 2021年7月14日
Using Scene Graph Context to Improve Image Generation
Arxiv
7+阅读 · 2018年11月27日
Arxiv
8+阅读 · 2018年5月1日
Arxiv
7+阅读 · 2018年4月21日
Arxiv
7+阅读 · 2018年1月21日
VIP会员
相关VIP内容
专知会员服务
61+阅读 · 2021年3月12日
Python图像处理,366页pdf,Image Operators Image Processing in Python
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
91+阅读 · 2019年10月16日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关论文
Arxiv
15+阅读 · 2021年7月14日
Using Scene Graph Context to Improve Image Generation
Arxiv
7+阅读 · 2018年11月27日
Arxiv
8+阅读 · 2018年5月1日
Arxiv
7+阅读 · 2018年4月21日
Arxiv
7+阅读 · 2018年1月21日
Top
微信扫码咨询专知VIP会员