Localized Narratives is a dataset with detailed natural language descriptions of images paired with mouse traces that provide a sparse, fine-grained visual grounding for phrases. We propose TReCS, a sequential model that exploits this grounding to generate images. TReCS uses descriptions to retrieve segmentation masks and predict object labels aligned with mouse traces. These alignments are used to select and position masks to generate a fully covered segmentation canvas; the final image is produced by a segmentation-to-image generator using this canvas. This multi-step, retrieval-based approach outperforms existing direct text-to-image generation models on both automatic metrics and human evaluations: overall, its generated images are more photo-realistic and better match descriptions.


翻译:本地化描述是一个数据集,包含详细的自然语言描述图象的数据集,这些图象配有鼠标痕迹,为词组提供稀疏、细微的视觉地面。我们提议了TRECS,这是一个利用这种基底来生成图像的相继模型。TRECS使用描述来检索分离面罩,并预测与鼠标痕相匹配的物体标签。这些校正用于选择和定位遮罩以生成一个完全覆盖的分层画布;最后图像由使用此画布的分层到图像生成器生成。这种多步骤的、基于检索的方法在自动测量和人类评估上都比现有的直接文本到图像生成模型更完善:总体而言,其生成的图象更具有照片现实性,更符合描述。

0
下载
关闭预览

相关内容

Canvas 是 HTML5 标准中新晋的标签元素,它还提供了基于 JavaScript 的 2D 和 bitmap 图形的 API。
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
跨越注意力:Cross-Attention
我爱读PAMI
172+阅读 · 2018年6月2日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
一种基于Sequence-to-Sequence的高质量对话生成方法
科技创新与创业
9+阅读 · 2017年11月13日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
Using Scene Graph Context to Improve Image Generation
Arxiv
7+阅读 · 2018年11月27日
VIP会员
相关VIP内容
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
Top
微信扫码咨询专知VIP会员