A layout to image (L2I) generation model aims to generate a complicated image containing multiple objects (things) against natural background (stuff), conditioned on a given layout. Built upon the recent advances in generative adversarial networks (GANs), existing L2I models have made great progress. However, a close inspection of their generated images reveals two major limitations: (1) the object-to-object as well as object-to-stuff relations are often broken and (2) each object's appearance is typically distorted lacking the key defining characteristics associated with the object class. We argue that these are caused by the lack of context-aware object and stuff feature encoding in their generators, and location-sensitive appearance representation in their discriminators. To address these limitations, two new modules are proposed in this work. First, a context-aware feature transformation module is introduced in the generator to ensure that the generated feature encoding of either object or stuff is aware of other co-existing objects/stuff in the scene. Second, instead of feeding location-insensitive image features to the discriminator, we use the Gram matrix computed from the feature maps of the generated object images to preserve location-sensitive information, resulting in much enhanced object appearance. Extensive experiments show that the proposed method achieves state-of-the-art performance on the COCO-Thing-Stuff and Visual Genome benchmarks.


翻译:图像版图( L2I) 生成模型( L2I) 旨在生成一个复杂的图像, 包含以自然背景( 外观) 为条件的多种对象( 外观) 。 以基因对抗网络( GANs) 的最新进展为基础, 现有的 L2I 模型取得了巨大进展 。 然而, 对其生成的图像进行仔细检查, 揭示出两大局限性:(1) 对象对对象以及对象对对象关系经常被打破, (2) 每个对象的外观通常被扭曲, 缺乏与对象类别相关的关键定义特征。 我们争辩说, 造成这些变化的原因是, 其生成器缺少上的背景觉识对象和材料的编码, 以及其导师中对位置敏感的外观代表。 为了解决这些局限性, 在这项工作中提出了两个新的模块。 首先, 在生成的图像中引入了环境觉特征转换模块, 以确保对象或事物的特性编码能够了解现场的其他共同存在的物体/ 。 其次, 我们不用将位置不敏感的图像特性定位特性特性特性定位给导师。 我们使用Gram 矩阵在生成的视野图像的地图图上进行计算, 将生成的GRAVIFIFI 显示高度图像的图像的图像的图像定位定位定位定位定位定位定位定位定位定位定位定位定位定位定位定位定位定位显示为高度显示。

0
下载
关闭预览

相关内容

iOS 8 提供的应用间和应用跟系统的功能交互特性。
  • Today (iOS and OS X): widgets for the Today view of Notification Center
  • Share (iOS and OS X): post content to web services or share content with others
  • Actions (iOS and OS X): app extensions to view or manipulate inside another app
  • Photo Editing (iOS): edit a photo or video in Apple's Photos app with extensions from a third-party apps
  • Finder Sync (OS X): remote file storage in the Finder with support for Finder content annotation
  • Storage Provider (iOS): an interface between files inside an app and other apps on a user's device
  • Custom Keyboard (iOS): system-wide alternative keyboards

Source: iOS 8 Extensions: Apple’s Plan for a Powerful App Ecosystem
「深度图像检索: 2012到2020」大综述论文,21页pdf
专知会员服务
42+阅读 · 2021年1月30日
最新【深度生成模型】Deep Generative Models,104页ppt
专知会员服务
71+阅读 · 2020年10月24日
最新《生成式对抗网络GAN时空数据应用》综述论文,28pdf
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
Arxiv
7+阅读 · 2018年1月21日
VIP会员
相关资讯
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
Top
微信扫码咨询专知VIP会员