Inferring objects and their relationships from an image in the form of a scene graph is useful in many applications at the intersection of vision and language. We consider a challenging problem of compositional generalization that emerges in this task due to a long tail data distribution. Current scene graph generation models are trained on a tiny fraction of the distribution corresponding to the most frequent compositions, e.g. <cup, on, table>. However, test images might contain zero- and few-shot compositions of objects and relationships, e.g. <cup, on, surfboard>. Despite each of the object categories and the predicate (e.g. 'on') being frequent in the training data, the models often fail to properly understand such unseen or rare compositions. To improve generalization, it is natural to attempt increasing the diversity of the training distribution. However, in the graph domain this is non-trivial. To that end, we propose a method to synthesize rare yet plausible scene graphs by perturbing real ones. We then propose and empirically study a model based on conditional generative adversarial networks (GANs) that allows us to generate visual features of perturbed scene graphs and learn from them in a joint fashion. When evaluated on the Visual Genome dataset, our approach yields marginal, but consistent improvements in zero- and few-shot metrics. We analyze the limitations of our approach indicating promising directions for future research.


翻译:在视觉和语言交汇处的许多应用中,用场景图的形式从图像中推断对象及其关系,对视觉和语言交汇处的许多应用非常有用。我们认为,由于长时间的尾尾细数据分布,这项任务中出现一个具有挑战性的组成概括问题。当前场景图生成模型在与最经常的构成(例如表上<cup,上,表>)相对应的分布中,有一小部分是经过培训的。然而,测试图像可能包含零和少量的物体和关系组成,例如“cup,上,冲浪板”。尽管每个对象类别和上游(例如“on”)在培训数据中频繁出现,但模型往往无法正确理解这种看不见或稀有的构成。为了改进,为了提高培训分布的多样性,自然要尝试增加培训分布的多样性。然而,在图形域中,这是非三角的。为此,我们提出了一个方法,通过对真实的方法来综合稀有但真实的景象图。我们然后提议和实验性地研究一个模型,以有条件的对准性对准的对准性对准性对准网络(GAN,但从我们未来的图表中,我们从远处对准的图像中得出了我们未来的图像的图像的图像的预测。让我们从未来的图像结果中,用一个直观测测测测测测出一个视觉的图像的图像的图像结果。

0
下载
关闭预览

相关内容

最新【深度生成模型】Deep Generative Models,104页ppt
专知会员服务
68+阅读 · 2020年10月24日
因果图,Causal Graphs,52页ppt
专知会员服务
243+阅读 · 2020年4月19日
17篇知识图谱Knowledge Graphs论文 @AAAI2020
专知会员服务
170+阅读 · 2020年2月13日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
23+阅读 · 2019年12月15日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理
深度学习自然语言处理
18+阅读 · 2020年5月22日
Hierarchically Structured Meta-learning
CreateAMind
24+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Bridging Knowledge Graphs to Generate Scene Graphs
Arxiv
5+阅读 · 2020年1月7日
Using Scene Graph Context to Improve Image Generation
VIP会员
Top
微信扫码咨询专知VIP会员