李飞飞团队新作 - 有限标签的场景图预测- 专知

李飞飞团队新作 - 有限标签的场景图预测

导读

到目前为止，所有场景图模型都仅限于在一小部分视觉关系上进行训练，这些关系中每个都只有数千个训练标签。在本文中，作者从一个小的有限集合中自动生成缺失的关系标签，并使用这些自动生成的标签来训练下游场景图模型。

编译 | Xiaowen

链接：https://arxiv.org/abs/1904.11622

视觉知识库(如Visual Genome)为计算机视觉领域的众多应用提供了动力，包括视觉问答和captioning等，但它们之间存在着稀疏、不完全的关系。到目前为止，所有场景图模型都仅限于在一小部分视觉关系上进行训练，这些关系中每个都只有数千个训练标签。雇用人工来进行标注的代价是非常昂贵的，而使用文本知识库来补全方法与可视化数据不兼容。本文介绍了一种半监督的方法，利用少量的标注实例，对大量的无标注图像打上概率关系标签。我们通过分析视觉关系，提出两种与图像无关的特征，它们被用来产生有噪声的启发式算法，它们的输出使用基于因子图的生成模型（a factor graph-based generative model）进行聚合。利用只有10个标注的关系示例，生成模型创建了足够的训练数据来训练任何现有的最先进的场景图模型。实验证明，我们生成训练数据的方法比所有Baseline方法的性能都要好。由于我们只使用极少数标签，所以我们为关系定义了一个复杂性度量(R^2=0.778)，作为表示我们的方法在什么条件下成功地超过了迁移学习的一个指标。

论文PDF获取方式：

请关注专知公众号（点击上方蓝色专知关注）

后台回复“SGP”就可以获取李飞飞团队《Scene Graph Prediction with Limited Labels》论文PDF的下载链接~

我们的半监督方法自动生成概率关系标签来训练任何场景图模型。

视觉关系有一个长尾的关系（左图），不经常出现。目前的模型只关注Visual Genome数据集中的前50种关系(中间图)，它们都有数千个标签实例。其实这会忽略98%以上的关系，比如很少有标签的实例(右图，顶部表)。

有些关系，比如“fly”,“eat”,"sit"等关系可以通过它们的分类或空间特征来有效地描述。

我们定义了一些关系的子类型作为它的变形的度量。子类型可以是categorical，比如说其中一个子类型“ride”可以表示为<person-ride-bike>，或者<dog-ride-surfborad>。子类型也可以是spatial，比如“carry”有一个子类型是携带一个小物体再侧，另一个是扛个大物体举过头顶。