李飞飞团队新作 - 有限标签的场景图预测 - 专知

会员服务 ·

0

李飞飞团队新作 - 有限标签的场景图预测

2019 年 5 月 6 日 专知

导读

到目前为止，所有场景图模型都仅限于在一小部分视觉关系上进行训练，这些关系中每个都只有数千个训练标签。在本文中，作者从一个小的有限集合中自动生成缺失的关系标签，并使用这些自动生成的标签来训练下游场景图模型。

编译 | Xiaowen

链接：https://arxiv.org/abs/1904.11622

视觉知识库(如Visual Genome)为计算机视觉领域的众多应用提供了动力，包括视觉问答和captioning等，但它们之间存在着稀疏、不完全的关系。到目前为止，所有场景图模型都仅限于在一小部分视觉关系上进行训练，这些关系中每个都只有数千个训练标签。雇用人工来进行标注的代价是非常昂贵的，而使用文本知识库来补全方法与可视化数据不兼容。本文介绍了一种半监督的方法，利用少量的标注实例，对大量的无标注图像打上概率关系标签。我们通过分析视觉关系，提出两种与图像无关的特征，它们被用来产生有噪声的启发式算法，它们的输出使用基于因子图的生成模型（a factor graph-based generative model）进行聚合。利用只有10个标注的关系示例，生成模型创建了足够的训练数据来训练任何现有的最先进的场景图模型。实验证明，我们生成训练数据的方法比所有Baseline方法的性能都要好。由于我们只使用极少数标签，所以我们为关系定义了一个复杂性度量(R^2=0.778)，作为表示我们的方法在什么条件下成功地超过了迁移学习的一个指标。

论文PDF获取方式：

请关注专知公众号（点击上方蓝色专知关注）

后台回复“SGP”就可以获取李飞飞团队《Scene Graph Prediction with Limited Labels》论文PDF的下载链接~

我们的半监督方法自动生成概率关系标签来训练任何场景图模型。

视觉关系有一个长尾的关系（左图），不经常出现。目前的模型只关注Visual Genome数据集中的前50种关系(中间图)，它们都有数千个标签实例。其实这会忽略98%以上的关系，比如很少有标签的实例(右图，顶部表)。

有些关系，比如“fly”,“eat”,"sit"等关系可以通过它们的分类或空间特征来有效地描述。

我们定义了一些关系的子类型作为它的变形的度量。子类型可以是categorical，比如说其中一个子类型“ride”可以表示为<person-ride-bike>，或者<dog-ride-surfborad>。子类型也可以是spatial，比如“carry”有一个子类型是携带一个小物体再侧，另一个是扛个大物体举过头顶。

由空间和分类子类型定义的具有不同复杂程度的视觉关系的子集。

算法：

对于关系(例如carry)，我们使用与图像无关的特征自动创建启发式，然后使用生成模型将概率标签分配给一大组未标记的图像。然后可以使用这些标签来训练任何场景图预测模型。

基于空间特征的启发式方法有助于预测<man-fly-kite>

我们的模型学习到look和phone高度相关

我们过分重视椅子（chair）的重要性，认为它是sit的一种绝对特征，而不能将悬挂（hang）视为正确的关系。

我们过分重视ride的空间位置特性

鉴于我们没有使用图像特征，我们生成了一个合理的标签<glass-cover-face>，但是，我们的模型不正确，因为两个典型的不同谓词（sit和cover）在上下文<glasses- ? -face>中共享一个语义。

-END-

专 · 知

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎登录www.zhuanzhi.ai，注册登录专知，获取更多AI知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程视频资料和与专家交流咨询！

请加专知小助手微信（扫一扫如下二维码添加），加入专知人工智能主题群，咨询技术商务合作~

专知《深度学习:算法到实战》课程全部完成！530+位同学在学习，现在报名，限时优惠！网易云课堂人工智能畅销榜首位！

点击“阅读原文”，了解报名专知《深度学习:算法到实战》课程

登录查看更多

27

相关内容

场景图

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

专知会员服务

96+阅读 · 2020年6月19日

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

专知会员服务

104+阅读 · 2020年6月11日

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知会员服务

85+阅读 · 2020年6月9日

【CVPR2020 旷视研究院】探索类别正则化的领域自适应对象检测

【CVPR2020 旷视研究院】探索类别正则化的领域自适应对象检测

专知会员服务

24+阅读 · 2020年4月22日

【旷视-CVPR2020】领域自适应对象检测的探索类别正则化，Exploring Categorical Regularization for Domain Adaptive Object Detection

【旷视-CVPR2020】领域自适应对象检测的探索类别正则化，Exploring Categorical Regularization for Domain Adaptive Object Detection

专知会员服务

38+阅读 · 2020年3月23日

【斯坦福大学】图卷积神经网络和标签传播统一建模学习

专知会员服务

100+阅读 · 2020年2月20日

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

专知会员服务

40+阅读 · 2020年1月12日

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

专知会员服务

52+阅读 · 2020年1月8日

【论文推荐】基于元学习的小样本链接预测：FEW SHOT LINK PREDICTION VIA META LEARNING

【论文推荐】基于元学习的小样本链接预测：FEW SHOT LINK PREDICTION VIA META LEARNING

专知会员服务

57+阅读 · 2019年12月23日

【斯坦福大学】对抗性表征主动学习，Adversarial Representation Active Learning

【斯坦福大学】对抗性表征主动学习，Adversarial Representation Active Learning

专知会员服务

45+阅读 · 2019年12月20日

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

专知

12+阅读 · 2020年3月29日

NeurIPS 2019 | 用于弱监督图像语义分割的新型损失函数

NeurIPS 2019 | 用于弱监督图像语义分割的新型损失函数

PaperWeekly

20+阅读 · 2019年10月8日

【CVPR2019】弱监督图像分类建模

【CVPR2019】弱监督图像分类建模

深度学习大讲堂

38+阅读 · 2019年7月25日

【学界】何恺明团队新作ResNext：Instagram图片预训练，挑战ImageNet新精度

【学界】何恺明团队新作ResNext：Instagram图片预训练，挑战ImageNet新精度

GAN生成式对抗网络

4+阅读 · 2019年6月26日

性能优越！李飞飞团队首次提出一种补全视觉信息库的半监督方法

性能优越！李飞飞团队首次提出一种补全视觉信息库的半监督方法

AI前线

6+阅读 · 2019年5月11日

谷歌大脑：像BigGAN那样生成高清大图不一定需要大量图像标签

谷歌大脑：像BigGAN那样生成高清大图不一定需要大量图像标签

机器之心

8+阅读 · 2019年3月8日

用这种方法实现无监督端到端图像分类！（附论文）

用这种方法实现无监督端到端图像分类！（附论文）

数据派THU

8+阅读 · 2018年8月10日

CMU最新视觉特征自监督学习模型——TextTopicNet

CMU最新视觉特征自监督学习模型——TextTopicNet

人工智能头条

9+阅读 · 2018年7月29日

【学界】李飞飞学生最新论文：利用场景图生成图像

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

学界 | CMU&FAIR ICCV论文：通过传递不变性实现自监督视觉表征学习

学界 | CMU&FAIR ICCV论文：通过传递不变性实现自监督视觉表征学习

机器之心

9+阅读 · 2017年8月14日

Spatio-Temporal Graph for Video Captioning with Knowledge Distillation

Spatio-Temporal Graph for Video Captioning with Knowledge Distillation

Arxiv

19+阅读 · 2020年3月31日

SlowFast Networks for Video Recognition

SlowFast Networks for Video Recognition

Arxiv

4+阅读 · 2019年4月18日

Creativity Inspired Zero-Shot Learning

Arxiv

4+阅读 · 2019年4月3日

Few-shot Learning with Meta Metric Learners

Arxiv

13+阅读 · 2019年1月26日

Tencent ML-Images: A Large-Scale Multi-Label Image Database for Visual Representation Learning

Tencent ML-Images: A Large-Scale Multi-Label Image Database for Visual Representation Learning

Arxiv

8+阅读 · 2019年1月7日

Rethinking ImageNet Pre-training

Arxiv

8+阅读 · 2018年11月21日

Meta-Learning with Latent Embedding Optimization

Meta-Learning with Latent Embedding Optimization

Arxiv

6+阅读 · 2018年7月16日

Blazingly Fast Video Object Segmentation with Pixel-Wise Metric Learning

Arxiv

6+阅读 · 2018年4月9日

Train Once, Test Anywhere: Zero-Shot Learning for Text Classification

Arxiv

4+阅读 · 2017年12月23日

Content based video retrieval

Arxiv

3+阅读 · 2012年11月20日

VIP会员

相关主题

相关VIP内容

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

专知会员服务

96+阅读 · 2020年6月19日

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

专知会员服务

104+阅读 · 2020年6月11日

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知会员服务

85+阅读 · 2020年6月9日

【CVPR2020 旷视研究院】探索类别正则化的领域自适应对象检测

【CVPR2020 旷视研究院】探索类别正则化的领域自适应对象检测

专知会员服务

24+阅读 · 2020年4月22日

【旷视-CVPR2020】领域自适应对象检测的探索类别正则化，Exploring Categorical Regularization for Domain Adaptive Object Detection

【旷视-CVPR2020】领域自适应对象检测的探索类别正则化，Exploring Categorical Regularization for Domain Adaptive Object Detection

专知会员服务

38+阅读 · 2020年3月23日

【斯坦福大学】图卷积神经网络和标签传播统一建模学习

专知会员服务

100+阅读 · 2020年2月20日

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

专知会员服务

40+阅读 · 2020年1月12日

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

专知会员服务

52+阅读 · 2020年1月8日

【论文推荐】基于元学习的小样本链接预测：FEW SHOT LINK PREDICTION VIA META LEARNING

【论文推荐】基于元学习的小样本链接预测：FEW SHOT LINK PREDICTION VIA META LEARNING

专知会员服务

57+阅读 · 2019年12月23日

【斯坦福大学】对抗性表征主动学习，Adversarial Representation Active Learning

【斯坦福大学】对抗性表征主动学习，Adversarial Representation Active Learning

专知会员服务

45+阅读 · 2019年12月20日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】多目标奖励与偏好优化：理论与算法

《无形的防御者？将定向能武器集成到反无人机框架的机遇与挑战》报告

自主化海军：海上无人系统与未来海战

迈向智能体系统规模化的科学

相关资讯

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

专知

12+阅读 · 2020年3月29日

NeurIPS 2019 | 用于弱监督图像语义分割的新型损失函数

NeurIPS 2019 | 用于弱监督图像语义分割的新型损失函数

PaperWeekly

20+阅读 · 2019年10月8日

【CVPR2019】弱监督图像分类建模

【CVPR2019】弱监督图像分类建模

深度学习大讲堂

38+阅读 · 2019年7月25日

【学界】何恺明团队新作ResNext：Instagram图片预训练，挑战ImageNet新精度

【学界】何恺明团队新作ResNext：Instagram图片预训练，挑战ImageNet新精度

GAN生成式对抗网络

4+阅读 · 2019年6月26日

性能优越！李飞飞团队首次提出一种补全视觉信息库的半监督方法

性能优越！李飞飞团队首次提出一种补全视觉信息库的半监督方法

AI前线

6+阅读 · 2019年5月11日

谷歌大脑：像BigGAN那样生成高清大图不一定需要大量图像标签

谷歌大脑：像BigGAN那样生成高清大图不一定需要大量图像标签

机器之心

8+阅读 · 2019年3月8日

用这种方法实现无监督端到端图像分类！（附论文）

用这种方法实现无监督端到端图像分类！（附论文）

数据派THU

8+阅读 · 2018年8月10日

CMU最新视觉特征自监督学习模型——TextTopicNet

CMU最新视觉特征自监督学习模型——TextTopicNet

人工智能头条

9+阅读 · 2018年7月29日

【学界】李飞飞学生最新论文：利用场景图生成图像

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

学界 | CMU&FAIR ICCV论文：通过传递不变性实现自监督视觉表征学习

学界 | CMU&FAIR ICCV论文：通过传递不变性实现自监督视觉表征学习

机器之心

9+阅读 · 2017年8月14日

相关论文

Spatio-Temporal Graph for Video Captioning with Knowledge Distillation

Spatio-Temporal Graph for Video Captioning with Knowledge Distillation

Arxiv

19+阅读 · 2020年3月31日

SlowFast Networks for Video Recognition

SlowFast Networks for Video Recognition

Arxiv

4+阅读 · 2019年4月18日

Creativity Inspired Zero-Shot Learning

Arxiv

4+阅读 · 2019年4月3日

Few-shot Learning with Meta Metric Learners

Arxiv

13+阅读 · 2019年1月26日

Tencent ML-Images: A Large-Scale Multi-Label Image Database for Visual Representation Learning

Tencent ML-Images: A Large-Scale Multi-Label Image Database for Visual Representation Learning

Arxiv

8+阅读 · 2019年1月7日

Rethinking ImageNet Pre-training

Arxiv

8+阅读 · 2018年11月21日

Meta-Learning with Latent Embedding Optimization

Meta-Learning with Latent Embedding Optimization

Arxiv

6+阅读 · 2018年7月16日

Blazingly Fast Video Object Segmentation with Pixel-Wise Metric Learning

Arxiv

6+阅读 · 2018年4月9日

Train Once, Test Anywhere: Zero-Shot Learning for Text Classification

Arxiv

4+阅读 · 2017年12月23日

Content based video retrieval

Arxiv

3+阅读 · 2012年11月20日

大家都在搜

大型语言模型

朱克爱德华兹家族

蓝牙安全攻防

滴滴司机调度系统实践

微信扫码咨询专知VIP会员