Videos are a rich source of high-dimensional structured data, with a wide range of interacting components at varying levels of granularity. In order to improve understanding of unconstrained internet videos, it is important to consider the role of labels at separate levels of abstraction. In this paper, we consider the use of the Bidirectional Inference Neural Network (BINN) for performing graph-based inference in label space for the task of video classification. We take advantage of the inherent hierarchy between labels at increasing granularity. The BINN is evaluated on the first and second release of the YouTube-8M large scale multilabel video dataset. Our results demonstrate the effectiveness of BINN, achieving significant improvements against baseline models.


翻译:视频是高维结构化数据的丰富来源,具有不同颗粒层次的广泛互动组件。为了增进对不受限制的互联网视频的了解,重要的是考虑不同抽象层次标签的作用。在本文中,我们考虑使用双向推断神经网络(BINN)在标签空间中进行基于图形的推断,以完成视频分类任务。我们利用在粒子增加时标签之间的内在等级。BINN是在YouTube-8M大型多标签视频数据集的第一和第二版上进行评估的。我们的结果显示了BINN的有效性,在基线模型上取得了显著改进。

6
下载
关闭预览

相关内容

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
强化学习最新教程,17页pdf
专知会员服务
180+阅读 · 2019年10月11日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Arxiv
5+阅读 · 2020年3月16日
Arxiv
13+阅读 · 2019年11月14日
VIP会员
Top
微信扫码咨询专知VIP会员