Temporal language grounding (TLG) is a fundamental and challenging problem for vision and language understanding. Existing methods mainly focus on fully supervised setting with temporal boundary labels for training, which, however, suffers expensive cost of annotation. In this work, we are dedicated to weakly supervised TLG, where multiple description sentences are given to an untrimmed video without temporal boundary labels. In this task, it is critical to learn a strong cross-modal semantic alignment between sentence semantics and visual content. To this end, we introduce a novel weakly supervised temporal adjacent network (WSTAN) for temporal language grounding. Specifically, WSTAN learns cross-modal semantic alignment by exploiting temporal adjacent network in a multiple instance learning (MIL) paradigm, with a whole description paragraph as input. Moreover, we integrate a complementary branch into the framework, which explicitly refines the predictions with pseudo supervision from the MIL stage. An additional self-discriminating loss is devised on both the MIL branch and the complementary branch, aiming to enhance semantic discrimination by self-supervising. Extensive experiments are conducted on three widely used benchmark datasets, \emph{i.e.}, ActivityNet-Captions, Charades-STA, and DiDeMo, and the results demonstrate the effectiveness of our approach.


翻译:在这项工作中,我们致力于监督薄弱的TLG, 将多个描述性句子加到一个没有时间边界标签的未剪辑的视频中。在这项工作中,我们把多个描述性句子加到一个没有时间边界标签的未剪辑的视频中。在这项任务中,关键是要学习在判决语义和视觉内容之间强有力的跨模式语义调整。为此,我们引入了一个新颖的、监管不力的临近时间时间网络(WSTAN),用于时间语言定位。具体地说,WSTAN通过在多个实例学习(MIL)范式中利用与时间相邻的网络学习跨模式语义调整,作为投入。此外,我们把一个互补分支纳入到这个框架中,明确用来自MIL阶段的虚假监管来完善预测。在MIL分支和互补分支上还设计了额外的自我歧视损失,目的是通过自我监控强化语义歧视。在三种实例中,进行了广泛的实验。

0
下载
关闭预览

相关内容

【KDD2021】图神经网络,NUS- Xavier Bresson教授
专知会员服务
64+阅读 · 2021年8月20日
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
110+阅读 · 2020年6月10日
【google】监督对比学习,Supervised Contrastive Learning
专知会员服务
32+阅读 · 2020年4月23日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
弱监督语义分割最新方法资源列表
专知
9+阅读 · 2019年2月26日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Arxiv
7+阅读 · 2018年11月27日
VIP会员
相关VIP内容
【KDD2021】图神经网络,NUS- Xavier Bresson教授
专知会员服务
64+阅读 · 2021年8月20日
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
110+阅读 · 2020年6月10日
【google】监督对比学习,Supervised Contrastive Learning
专知会员服务
32+阅读 · 2020年4月23日
Top
微信扫码咨询专知VIP会员