Visual grounding is a long-lasting problem in vision-language understanding due to its diversity and complexity. Current practices concentrate mostly on performing visual grounding in still images or well-trimmed video clips. This work, on the other hand, investigates into a more general setting, generic visual grounding, aiming to mine all the objects satisfying the given expression, which is more challenging yet practical in real-world scenarios. Importantly, grounding results are expected to accurately localize targets in both space and time. Whereas, it is tricky to make trade-offs between the appearance and motion features. In real scenarios, model tends to fail in distinguishing distractors with similar attributes. Motivated by these considerations, we propose a simple yet effective approach, named DSTG, which commits to 1) decomposing the spatial and temporal representations to collect all-sided cues for precise grounding; 2) enhancing the discriminativeness from distractors and the temporal consistency with a contrastive learning routing strategy. We further elaborate a new video dataset, GVG, that consists of challenging referring cases with far-ranging videos. Empirical experiments well demonstrate the superiority of DSTG over state-of-the-art on Charades-STA, ActivityNet-Caption and GVG datasets. Code and dataset will be made available.


翻译:视觉地基是视觉语言理解的一个长期问题,因为其多样性和复杂性。目前的做法主要集中于在静止图像或剪剪精的视频片段中进行视觉地基。另一方面,这项工作主要集中于在静止图像或剪短的视频片段中进行视觉地基工作。另一方面,我们提出一个简单而有效的方法,名为DSTG, 承诺(1) 将空间和时间的表达方式分解,以收集精确地地基的全方位指示;(2) 增强分散器的偏向性,以及时间与对比性学习路线战略之间的时间一致性。我们进一步拟订一个新的视频数据集,即GVG, 其中包括以范围很广的视频对案件进行评分的挑战。根据这些考虑,我们提出一个简单而有效的方法,即DSTG, 名为DSTG, 承诺1) 将空间和时间的表达方式分解,以收集精确地基底线标;(2) 增强分散器的偏向性,以及时间与对比性学习路线战略的一致性。我们进一步拟订一个新的视频数据集,即GVG,用远处的录像对案件进行评断。

0
下载
关闭预览

相关内容

专知会员服务
144+阅读 · 2021年2月3日
Python图像处理,366页pdf,Image Operators Image Processing in Python
因果图,Causal Graphs,52页ppt
专知会员服务
247+阅读 · 2020年4月19日
【论文扩展】欧洲语言网格:概述
专知会员服务
6+阅读 · 2020年3月31日
【快讯】CVPR2020结果出炉,1470篇上榜, 你的paper中了吗?
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
23+阅读 · 2019年12月15日
AAAI2020 图相关论文集
图与推荐
10+阅读 · 2020年7月15日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记
统计学习与视觉计算组
17+阅读 · 2018年3月16日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
VIP会员
Top
微信扫码咨询专知VIP会员