Tracking by natural language specification is a new rising research topic that aims at locating the target object in the video sequence based on its language description. Compared with traditional bounding box (BBox) based tracking, this setting guides object tracking with high-level semantic information, addresses the ambiguity of BBox, and links local and global search organically together. Those benefits may bring more flexible, robust and accurate tracking performance in practical scenarios. However, existing natural language initialized trackers are developed and compared on benchmark datasets proposed for tracking-by-BBox, which can't reflect the true power of tracking-by-language. In this work, we propose a new benchmark specifically dedicated to the tracking-by-language, including a large scale dataset, strong and diverse baseline methods. Specifically, we collect 2k video sequences (contains a total of 1,244,340 frames, 663 words) and split 1300/700 for the train/testing respectively. We densely annotate one sentence in English and corresponding bounding boxes of the target object for each video. We also introduce two new challenges into TNL2K for the object tracking task, i.e., adversarial samples and modality switch. A strong baseline method based on an adaptive local-global-search scheme is proposed for future works to compare. We believe this benchmark will greatly boost related researches on natural language guided tracking.


翻译:自然语言规格的跟踪是一个新的不断上升的研究课题,目的是根据语言描述将目标对象定位在视频序列中。与传统的基于语言描述的链接框(BBox)跟踪相比,这一设置将引导目标跟踪与高层次语义信息相匹配,解决BBox的模糊性,并将本地和全球搜索有机地连接起来。这些效益可能分别带来实际情景中更灵活、更有力和更准确的跟踪性能。然而,开发了现有的天然语言初始化跟踪跟踪跟踪器,并比较了为跟踪逐个BBox提议的基准数据集,该数据集无法反映逐个语言的真正能力。在这项工作中,我们提出了专门针对逐个语言跟踪的新基准,包括大型数据集、强而多样的基准方法。具体地说,我们收集了2k个视频序列(总共包含1,244,340个框架,663个字),并拆分了1,300/700个用于火车/测试。我们为每部视频的目标对象配置了一个注的句子和相应的约束框框。我们还向TNL2K提出了两个新的挑战,专门用于逐段逐段跟踪逐段,包括大型的大型数据集数据集数据集,我们为基于目标跟踪定位的模型,我们所建的建设基准模型,将相信一个基于全球基准模型的系统。

0
下载
关闭预览

相关内容

标跟踪是指:给出目标在跟踪视频第一帧中的初始状态(如位置,尺寸),自动估计目标物体在后续帧中的状态。 目标跟踪分为单目标跟踪和多目标跟踪。 人眼可以比较轻松的在一段时间内跟住某个特定目标。但是对机器而言,这一任务并不简单,尤其是跟踪过程中会出现目标发生剧烈形变、被其他目标遮挡或出现相似物体干扰等等各种复杂的情况。过去几十年以来,目标跟踪的研究取得了长足的发展,尤其是各种机器学习算法被引入以来,目标跟踪算法呈现百花齐放的态势。2013年以来,深度学习方法开始在目标跟踪领域展露头脚,并逐渐在性能上超越传统方法,取得巨大的突破。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
44+阅读 · 2020年10月31日
【ICML2020】图神经网络基准,53页ppt,NUS-Xavier Bresson
专知会员服务
57+阅读 · 2020年7月18日
最新《生成式对抗网络》简介,25页ppt
专知会员服务
173+阅读 · 2020年6月28日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
已删除
将门创投
11+阅读 · 2019年4月26日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
24+阅读 · 2020年3月11日
Arxiv
5+阅读 · 2019年4月8日
Arxiv
5+阅读 · 2018年5月22日
Arxiv
6+阅读 · 2018年3月28日
Arxiv
3+阅读 · 2018年3月22日
Arxiv
6+阅读 · 2018年2月8日
VIP会员
相关资讯
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
已删除
将门创投
11+阅读 · 2019年4月26日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
相关论文
Arxiv
17+阅读 · 2021年3月29日
Arxiv
24+阅读 · 2020年3月11日
Arxiv
5+阅读 · 2019年4月8日
Arxiv
5+阅读 · 2018年5月22日
Arxiv
6+阅读 · 2018年3月28日
Arxiv
3+阅读 · 2018年3月22日
Arxiv
6+阅读 · 2018年2月8日
Top
微信扫码咨询专知VIP会员