Compared with previous two-stream trackers, the recent one-stream tracking pipeline, which allows earlier interaction between the template and search region, has achieved a remarkable performance gain. However, existing one-stream trackers always let the template interact with all parts inside the search region throughout all the encoder layers. This could potentially lead to target-background confusion when the extracted feature representations are not sufficiently discriminative. To alleviate this issue, we propose a generalized relation modeling method based on adaptive token division. The proposed method is a generalized formulation of attention-based relation modeling for Transformer tracking, which inherits the merits of both previous two-stream and one-stream pipelines whilst enabling more flexible relation modeling by selecting appropriate search tokens to interact with template tokens. An attention masking strategy and the Gumbel-Softmax technique are introduced to facilitate the parallel computation and end-to-end learning of the token division module. Extensive experiments show that our method is superior to the two-stream and one-stream pipelines and achieves state-of-the-art performance on six challenging benchmarks with a real-time running speed.


翻译:相对于之前的两流跟踪器,最近的单流跟踪管道(允许模板和搜索区域之间较早地交互)实现了显着的性能提升。然而,现有的单流跟踪器总是让模板与搜索区域内的所有部分在所有编码器层中相互作用。当提取的特征表示不够具有判别性时,这可能会潜在地导致目标-背景混淆。为了缓解这个问题,我们提出了一种基于自适应标记分割的广义关系建模方法。所提出的方法是一种attention-based关系建模的广义公式,它继承了之前两流和单流管道的优点,同时通过选择适当的搜索标记与模板标记相互作用,实现了更灵活的关系建模。引入了一个注意掩码策略和Gumbel-Softmax技术,以便于标记分割模块的并行计算和端到端学习。广泛的实验表明,我们的方法优于两流和单流管道,并在六个具有挑战性的基准测试中实现了最先进的性能,运行速度接近实时。

0
下载
关闭预览

相关内容

Graph Transformer近期进展
专知会员服务
60+阅读 · 2023年1月5日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
17+阅读 · 2021年3月29日
VIP会员
相关VIP内容
Graph Transformer近期进展
专知会员服务
60+阅读 · 2023年1月5日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员