This paper investigates how to realize better and more efficient embedding learning to tackle the semi-supervised video object segmentation under challenging multi-object scenarios. The state-of-the-art methods learn to decode features with a single positive object and thus have to match and segment each target separately under multi-object scenarios, consuming multiple times computing resources. To solve the problem, we propose an Associating Objects with Transformers (AOT) approach to match and decode multiple objects uniformly. In detail, AOT employs an identification mechanism to associate multiple targets into the same high-dimensional embedding space. Thus, we can simultaneously process the matching and segmentation decoding of multiple objects as efficiently as processing a single object. For sufficiently modeling multi-object association, a Long Short-Term Transformer is designed for constructing hierarchical matching and propagation. We conduct extensive experiments on both multi-object and single-object benchmarks to examine AOT variant networks with different complexities. Particularly, our AOT-L outperforms all the state-of-the-art competitors on three popular benchmarks, i.e., YouTube-VOS (83.7% J&F), DAVIS 2017 (83.0%), and DAVIS 2016 (91.0%), while keeping better multi-object efficiency. Meanwhile, our AOT-T can maintain real-time multi-object speed on above benchmarks. We ranked 1st in the 3rd Large-scale Video Object Segmentation Challenge. The code will be publicly available at https://github.com/z-x-yang/AOT.


翻译:本文调查如何更好和更高效地嵌入学习,以在具有挑战性的多目标情景下解决半监督的视频对象分割。 最先进的方法可以学习用单一正对象解码特性, 从而必须在多目标情景下分别对每个目标进行匹配和分割, 消耗多种时间计算资源 。 为了解决这个问题, 我们提议了一种使用变换器( AOT) 的关联对象( AOT) 方法, 以统一匹配和解码多个对象 。 详细来说, AOT 使用一种识别机制, 将多个目标连接到同一高维嵌入空间。 因此, 我们可以同时以处理单个对象的效率处理多个对象的匹配和分割解码。 对于足够建模多目标关联, 长短期变换器的设计是为了构建等级匹配和传播。 我们用不同复杂程度的多对象和单项基准进行广泛的实验。 特别是, 我们的AOT- L 超越了所有州级的变异标竞争者在三种通用基准上, i., YouTu- VO- OVA- million A- bal- bal- balal- dal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- lad- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal- bal-

0
下载
关闭预览

相关内容

专知会员服务
59+阅读 · 2021年3月17日
专知会员服务
109+阅读 · 2020年3月12日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记
统计学习与视觉计算组
17+阅读 · 2018年3月16日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
VIP会员
Top
微信扫码咨询专知VIP会员