视频实例分割是一项复杂的任务,我们需要检测、分割和跟踪任何给定视频的每个对象。以往的方法只利用单帧特征来检测、分割和跟踪目标,而目标在视频场景中会因为运动模糊和剧烈的外观变化等问题而受到影响。为了消除仅使用单帧特征所带来的模糊性,我们提出了一种新的综合特征聚合方法(CompFeat),利用时间和空间上下文信息在帧级和对象级对特征进行细化。聚合过程是精心设计的一个新的注意机制,这大大增加了识别能力的学习特征。通过结合特征相似性和空间相似性的暹罗设计,进一步提高了模型的跟踪能力。在YouTube-VIS数据集上进行的实验验证了提出的CompFeat的有效性。我们的代码将在https://github.com/shi-labs/compfeat-forvideo - instance - segmentation提供。

成为VIP会员查看完整内容
9

相关内容

【AAAI2021】时间关系建模与自监督的动作分割
专知会员服务
37+阅读 · 2021年1月24日
专知会员服务
51+阅读 · 2021年1月19日
专知会员服务
109+阅读 · 2020年12月22日
专知会员服务
20+阅读 · 2020年12月11日
论文浅尝 | 时序与因果关系联合推理
开放知识图谱
35+阅读 · 2019年6月23日
【泡泡点云时空】联合分割点云中的实例和语义
泡泡机器人SLAM
7+阅读 · 2019年4月27日
Recurrent Fusion Network for Image Captioning
Arxiv
3+阅读 · 2018年7月31日
VIP会员
微信扫码咨询专知VIP会员