本文将归纳式和直推式学习整合到一个统一的框架中,以利用它们之间的互补性来进行准确和稳健的视频目标分割,并引入Transformer,性能优于CFBI、LWL等网络,代码即将开源!
半监督视频目标分割是在第一帧中仅给定mask注释的视频序列中分割目标对象的任务。有限的可用信息使其成为一项极具挑战性的任务。大多数以前表现最好的方法都采用基于匹配的转导推理或在线归纳学习。然而,它们要么对类似实例的区分度较低,要么在时空信息的利用上不足。在这项工作中,我们提出将归纳式和直推式学习整合到一个统一的框架中,以利用它们之间的互补性来进行准确和稳健的视频目标分割。所提出的方法由两个功能分支组成。transduction 分支采用轻量级的 Transformer 架构来聚合丰富的时空线索,而 Induction 分支执行在线归纳学习以获得有判别力的目标信息。为了桥接这两个不同的分支,引入了一个双头标签编码器来为每个分支学习合适的目标先验。生成的mask编码被进一步强制解开以更好地保持它们的互补性。对几个流行基准的大量实验表明,在不需要合成训练数据的情况下,所提出的方法创造了一系列新的最先进记录。
https://www.zhuanzhi.ai/paper/cbb0d1901d6cfb8732e85702ec95a399