近年来,从跨模态模型中进行知识蒸馏使得开放词汇检测任务取得了快速进展。然而,我们发现用单阶段检测器进行知识蒸馏所达到的效果远不如双阶段检测器,我们分析了产生这种差异的原因是双阶段方法中类别无关的物体候选覆盖了未见类别,使得它在蒸馏时能学到未见类别的语义信息,而单阶段方法中所定义的正样本只包含已知类别,缺失了对新类别的学习。
为了弥补单阶段方法因缺少类别无关物体候选的这种固有缺陷,我们提出了一种对未见类别物体进行隐式学习的弱监督方法。该方法通过caption与特征图之间的跨模态注意力机制来进行语言到视觉的全局级知识蒸馏。凭借以上方案,我们显著超过了过去最好的开放词汇单阶段检测器。
作者:Li Yang, Yan Xu, Chunfeng Yuan*, Wei Liu, Bing Li, Weiming Hu