主题: Transferring Cross-domain Knowledge for Video Sign Language Recognition
摘要: 单词级符号语言识别(WSLR)是符号语言解释中的一项基本任务。它需要模型来识别视频中孤立的标志词。但是,注释WSLR数据需要专业知识,因此限制了WSLR数据集的获取。相反,互联网上有大量带字幕的新闻新闻视频。由于这些视频没有单词级注释,并且与孤立的符号之间存在较大的领域差异,因此无法直接用于训练WSLR模型。我们观察到,尽管存在较大的领域差距,但独立的和新闻标语共享相同的视觉概念,例如手势和身体动作。受此观察结果的启发,我们提出了一种新颖的方法,该方法可学习领域不变的视觉概念,并通过将带字幕的新闻标志的知识传递给WSLR模型,学习领域不变的视觉概念,并使之丰富。为此,我们使用基本的WSLR模型提取新闻标志,然后设计一个联合训练的新闻和孤立标志分类器,以粗略地将这两个领域特征对齐。为了学习每个类别中的领域不变特征并抑制领域特定特征,我们的方法进一步求助于外部存储器来存储对齐的新闻标志的类别质心。然后,我们基于学习到的描述符设计时间注意力,以提高识别性能。在标准WSLR数据集上的实验结果表明,我们的方法明显优于以前的最新方法。我们还演示了该方法在自动定位路标新闻中的路标方面的有效性,AP @ 0.5达到28.1