我们提出了第一种用于视频少样本动作识别的无监督元学习算法MetaUVFS。MetaUVFS利用超过550K的未标记视频,通过对比学习,分别捕捉特定于外观的空间和特定于动作的时空视频特征,训练双流2D和3D CNN架构。MetaUVFS包括一个新颖的动作-外观对齐的元适应(A3M)模块,该模块通过明确的少样本情景元学习而非无监督的硬挖掘情节,学习关注与外观特征相关的动作导向视频功能。我们的动作外观对齐和明确的少样本学习者条件下的无监督训练模拟下游的少样本任务,使MetaUVFS在少样本基准测试中显著优于所有无监督方法。此外,不像以前的监督的少样本动作识别方法,MetaUVFS既不需要基类标签,也不需要监督的预训练骨干。因此,我们只需要对MetaUVFS进行一次训练,以便在流行的HMDB51、UCF101和Kinetics100少样本数据集上具有竞争力,有时甚至超过最先进的监督方法。
https://www.zhuanzhi.ai/paper/9c5c176e0af7fe0b4b3c87ef99cd157c