Utilizing vision and language models (VLMs) pre-trained on large-scale image-text pairs is becoming a promising paradigm for open-vocabulary visual recognition. In this work, we extend this paradigm by leveraging motion and audio that naturally exist in video. We present \textbf{MOV}, a simple yet effective method for \textbf{M}ultimodal \textbf{O}pen-\textbf{V}ocabulary video classification. In MOV, we directly use the vision encoder from pre-trained VLMs with minimal modifications to encode video, optical flow and audio spectrogram. We design a cross-modal fusion mechanism to aggregate complimentary multimodal information. Experiments on Kinetics-700 and VGGSound show that introducing flow or audio modality brings large performance gains over the pre-trained VLM and existing methods. Specifically, MOV greatly improves the accuracy on base classes, while generalizes better on novel classes. MOV achieves state-of-the-art results on UCF and HMDB zero-shot video classification benchmarks, significantly outperforming both traditional zero-shot methods and recent methods based on VLMs. Code and models will be released.
翻译:使用在大型图像- 文本配对上经过预先培训的视觉和语言模型( VLMs) 正在成为开放词汇视频识别的一个很有希望的范例。 在这项工作中,我们通过利用视频中自然存在的运动和音频来扩展这一范例。 我们展示了 kindetics- 700 和 VGSound 实验显示,引入流或音频模式会给经过培训的VLM 和现有方法带来巨大的性能收益。 具体地说, MOV 大大提高了基础班的准确性,同时在新型班级上作了更好的概括化。 MOV 实现了对UCF和HMDB 的状态艺术结果, 并尽可能对编码视频、光学流和音频光谱进行了修改。 我们设计了一个跨模式融合机制,以汇总补充性多式信息。 关于Kindicatics- 700 和 VGGSound的实验显示, 引入流或音频模式会大大提高VL 和现有方法的绩效。 具体地说, MOD- 将基于最近零光谱和HD- DVshal- 的Vshal- CD- sal- 和Vsh- sal- sal- sal- slation- slation- sal- slational- sal- slationaldal- slational- slations bal- slationaldaldalbaldaldalbaldaldaldaldaldaldaldaldaldgaldaldaldaldaldaldaldaldalddgyd 和Vs 和Vs- sald- saldrogleg) 将显著方法大大超越了V 和VM- 和VD- sald- sald- 和VD- 和VD- 和VD- saldgaldgaldaldal- sal- sal- sal- sald- sal- sald- sal- sal- sald- sal- sal- sal- sald- sald- sal- sald- sald- sal- sal- sal-