Video understanding has been considered as one critical step towards world modeling, which is an important long-term problem in AI research. Recently, multimodal foundation models have shown such potential via large-scale pretraining. These models effectively align encoders of different modalities via contrastive learning. To further enhance performance on complex target movements and diversified video scenes, we propose to augment this alignment with deeper multimodal interactions, which are critical for understanding complex target movements with diversified video scenes. To fill this gap, we propose a unified Super Encoding Network (SEN) for video understanding, which builds up such distinct interactions through the recursive association of multimodal encoders in the foundation models. Specifically, we creatively treat those well-trained encoders as ``super neurons" in our SEN. Via designing a Recursive Association (RA) block, we progressively fuse multi-modalities with the input video, based on knowledge integrating, distributing, and prompting of super neurons in a recursive manner. In this way, our SEN can effectively encode deeper multimodal interactions for prompting various video understanding tasks in the downstream. Extensive experiments show that our SEN can remarkably boost the four most representative video tasks, including tracking, recognition, chatting, and editing, e.g., for pixel-level tracking, the average jaccard index improves 2.7%, and temporal coherence(TC) drops by 8.8% compared to the popular CaDeX++ approach. For one-shot video editing, textual alignment improves 6.4%, and frame consistency increases by 4.1% compared to the Tune-A-Video approach.


翻译:视频理解被视为实现世界建模的关键步骤,后者是人工智能研究中重要的长期课题。近年来,多模态基础模型通过大规模预训练展现了这方面的潜力。这些模型通过对比学习有效对齐了不同模态的编码器。为进一步提升模型在复杂目标运动与多样化视频场景中的性能,我们提出通过更深层次的多模态交互来增强这种对齐机制,这对于理解多样化视频场景中的复杂目标运动至关重要。为填补这一空白,我们提出用于视频理解的统一超编码网络,该网络通过递归关联基础模型中的多模态编码器来构建此类独特交互。具体而言,我们创造性地将这些训练有素的编码器视为SEN中的“超神经元”。通过设计递归关联模块,我们基于超神经元的知识整合、分发与提示机制,以递归方式逐步将多模态信息与输入视频融合。通过这种方式,我们的SEN能够有效编码更深层的多模态交互,从而在下游任务中促进各类视频理解任务。大量实验表明,我们的SEN能显著提升四项最具代表性的视频任务性能,包括跟踪、识别、对话与编辑。例如在像素级跟踪任务中,相较于主流CaDeX++方法,平均杰卡德指数提升2.7%,时间相干性降低8.8%;在单样本视频编辑任务中,相较于Tune-A-Video方法,文本对齐度提升6.4%,帧一致性提高4.1%。

0
下载
关闭预览

相关内容

【CVPR2024】VideoMAC: 视频掩码自编码器与卷积神经网络
专知会员服务
17+阅读 · 2024年3月4日
从HPO到NAS: 自动深度学习
专知会员服务
39+阅读 · 2020年6月15日
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员