视频理解在计算机视觉中是一个重大挑战,因为每天有数十亿视频被消费,同时还有数百万新视频不断产生。为了帮助人类在推荐系统、机器人助手和自动驾驶等多个任务中,开发出一种可靠的视频理解模型至关重要。 过去十年中,计算机硬件、深度学习技术的进步以及大量数据,推动了计算机视觉研究的显著进展。然而,由于视频中增加的时间维度,视频研究依然是不成熟且充满挑战的。视频理解需要同时对空间和时间信息进行建模,这使得任务更加复杂。此外,视频处理和分析需要大量的计算资源和时间,且由于其高维性,标注视频数据耗时且困难。
本文提出了旨在解决视频理解任务中效率和可扩展性挑战的创新方法。本研究的第一个贡献是引入了一种新颖的视频分类迁移学习方法,称为时空适配器(ST-Adapter)。通过利用ST-Adapter,可以用最少的参数变化和更新,将图像基础模型适应于动作识别任务。这种方法显著提高了图像到视频迁移学习的效率。第二个贡献是引入人物场景关系的视频动作检测网络,称为ACAR-Net。ACAR-Net旨在学习和编码关系特征,从而显著提高动作检测性能。值得注意的是,这是在不需要显式关系和物体标注的情况下实现的。我们做出的第三个贡献是针对零样本视频问答(VideoQA)的检索回答(R2A)框架。R2A框架旨在通过结合访问外部知识源来增强现有的多模态模型。这种设计选择使模型的知识源和组件能够以可扩展和可持续的方式进行最小成本的更新。最后,我们通过生成方法探索视频场景理解。我们的贡献在于一个两步式生成框架,将这一复杂任务分解为两个更简单的子问题。在第一阶段,我们仅生成高质量的第一帧。在第二阶段,我们根据场景的语义含义对场景进行动画化,以获得时间上连贯的视频,从而取得了高质量的视频生成结果。通过所提出的框架,静态和动态内容可以以循序渐进的方式实现,从而大幅度提高了生成质量。