视频理解在计算机视觉中是一个重大挑战,因为每天有数十亿视频被消费,同时还有数百万新视频不断产生。为了帮助人类在推荐系统、机器人助手和自动驾驶等多个任务中,开发出一种可靠的视频理解模型至关重要。 过去十年中,计算机硬件、深度学习技术的进步以及大量数据,推动了计算机视觉研究的显著进展。然而,由于视频中增加的时间维度,视频研究依然是不成熟且充满挑战的。视频理解需要同时对空间和时间信息进行建模,这使得任务更加复杂。此外,视频处理和分析需要大量的计算资源和时间,且由于其高维性,标注视频数据耗时且困难。

本文提出了旨在解决视频理解任务中效率和可扩展性挑战的创新方法。本研究的第一个贡献是引入了一种新颖的视频分类迁移学习方法,称为时空适配器(ST-Adapter)。通过利用ST-Adapter,可以用最少的参数变化和更新,将图像基础模型适应于动作识别任务。这种方法显著提高了图像到视频迁移学习的效率。第二个贡献是引入人物场景关系的视频动作检测网络,称为ACAR-Net。ACAR-Net旨在学习和编码关系特征,从而显著提高动作检测性能。值得注意的是,这是在不需要显式关系和物体标注的情况下实现的。我们做出的第三个贡献是针对零样本视频问答(VideoQA)的检索回答(R2A)框架。R2A框架旨在通过结合访问外部知识源来增强现有的多模态模型。这种设计选择使模型的知识源和组件能够以可扩展和可持续的方式进行最小成本的更新。最后,我们通过生成方法探索视频场景理解。我们的贡献在于一个两步式生成框架,将这一复杂任务分解为两个更简单的子问题。在第一阶段,我们仅生成高质量的第一帧。在第二阶段,我们根据场景的语义含义对场景进行动画化,以获得时间上连贯的视频,从而取得了高质量的视频生成结果。通过所提出的框架,静态和动态内容可以以循序渐进的方式实现,从而大幅度提高了生成质量。

https://repository.lib.cuhk.edu.hk/en/item/cuhk-3368889

成为VIP会员查看完整内容
13

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【ETHZ博士论文】增强现实中3D场景的重建、理解与编辑
专知会员服务
34+阅读 · 2024年2月17日
【ETHZ博士论文】用生成式语言模型加速分子发现
专知会员服务
31+阅读 · 2023年6月4日
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Arxiv
164+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
425+阅读 · 2023年3月31日
Arxiv
155+阅读 · 2023年3月24日
Arxiv
22+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员