视频时刻检索(VMR)的目标是预测视频中的时间跨度,这些时间跨度在语义上与给定的语言查询匹配。现有的基于多模态大型语言模型(MLLM)的VMR方法过度依赖昂贵的高质量数据集和耗时的微调。尽管一些近期的研究引入了零-shot设定以避免微调,但它们忽视了查询中固有的语言偏差,从而导致错误的定位。为了应对上述挑战,本文提出了Moment-GPT,一个基于冷冻MLLM的零-shot视频时刻检索无调优管道。具体而言,我们首先使用LLaMA-3来修正和重述查询,以减轻语言偏差。随后,我们设计了一个与MiniGPT-v2结合的跨度生成器,能够自适应地生成候选跨度。最后,为了利用MLLM的视觉理解能力,我们应用了VideoChatGPT和跨度评分器来选择最合适的时间跨度。我们提出的方法在多个公开数据集上,显著优于现有的基于MLLM的最先进方法和零样本模型,包括QVHighlights、ActivityNet-Captions和Charades-STA。

成为VIP会员查看完整内容
2

相关内容

【CVPR2024】渐进式语义引导视觉变换器用于零样本学习
专知会员服务
19+阅读 · 2024年4月13日
【NeurIPS2023】半监督端到端对比学习用于时间序列分类
专知会员服务
35+阅读 · 2023年10月17日
【CVPR2022】基于密集学习的半监督目标检测
专知会员服务
20+阅读 · 2022年4月19日
【NeurIPS2021】基于关联与识别的少样本目标检测
专知会员服务
22+阅读 · 2021年11月29日
专知会员服务
10+阅读 · 2021年10月6日
专知会员服务
38+阅读 · 2021年4月25日
专知会员服务
42+阅读 · 2020年2月20日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Arxiv
162+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
423+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2022年9月7日
Arxiv
18+阅读 · 2021年3月16日
A survey on deep hashing for image retrieval
Arxiv
14+阅读 · 2020年6月10日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
VIP会员
相关VIP内容
【CVPR2024】渐进式语义引导视觉变换器用于零样本学习
专知会员服务
19+阅读 · 2024年4月13日
【NeurIPS2023】半监督端到端对比学习用于时间序列分类
专知会员服务
35+阅读 · 2023年10月17日
【CVPR2022】基于密集学习的半监督目标检测
专知会员服务
20+阅读 · 2022年4月19日
【NeurIPS2021】基于关联与识别的少样本目标检测
专知会员服务
22+阅读 · 2021年11月29日
专知会员服务
10+阅读 · 2021年10月6日
专知会员服务
38+阅读 · 2021年4月25日
专知会员服务
42+阅读 · 2020年2月20日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
相关论文
Arxiv
162+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
423+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2022年9月7日
Arxiv
18+阅读 · 2021年3月16日
A survey on deep hashing for image retrieval
Arxiv
14+阅读 · 2020年6月10日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
微信扫码咨询专知VIP会员