视频异常检测(VAD)旨在视频中临时定位异常事件。现有工作大多依赖于训练深度模型学习正常性的分布,无论是通过视频级监督、单类监督,还是在无监督设置中。基于训练的方法倾向于是领域特定的,因此对于实际部署而言成本高昂,因为任何领域的变化都将涉及数据收集和模型训练。在本文中,我们从根本上脱离之前的努力,提出了一种基于语言的VAD(LAVAD)方法,这是一种新颖的、无需训练的范式,利用了预训练的大型语言模型(LLMs)和现有的视觉-语言模型(VLMs)。我们利用基于VLM的字幕模型为任何测试视频的每一帧生成文本描述。有了文本场景描述,我们然后设计了一个提示机制,以解锁LLMs在时间聚合和异常评分估计方面的能力,将LLMs转变为一个有效的视频异常检测器。我们进一步利用模态对齐的VLMs,并提出了基于跨模态相似性的有效技术,用于清理噪声字幕和优化LLM-based的异常分数。我们在两个大型数据集上评估了LAVAD,这些数据集展示了现实世界中的监控场景(UCF-Crime和XD-Violence),显示它在不需要任何训练或数据收集的情况下,就超过了无监督和单类方法。

成为VIP会员查看完整内容
17

相关内容

【CVPR2024】视觉-语言模型的高效测试时间调整
专知会员服务
18+阅读 · 3月30日
【WWW2024】知识数据对齐的弱监督异常检测
专知会员服务
18+阅读 · 2月7日
【NeurIPS2023】利用扩散模型进行异常值想象
专知会员服务
22+阅读 · 2023年10月1日
【NeurIPS2021】基于关联与识别的少样本目标检测
专知会员服务
20+阅读 · 2021年11月29日
专知会员服务
21+阅读 · 2021年9月27日
专知会员服务
38+阅读 · 2021年5月16日
专知会员服务
36+阅读 · 2021年4月25日
专知会员服务
41+阅读 · 2020年2月20日
【KDD2020】动态知识图谱的多事件预测
专知
88+阅读 · 2020年8月31日
【KDD2020】图神经网络生成式预训练
专知
20+阅读 · 2020年7月3日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
131+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
325+阅读 · 2023年3月31日
Arxiv
15+阅读 · 2023年3月17日
Arxiv
67+阅读 · 2022年9月7日
VIP会员
相关VIP内容
【CVPR2024】视觉-语言模型的高效测试时间调整
专知会员服务
18+阅读 · 3月30日
【WWW2024】知识数据对齐的弱监督异常检测
专知会员服务
18+阅读 · 2月7日
【NeurIPS2023】利用扩散模型进行异常值想象
专知会员服务
22+阅读 · 2023年10月1日
【NeurIPS2021】基于关联与识别的少样本目标检测
专知会员服务
20+阅读 · 2021年11月29日
专知会员服务
21+阅读 · 2021年9月27日
专知会员服务
38+阅读 · 2021年5月16日
专知会员服务
36+阅读 · 2021年4月25日
专知会员服务
41+阅读 · 2020年2月20日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员