在长视频中进行视频问答(VQA)面临的关键挑战是从大量冗余帧中提取相关信息并建模长范围依赖关系。自注意力机制为序列建模提供了一种通用解决方案,但当应用于长视频中的大量时空标记时,其计算成本极高。大多数现有方法依赖于压缩策略来降低计算成本,例如通过稀疏帧采样减少输入长度,或通过时空池化压缩传递给大型语言模型(LLM)的输出序列。然而,这些简单方法过度表示冗余信息,常常遗漏显著事件或快速发生的时空模式。在本研究中,我们提出了BIMBA,一种高效的状态空间模型,用于处理长视频。我们的模型利用选择性扫描算法,学习从高维视频中有效选择关键信息,并将其转换为简化的标记序列,以实现高效的LLM处理。大量实验表明,BIMBA在多个长视频VQA基准测试中达到了最先进的准确性,包括PerceptionTest、NExTQA、EgoSchema、VNBench、LongVideoBench和VideoMME。代码和模型已公开,访问地址为:https://sites.google.com/view/bimba-mllm。

成为VIP会员查看完整内容
7

相关内容

【CVPR2025】基于组合表示移植的图像编辑方法
专知会员服务
8+阅读 · 4月5日
【NeurIPS2024】将视频掩蔽自编码器扩展到128帧
专知会员服务
13+阅读 · 2024年11月27日
【NeurIPS2024】IPO: 面向视觉-语言模型的可解释提示优化
专知会员服务
22+阅读 · 2024年10月23日
【CVPR2024】VidLA: 大规模视频-语言对齐
专知会员服务
20+阅读 · 2024年3月31日
ChatAug: 利用ChatGPT进行文本数据增强
专知会员服务
81+阅读 · 2023年3月4日
【CVPR2022】基于序列对比学习的长视频帧方向动作表示
专知会员服务
10+阅读 · 2022年3月29日
专知会员服务
45+阅读 · 2021年1月31日
【AAAI2023】用于图对比学习的谱特征增强
专知
18+阅读 · 2022年12月11日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【ICML2020】对比多视角表示学习
专知
19+阅读 · 2020年6月28日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
165+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
449+阅读 · 2023年3月31日
Arxiv
165+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
Arxiv
68+阅读 · 2022年9月7日
Arxiv
26+阅读 · 2018年2月27日
VIP会员
相关VIP内容
【CVPR2025】基于组合表示移植的图像编辑方法
专知会员服务
8+阅读 · 4月5日
【NeurIPS2024】将视频掩蔽自编码器扩展到128帧
专知会员服务
13+阅读 · 2024年11月27日
【NeurIPS2024】IPO: 面向视觉-语言模型的可解释提示优化
专知会员服务
22+阅读 · 2024年10月23日
【CVPR2024】VidLA: 大规模视频-语言对齐
专知会员服务
20+阅读 · 2024年3月31日
ChatAug: 利用ChatGPT进行文本数据增强
专知会员服务
81+阅读 · 2023年3月4日
【CVPR2022】基于序列对比学习的长视频帧方向动作表示
专知会员服务
10+阅读 · 2022年3月29日
专知会员服务
45+阅读 · 2021年1月31日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
相关论文
Arxiv
165+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
449+阅读 · 2023年3月31日
Arxiv
165+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
Arxiv
68+阅读 · 2022年9月7日
Arxiv
26+阅读 · 2018年2月27日
微信扫码咨询专知VIP会员