近年来的研究表明,基于大型语言模型(LLM)智能体系统在关键视频信息检索与整合方面展现出巨大潜力,已成为长视频理解的一种有前景的途径。然而,此类系统仍面临两大挑战:其一,它们通常仅在单帧层面进行建模与推理,难以有效捕捉连续帧之间的时序上下文;其二,为了降低密集帧级字幕生成的计算成本,这些系统常采用稀疏帧采样策略,从而可能丢失关键视频信息。 为克服上述限制,我们提出了 VideoLucy —— 一种用于长视频理解的深度记忆回溯框架。受人类由粗到细的回忆过程启发,VideoLucy 设计了一个具有渐进粒度的分层记忆结构,在不同层级深度上显式地定义了记忆的细节层次与时间范围。通过一种基于智能体的迭代回溯机制,VideoLucy 能够系统地挖掘与问题相关的全局深层视频记忆,直到收集到足够的信息以生成高置信度的回答。该设计不仅实现了对连续帧的有效时序理解,还同时保留了关键细节信息。 此外,我们提出了一个新的长视频理解基准——EgoMem,用于全面评估模型在长时间跨度内理解复杂事件与捕捉细粒度细节的能力。大量实验结果表明,VideoLucy 在多个长视频理解基准上显著优于现有的最新方法,并在开源模型基础上实现了性能突破,甚至超过了包括 GPT-4o 在内的最新闭源模型。我们的代码与数据集将公开发布。

成为VIP会员查看完整内容
1

相关内容

【SIGIR2024】GPT4Rec: 用于流式推荐的图提示微调
专知会员服务
18+阅读 · 2024年6月13日
【CVPR2024】PHYSCENE:为体现智能合成的可交互三维场景
专知会员服务
19+阅读 · 2024年4月19日
【WWW2024】GraphPro:推荐系统中的图预训练与提示学习
专知会员服务
23+阅读 · 2024年1月26日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
【Flink】基于 Flink 的流式数据实时去重
AINLP
14+阅读 · 2020年9月29日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
【紫冬声音】基于人体骨架的行为识别
中国自动化学会
16+阅读 · 2019年1月30日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
484+阅读 · 2023年3月31日
Arxiv
79+阅读 · 2023年3月26日
Arxiv
175+阅读 · 2023年3月24日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关资讯
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
【Flink】基于 Flink 的流式数据实时去重
AINLP
14+阅读 · 2020年9月29日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
【紫冬声音】基于人体骨架的行为识别
中国自动化学会
16+阅读 · 2019年1月30日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
微信扫码咨询专知VIP会员