近年来的研究表明,基于大型语言模型(LLM)的智能体系统在关键视频信息检索与整合方面展现出巨大潜力,已成为长视频理解的一种有前景的途径。然而,此类系统仍面临两大挑战:其一,它们通常仅在单帧层面进行建模与推理,难以有效捕捉连续帧之间的时序上下文;其二,为了降低密集帧级字幕生成的计算成本,这些系统常采用稀疏帧采样策略,从而可能丢失关键视频信息。 为克服上述限制,我们提出了 VideoLucy —— 一种用于长视频理解的深度记忆回溯框架。受人类由粗到细的回忆过程启发,VideoLucy 设计了一个具有渐进粒度的分层记忆结构,在不同层级深度上显式地定义了记忆的细节层次与时间范围。通过一种基于智能体的迭代回溯机制,VideoLucy 能够系统地挖掘与问题相关的全局深层视频记忆,直到收集到足够的信息以生成高置信度的回答。该设计不仅实现了对连续帧的有效时序理解,还同时保留了关键细节信息。 此外,我们提出了一个新的长视频理解基准——EgoMem,用于全面评估模型在长时间跨度内理解复杂事件与捕捉细粒度细节的能力。大量实验结果表明,VideoLucy 在多个长视频理解基准上显著优于现有的最新方法,并在开源模型基础上实现了性能突破,甚至超过了包括 GPT-4o 在内的最新闭源模型。我们的代码与数据集将公开发布。