Frame-level autoregressive (frame-AR) models have achieved significant progress, enabling real-time video generation comparable to bidirectional diffusion models and serving as a foundation for interactive world models and game engines. However, current approaches in long video generation typically rely on window attention, which naively discards historical context outside the window, leading to catastrophic forgetting and scene inconsistency; conversely, retaining full history incurs prohibitive memory costs. To address this trade-off, we propose \textbf{Memorize-and-Generate (MAG)}, a framework that decouples memory compression and frame generation into distinct tasks. Specifically, we train a memory model to compress historical information into a compact KV cache, and a separate generator model to synthesize subsequent frames utilizing this compressed representation. Furthermore, we introduce \textbf{MAG-Bench} to strictly evaluate historical memory retention. Extensive experiments demonstrate that MAG achieves superior historical scene consistency while maintaining competitive performance on standard video generation benchmarks.


翻译:帧级自回归模型已取得显著进展,实现了与双向扩散模型相媲美的实时视频生成能力,并为交互式世界模型与游戏引擎奠定了基础。然而,当前长视频生成方法通常依赖窗口注意力机制,该机制会简单丢弃窗口外的历史上下文,导致灾难性遗忘与场景不一致;反之,完整保留历史信息则会产生难以承受的内存开销。为解决这一权衡问题,我们提出**记忆与生成框架**,该框架将记忆压缩与帧生成解耦为独立任务。具体而言,我们训练一个记忆模型将历史信息压缩为紧凑的键值缓存,并训练独立的生成器模型利用该压缩表示合成后续帧。此外,我们提出**MAG-Bench基准**以严格评估历史记忆保持能力。大量实验表明,MAG在保持标准视频生成基准竞争力的同时,实现了更优异的历史场景一致性。

0
下载
关闭预览

相关内容

Python图像处理,366页pdf,Image Operators Image Processing in Python
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员