A truly interactive world model requires three key ingredients: real-time long-horizon streaming, consistent spatial memory, and precise user control. However, most existing approaches address only one of these aspects in isolation, as achieving all three simultaneously is highly challenging-for example, long-term memory mechanisms often degrade real-time performance. In this work, we present RELIC, a unified framework that tackles these three challenges altogether. Given a single image and a text description, RELIC enables memory-aware, long-duration exploration of arbitrary scenes in real time. Built upon recent autoregressive video-diffusion distillation techniques, our model represents long-horizon memory using highly compressed historical latent tokens encoded with both relative actions and absolute camera poses within the KV cache. This compact, camera-aware memory structure supports implicit 3D-consistent content retrieval and enforces long-term coherence with minimal computational overhead. In parallel, we fine-tune a bidirectional teacher video model to generate sequences beyond its original 5-second training horizon, and transform it into a causal student generator using a new memory-efficient self-forcing paradigm that enables full-context distillation over long-duration teacher as well as long student self-rollouts. Implemented as a 14B-parameter model and trained on a curated Unreal Engine-rendered dataset, RELIC achieves real-time generation at 16 FPS while demonstrating more accurate action following, more stable long-horizon streaming, and more robust spatial-memory retrieval compared with prior work. These capabilities establish RELIC as a strong foundation for the next generation of interactive world modeling.


翻译:一个真正交互式的世界模型需要三个关键要素:实时长时流式生成、一致的空间记忆以及精确的用户控制。然而,现有方法大多仅孤立地解决其中某一方面,因为同时实现三者极具挑战性——例如,长时记忆机制通常会降低实时性能。本研究提出RELIC,一个统一框架以共同应对这三项挑战。给定单张图像和文本描述,RELIC能够实时对任意场景进行具备记忆感知的长时探索。基于近期自回归视频扩散蒸馏技术,本模型采用经高度压缩的历史潜在令牌来表示长时记忆,这些令牌通过KV缓存中编码的相对动作与绝对相机位姿进行存储。这种紧凑的相机感知记忆结构支持隐式三维一致内容检索,并以最小计算开销确保长期连贯性。同时,我们微调了一个双向教师视频模型,使其能够生成超出原始5秒训练时长的序列,并通过一种新型内存高效自强制范式将其转化为因果学生生成器,该范式支持对长时教师模型及学生自生成序列进行全上下文蒸馏。RELIC实现为140亿参数模型,并在精心构建的Unreal Engine渲染数据集上训练,能够以16 FPS实现实时生成,与先前工作相比,在动作跟随准确性、长时流式生成稳定性以及空间记忆检索鲁棒性方面均表现出更优性能。这些能力使RELIC成为下一代交互式世界建模的坚实基础。

0
下载
关闭预览

相关内容

【NeurIPS2022】SparCL:边缘稀疏持续学习
专知会员服务
24+阅读 · 2022年9月22日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
【NeurIPS2019】图变换网络:Graph Transformer Network
专知会员服务
112+阅读 · 2019年11月25日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员