大型生成模型带来了惊人的成果,并彻底改变了人工智能。在本论文中,我将讨论我在推进这些模型基础上的研究,重点解决从现有数据中学习的瓶颈以及超越现有知识发现的挑战。首先,我将描述我们为消除Transformer架构的上下文大小限制所做的努力。我们的建模和训练方法,包括BlockwiseTransformer和RingAttention,允许在保持可扩展性的同时实现近乎无限的上下文大小。接下来,我将讨论大上下文在世界模型学习和决策中的应用。这包括Large World Model,这是世界上首个人工智能,能够在百万个标记的上下文中同时对文本、图像和小时级视频进行建模。然后,我将介绍我的研究,旨在让AI能够发现数据并自主学习。我将讨论我们在无需人为指定领域知识的情况下学习游戏技能的工作,为超越模仿现有数据的学习铺平道路。最后,我将展望我们应构建的下一代大型生成模型,重点关注高效扩展、推理以及在一般领域中的发现能力的进展。