世界模型是否是实现灵活、目标导向行为的必要组成部分,还是无模型学习就足够了?我们对这一问题给出了形式化的答案,证明任何能够泛化到多步目标导向任务的智能体,必然已经学习了其环境的预测模型。我们进一步展示了,这种模型可以从智能体的策略中提取出来,而且如果想要提升智能体的性能或使其能够完成更复杂的目标,就必须学习更加精确的世界模型。这一发现带来了多方面的意义:从构建安全且具备泛化能力的智能体,到在复杂环境中对智能体能力进行约束,再到为从智能体中提取世界模型提供新的算法方法。