视频描述是一项具有挑战性的任务,需要对视觉场景有深刻的理解。最先进的方法使用场景级或对象级信息生成标题,但不显式地建模对象交互。因此,他们往往无法做出有视觉根据的预测,而且对虚假的相关性很敏感。本文提出了一种新的视频描述时空图模型,该模型利用了时空中物体间的相互作用。我们的模型建立了可解释的链接,并能够提供明确的视觉基础。为了避免由于对象数量的变化而导致系统性能的不稳定,提出了一种基于局部对象信息的全局场景特征正则化的对象感知知识提取机制。我们通过在两个基准上的大量实验来证明我们的方法的有效性,表明我们的方法具有可解释预测的竞争性能。