预测视频的未来帧是一项具有挑战性的任务,部分原因在于潜在的随机现实现象。解决这个任务的先验方法通常估计一个潜在的先验特征,但是不能解释(深度学习)模型的预测不确定性。这种方法往往从生成的帧与真实值之间的均方误差(MSE)获得训练信号,这可能导致次优训练,尤其是在预测不确定性高的情况下。为此,我们引入神经不确定性量词(NUQ)——对模型的预测不确定性进行随机量化,并用它来衡量MSE损失。我们提出了一个分层的、变分的框架,以一种有原则的方式,使用一个深度的贝叶斯图模型来派生NUQ。我们在四个基准随机视频预测数据集上的实验表明,我们提出的框架比最先进的模型训练更有效(特别是当训练集很小的时候),同时显示出更好的视频生成质量和多样性。