序列事件预测的目标是根据历史事件序列估计下一个事件,在序列推荐、用户行为分析和临床治疗等方面都有应用。在实践中,下一个事件预测模型用一次收集的序列数据进行训练,需要在遥远的未来泛化到新到达的序列,这就要求模型处理从训练到测试的时间分布转移。在本文中,我们首先从数据生成的角度揭示了一个消极的结果,即由于潜在的上下文混杂因素,即历史事件和下一个事件的共同原因,现有的最大似然估计方法在分布转移时将失败。在此基础上,设计了一种基于后门调整的学习目标,并进一步利用变分推理使其易于处理序列学习问题。在此基础上,我们提出了一个具有层次分支结构的框架,用于学习特定于上下文的表示。对不同任务(如顺序推荐)的综合实验证明了我们的方法的有效性、适用性和可扩展性,以各种现成的模型为骨干。