为了推动网络广告的购买行为,优化序列广告策略是广告商非常关心的问题,而序列广告策略的性能和可解释性都非常重要。现有的深度强化学习方法缺乏可解释性,使得策略不易被理解、诊断和进一步优化。在本文中,我们提出了我们的深度意图序列广告(DISA)方法来解决这些问题。可解释性的关键部分是了解消费者的购买意图,而这种意图是不可观察的(称为隐藏状态)。在本文中,我们将意图建模为一个潜在变量,并将问题表述为一个部分可观察的马尔可夫决策过程(POMDP),其中潜在意图是根据可观察行为推断出来的。大规模的工业离线和在线实验证明了我们的方法在多个基线上的优越性能。对推导出的隐状态进行了分析,结果证明了推理的合理性。