这篇论文旨在推动数据驱动的动态决策理论和实践,通过融合机器学习和运筹学的思想。在整个论文中,我们关注三个方面:(i) 开发新的实用算法,系统地增强数据驱动的动态决策制定;(ii) 识别和利用导致统计和计算效率的关键问题结构;以及(iii) 为数据驱动的动态决策制定的统计和计算复杂性提供一般性的理解,这与我们对监督式机器学习的理解相平行,还考虑了模型结构和约束对决策制定的关键作用。具体来说,论文由三个部分组成。
本论文的第一部分开发了一种方法,可以自动将监督学习的进展转化为有效的动态决策制定。重点关注上下文臂问题,这是一类核心的在线决策问题,我们提出了从上下文臂到离线回归的首个最优和高效降维方法。我们的结果的一个显著后果是,离线回归的进展立即转化为上下文臂问题,无论是在统计上还是在计算上。我们通过复杂的操作环境中的新保证和对真实世界数据集的实验,说明了我们的结果的优势。我们还将我们的结果扩展到更具挑战性的设置,包括大状态空间中的强化学习。除了积极的结果,我们还建立了一般、非结构化强化学习的新基本限制,强调了强化学习中问题结构的重要性。
本论文的第二部分开发了一个框架,将离线数据纳入在线决策制定,这是出于业务和运营方面的实际挑战。在动态定价的背景下,该框架使我们能够严格刻画数据的价值以及数据驱动决策制定中在线学习和离线学习之间的协同作用。该理论为实践提供了重要的见解。
本论文的第三部分研究了在决策制定者可能面临各种长期约束的新环境中的经典在线决策问题。这些约束是出于社会和运营考虑的,可能限制决策者在不同行动之间切换、消耗资源或查询累积数据的能力。我们刻画了这些长期约束带来的统计和计算后果,即问题的复杂性如何随不同约束水平而变化。结果为数据驱动的动态决策制定中的各种有趣的权衡提供了精确的描述。