【普林斯顿博士论文】面向决策的模型正则化机器学习，199页pdf

由于越来越多的高维数据的可用性，最近在机器学习（ML）方面的发展已经重新定义了许多领域的决策制定。然而，由于缺乏高质量数据所导致的ML在决策制定中的不可靠性的斗争尚未结束，并且在几乎每一个应用中都是一个重要的障碍。这引起了一些问题，如 (i) 为什么ML方法在新环境中无法复制决策行为？ (ii) 为什么ML为现有的专家决策提供不合理的解释？ (iii) 在嘈杂和高维的环境下，我们应该如何做出决策？许多这些问题可以归因于缺乏一个有效且样本高效的机器学习方法的基础模型。本论文介绍了我们的研究努力，致力于在逆向强化学习和强化学习的领域开发模型正则化的ML来解决上述问题，应用于客户/公司行为分析和投资组合优化。具体来说，通过应用来自合适模型的正则化，我们提出了针对两个不同目标的方法：(i) 更好地理解和复制人类专家和企业的现有决策；(ii) 在可能没有足够的大量高质量数据的情况下，进行更好的顺序决策，同时克服这一需求。

机器学习（ML）在许多领域重新定义了决策制定。尖端的ML方法被开发和应用于 (i) 理解现有的决策行为（在逆向强化学习或模仿学习领域）和 (ii) 进行更好的决策制定（在强化学习领域）。例如：• 在医疗领域，ML用于解释医生的诊断，甚至提供治疗建议 [Komura 和 Ishikawa, 2019, Kononenko, 2001, Sajda, 2006]。 • 在自主控制中，以ML为驱动的机器人和汽车可以从人类行为中学习 [Codevilla 等人, 2018, Hussein 等人, 2017]，并处理各种任务 [Kober 等人, 2013, Shalev-Shwartz 等人, 2016]。 • 在自然语言处理中，由ML方法训练的聊天机器人可以与人交谈，并回答人们的各种问题 [Cha, Gao 等人, 2022]。 • 在金融领域，ML被用于理解金融市场和开发更好的交易策略 [Dixon 等人, 2020, Hambly 等人, 2021]。

ML成功的一个关键因素是大量的高质量决策数据 [Deng 等人, 2009, Fu 等人, 2020, Yu 等人, 2019b]。有了这些数据，ML模型可以拥有数百万的参数，处理异质任务，并提供通用的灵活解决方案。然而，ML如何处理没有足够高质量数据的问题呢？在这类问题中，收集到的数据可能因为太少的种类而无法学到通用的结果 [Abbring, 2010, Fu 等人, 2017]；由于数据收集成本高，数据量可能有限 [Berry 等人, 1996, Newman, 2002, Rust, 1987]；数据可能天生就带有噪音 [Goyal 和 Santa-Clara, 2003]。所有这些问题都迫切需要新的方法来减少ML对数据的高需求。

为了应对高质量数据的缺乏，我们的策略是利用经济学和金融学中的决策模型。在本论文中，我们重点研究的两个典型决策模型是动态离散选择模型 [Aguirregabiria 和 Mira, 2010] 和连续时间金融模型 [Merton, 1969]。这些模型在解释现有的决策制定和提供决策策略方面都有着悠久的成功历史。我们的目标是使用这些模型来规范ML方法，使其能够应对高质量决策数据的缺乏。

• 从方法论上讲，我们从经济和金融模型中导出规范化，并将此类规范化应用于ML方法。我们提出了新的逆向强化学习方法和强化学习方法。

• 从理论上讲，我们通过渐进和有限样本分析来分析所提议的模型规范化方法的性能和优势。

• 从实证上讲，通过使用合成和真实世界的实验，展示了性能的改进，应用于客户行为分析、公司行为分析和投资组合优化。