非策略评估(OPE)是稳健决策中的一个关键挑战,旨在利用在不同策略下收集的数据来评估新策略的性能。然而,现有的OPE方法在统计不确定性和因果考量方面存在一些局限性。在本论文中,我们通过三项不同的研究工作来解决这些局限性。
首先,我们关注基于重要性采样的OPE估计器中的高方差问题。我们提出了一种新的非策略评估估计器——边际比率(MR)估计器,以缓解这一问题。通过专注于结果的边际分布而非直接关注策略变化,MR估计器在保持无偏性的同时,显著降低了方差,优于现有方法。 接下来,我们将注意力转向非策略评估中的不确定性量化。为此,我们提出了**保形非策略预测(COPP)**作为一种新方法,以在有限样本条件下量化这种不确定性并提供保证。与传统方法关注期望结果的点估计不同,COPP为目标策略下的结果提供了可靠的预测区间。这使得在风险敏感的应用中能够实现稳健的决策,并为策略性能提供了更全面的理解。 最后,我们解决了非策略评估中因果推断的根本挑战。认识到传统OPE方法在未测量混杂因素下的局限性,我们开发了适用于序列决策设置的新型因果界限,这些界限在任意混杂条件下仍然有效。我们将这些界限应用于数字孪生模型的评估,而不依赖于强因果假设。我们提出了一个因果证伪框架,使我们能够识别数字孪生预测与现实行为不一致的场景。这种方法为模型可靠性提供了有价值的见解,并有助于确保安全有效的决策。 在论文的结尾,我们讨论了本研究的贡献和局限性,并提出了未来研究的有趣方向。