非策略评估(OPE)是稳健决策中的一个关键挑战,旨在利用在不同策略下收集的数据来评估新策略的性能。然而,现有的OPE方法在统计不确定性和因果考量方面存在一些局限性。在本论文中,我们通过三项不同的研究工作来解决这些局限性。

首先,我们关注基于重要性采样的OPE估计器中的高方差问题。我们提出了一种新的非策略评估估计器——边际比率(MR)估计器,以缓解这一问题。通过专注于结果的边际分布而非直接关注策略变化,MR估计器在保持无偏性的同时,显著降低了方差,优于现有方法。 接下来,我们将注意力转向非策略评估中的不确定性量化。为此,我们提出了**保形非策略预测(COPP)**作为一种新方法,以在有限样本条件下量化这种不确定性并提供保证。与传统方法关注期望结果的点估计不同,COPP为目标策略下的结果提供了可靠的预测区间。这使得在风险敏感的应用中能够实现稳健的决策,并为策略性能提供了更全面的理解。 最后,我们解决了非策略评估中因果推断的根本挑战。认识到传统OPE方法在未测量混杂因素下的局限性,我们开发了适用于序列决策设置的新型因果界限,这些界限在任意混杂条件下仍然有效。我们将这些界限应用于数字孪生模型的评估,而不依赖于强因果假设。我们提出了一个因果证伪框架,使我们能够识别数字孪生预测与现实行为不一致的场景。这种方法为模型可靠性提供了有价值的见解,并有助于确保安全有效的决策。 在论文的结尾,我们讨论了本研究的贡献和局限性,并提出了未来研究的有趣方向。

成为VIP会员查看完整内容
0

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【CMU博士论文】最优传输的统计推断
专知会员服务
26+阅读 · 2024年5月29日
【阿姆斯特丹博士论文】3D 视觉学习中的连续性,127页pdf
专知会员服务
32+阅读 · 2023年10月13日
【匹兹堡大学博士论文】数据限制下的因果推理,147页pdf
【MIT博士论文】非参数因果推理的算法方法,424页pdf
专知会员服务
83+阅读 · 2022年9月20日
【AAAI2021最佳论文】多智能体学习中的探索 - 利用
专知会员服务
36+阅读 · 2021年2月6日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
165+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
431+阅读 · 2023年3月31日
Arxiv
73+阅读 · 2023年3月26日
Arxiv
157+阅读 · 2023年3月24日
Arxiv
22+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【CMU博士论文】最优传输的统计推断
专知会员服务
26+阅读 · 2024年5月29日
【阿姆斯特丹博士论文】3D 视觉学习中的连续性,127页pdf
专知会员服务
32+阅读 · 2023年10月13日
【匹兹堡大学博士论文】数据限制下的因果推理,147页pdf
【MIT博士论文】非参数因果推理的算法方法,424页pdf
专知会员服务
83+阅读 · 2022年9月20日
【AAAI2021最佳论文】多智能体学习中的探索 - 利用
专知会员服务
36+阅读 · 2021年2月6日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员