非计量模型下部分可观察的Markov决定程序非政策评价 (Off-Policy Evaluation for Episodic Partially Observable Markov Decision Processes under Non-Parametric Models) - 专知论文

会员服务 ·

0

部分可观测马尔可夫决策过程 · Markov · 估计/估计量 · 泛函 · Processing（编程语言） ·

2022 年 10 月 16 日

Off-Policy Evaluation for Episodic Partially Observable Markov Decision Processes under Non-Parametric Models

翻译：非计量模型下部分可观察的Markov决定程序非政策评价

Rui Miao,Zhengling Qi,Xiaoke Zhang

We study the problem of off-policy evaluation (OPE) for episodic Partially Observable Markov Decision Processes (POMDPs) with continuous states. Motivated by the recently proposed proximal causal inference framework, we develop a non-parametric identification result for estimating the policy value via a sequence of so-called V-bridge functions with the help of time-dependent proxy variables. We then develop a fitted-Q-evaluation-type algorithm to estimate V-bridge functions recursively, where a non-parametric instrumental variable (NPIV) problem is solved at each step. By analyzing this challenging sequential NPIV problem, we establish the finite-sample error bounds for estimating the V-bridge functions and accordingly that for evaluating the policy value, in terms of the sample size, length of horizon and so-called (local) measure of ill-posedness at each step. To the best of our knowledge, this is the first finite-sample error bound for OPE in POMDPs under non-parametric models.

翻译：我们根据最近提出的近似因果推论框架,开发了非参数性鉴定结果,以便通过所谓的V桥功能序列,在时间依赖的代理变量的帮助下估计政策价值。然后,我们开发了一种适合的Q-评价型算法,对V桥功能进行反复估计,每个步骤都解决了非参数工具变量问题。我们通过分析这个具有挑战性的相继NPIV问题,为估算V桥功能设定了有限的抽样误差界限,并据此为评估每一步骤的抽样大小、地平线长度和所谓的(当地)不良衡量标准的政策价值设定了非参数性误差。据我们所知,这是在非参数模型下对POMDP的OPE进行的第一个有限抽样误差。

0

相关内容

部分可观测马尔可夫决策过程

部分可观测马尔可夫决策过程

不可错过！杜克大学《因果推断》课程，全面讲述因果推理

不可错过！杜克大学《因果推断》课程，全面讲述因果推理

专知会员服务

51+阅读 · 2022年10月22日

不可错过！700+ppt《因果推理》课程！杜克大学Fan Li教程

不可错过！700+ppt《因果推理》课程！杜克大学Fan Li教程

专知会员服务

72+阅读 · 2022年7月11日

不可错过！《机器学习100讲》课程，UBC Mark Schmidt讲授

不可错过！《机器学习100讲》课程，UBC Mark Schmidt讲授

专知会员服务

75+阅读 · 2022年6月28日

ICLR 2022杰出论文公布：7篇论文获得，清华朱军课题组摘得

ICLR 2022杰出论文公布：7篇论文获得，清华朱军课题组摘得

专知会员服务

60+阅读 · 2022年4月22日

不可错过！UIUC最新《统计强化学习》课程！

专知会员服务

53+阅读 · 2020年9月7日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

95+阅读 · 2020年3月12日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

【哈佛大学商学院课程Fall 2019】机器学习可解释性

【哈佛大学商学院课程Fall 2019】机器学习可解释性

专知会员服务

105+阅读 · 2019年10月9日

VCIP 2022 Call for Special Session Proposals

VCIP 2022 Call for Special Session Proposals

CCF多媒体专委会

1+阅读 · 2022年4月1日

IEEE ICKG 2022: Call for Papers

IEEE ICKG 2022: Call for Papers

机器学习与推荐算法

3+阅读 · 2022年3月30日

ACM MM 2022 Call for Papers

ACM MM 2022 Call for Papers

CCF多媒体专委会

5+阅读 · 2022年3月29日

AIART 2022 Call for Papers

AIART 2022 Call for Papers

CCF多媒体专委会

1+阅读 · 2022年2月13日

【新书发布】原作者MarcG.Bellemare发布315页分布强化学习书籍(DistributionalRL)

【新书发布】原作者MarcG.Bellemare发布315页分布强化学习书籍(DistributionalRL)

深度强化学习实验室

1+阅读 · 2022年1月11日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

树上生灭过程收敛速度及p-Laplacian特征值估计

国家自然科学基金

0+阅读 · 2015年12月31日

Serglycin调控TGF-β信号通路诱导EMT促进膀胱癌转移机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

NFATc1通过ATF3增强足细胞损伤的机制

国家自然科学基金

0+阅读 · 2014年12月31日

金属富勒醇Gd@C82(OH)22调控血管内皮生长因子受体（VEGFR）跨膜信号转导的机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

新型紫外非线性光学晶体Ba3B6O11F2的助熔剂法生长及性质研究

国家自然科学基金

0+阅读 · 2013年12月31日

钙钛矿结构Cr基氧化物单晶的制备和磁电效应研究

国家自然科学基金

0+阅读 · 2013年12月31日

探测暗物质晶体的核反冲刻度实验

国家自然科学基金

0+阅读 · 2012年12月31日

花生Cu/Zn-SOD活性响应干旱胁迫的分子机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

铽、铈激活含Ba(Gd,Y)F5纳米晶闪烁微晶玻璃的制备和发光机理研究

国家自然科学基金

0+阅读 · 2009年12月31日

On the Usefulness of Embeddings, Clusters and Strings for Text Generator Evaluation

Arxiv

0+阅读 · 2022年11月20日

Extending Conformal Prediction to Hidden Markov Models with Exact Validity via de Finetti's Theorem for Markov Chains

Arxiv

0+阅读 · 2022年11月20日

Consistent least squares estimation in population-size-dependent branching processes

Arxiv

0+阅读 · 2022年11月20日

Testing distributional assumptions of learning algorithms

Arxiv

0+阅读 · 2022年11月20日

Semi-supervised Transfer Learning for Evaluation of Model Classification Performance

Arxiv

0+阅读 · 2022年11月18日

Understanding the double descent curve in Machine Learning

Arxiv

0+阅读 · 2022年11月18日

All models are wrong, but which are useful? Comparing parametric and nonparametric estimation of causal effects in finite samples

Arxiv

0+阅读 · 2022年11月18日

A Survey of Deep Causal Model

Arxiv

45+阅读 · 2022年9月19日

Exploration-Exploitation in Multi-Agent Learning: Catastrophe Theory Meets Game Theory

Exploration-Exploitation in Multi-Agent Learning: Catastrophe Theory Meets Game Theory

Arxiv

15+阅读 · 2020年12月15日

A Survey on Causal Inference

Arxiv

112+阅读 · 2020年2月5日

VIP会员

文章信息

相关主题

部分可观测马尔可夫决策过程

估计/估计量

Processing（编程语言）

相关VIP内容

不可错过！杜克大学《因果推断》课程，全面讲述因果推理

不可错过！杜克大学《因果推断》课程，全面讲述因果推理

专知会员服务

51+阅读 · 2022年10月22日

不可错过！700+ppt《因果推理》课程！杜克大学Fan Li教程

不可错过！700+ppt《因果推理》课程！杜克大学Fan Li教程

专知会员服务

72+阅读 · 2022年7月11日

不可错过！《机器学习100讲》课程，UBC Mark Schmidt讲授

不可错过！《机器学习100讲》课程，UBC Mark Schmidt讲授

专知会员服务

75+阅读 · 2022年6月28日

ICLR 2022杰出论文公布：7篇论文获得，清华朱军课题组摘得

ICLR 2022杰出论文公布：7篇论文获得，清华朱军课题组摘得

专知会员服务

60+阅读 · 2022年4月22日

不可错过！UIUC最新《统计强化学习》课程！

专知会员服务

53+阅读 · 2020年9月7日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

95+阅读 · 2020年3月12日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

【哈佛大学商学院课程Fall 2019】机器学习可解释性

【哈佛大学商学院课程Fall 2019】机器学习可解释性

专知会员服务

105+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

《美国太空军系统全生命周期建模、仿真与分析效能提升方案》最新84页报告

【博士论文】推进数据高效的深度学习：非参数 Transformer、主动测试与上下文学习

自主人工智能：未来战争是否将是自主化的？

相关资讯

VCIP 2022 Call for Special Session Proposals

VCIP 2022 Call for Special Session Proposals

CCF多媒体专委会

1+阅读 · 2022年4月1日

IEEE ICKG 2022: Call for Papers

IEEE ICKG 2022: Call for Papers

机器学习与推荐算法

3+阅读 · 2022年3月30日

ACM MM 2022 Call for Papers

ACM MM 2022 Call for Papers

CCF多媒体专委会

5+阅读 · 2022年3月29日

AIART 2022 Call for Papers

AIART 2022 Call for Papers

CCF多媒体专委会

1+阅读 · 2022年2月13日

【新书发布】原作者MarcG.Bellemare发布315页分布强化学习书籍(DistributionalRL)

【新书发布】原作者MarcG.Bellemare发布315页分布强化学习书籍(DistributionalRL)

深度强化学习实验室

1+阅读 · 2022年1月11日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

相关论文

On the Usefulness of Embeddings, Clusters and Strings for Text Generator Evaluation

Arxiv

0+阅读 · 2022年11月20日

Extending Conformal Prediction to Hidden Markov Models with Exact Validity via de Finetti's Theorem for Markov Chains

Arxiv

0+阅读 · 2022年11月20日

Consistent least squares estimation in population-size-dependent branching processes

Arxiv

0+阅读 · 2022年11月20日

Testing distributional assumptions of learning algorithms

Arxiv

0+阅读 · 2022年11月20日

Semi-supervised Transfer Learning for Evaluation of Model Classification Performance

Arxiv

0+阅读 · 2022年11月18日

Understanding the double descent curve in Machine Learning

Arxiv

0+阅读 · 2022年11月18日

All models are wrong, but which are useful? Comparing parametric and nonparametric estimation of causal effects in finite samples

Arxiv

0+阅读 · 2022年11月18日

A Survey of Deep Causal Model

Arxiv

45+阅读 · 2022年9月19日

Exploration-Exploitation in Multi-Agent Learning: Catastrophe Theory Meets Game Theory

Exploration-Exploitation in Multi-Agent Learning: Catastrophe Theory Meets Game Theory

Arxiv

15+阅读 · 2020年12月15日

A Survey on Causal Inference

Arxiv

112+阅读 · 2020年2月5日

相关基金

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

树上生灭过程收敛速度及p-Laplacian特征值估计

国家自然科学基金

0+阅读 · 2015年12月31日

Serglycin调控TGF-β信号通路诱导EMT促进膀胱癌转移机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

NFATc1通过ATF3增强足细胞损伤的机制

国家自然科学基金

0+阅读 · 2014年12月31日

金属富勒醇Gd@C82(OH)22调控血管内皮生长因子受体（VEGFR）跨膜信号转导的机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

新型紫外非线性光学晶体Ba3B6O11F2的助熔剂法生长及性质研究

国家自然科学基金

0+阅读 · 2013年12月31日

钙钛矿结构Cr基氧化物单晶的制备和磁电效应研究

国家自然科学基金

0+阅读 · 2013年12月31日

探测暗物质晶体的核反冲刻度实验

国家自然科学基金

0+阅读 · 2012年12月31日

花生Cu/Zn-SOD活性响应干旱胁迫的分子机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

铽、铈激活含Ba(Gd,Y)F5纳米晶闪烁微晶玻璃的制备和发光机理研究

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员