反事实风险最小化(CRM)是一个用于处理日志bandit反馈问题的框架,其目标是使用离线数据改进日志策略。本文探讨了可能多次部署学习到的策略并获得新数据的情况。我们将CRM原则及其理论扩展到这种场景,我们称之为“序列反事实风险最小化(SCRM)”。本文提出一种新的反事实估计器,并通过使用类似于加速优化方法中的重启策略的分析,确定可以在超额风险和遗憾率方面提高CRM性能的条件。还在离散和连续行动设置中对所提出方法进行了实证评估,并证明了CRM多次部署的好处。


成为VIP会员查看完整内容
21

相关内容

国际机器学习大会(International Conference on Machine Learning,简称ICML ) 是由国际机器学习学会(IMLS)主办的机器学习国际顶级会议。 2023年7月23日至29日周六在夏威夷会议中心举行。
【NeurIPS2022】序列(推荐)模型分布外泛化:因果视角与求解
【ICML2022】熵因果推理:图的可辨识性
专知会员服务
28+阅读 · 2022年8月6日
【ICML2022】在线决策Transformer
专知会员服务
34+阅读 · 2022年7月27日
【ICML2022】基于少样本策略泛化的决策Transformer
专知会员服务
37+阅读 · 2022年7月11日
【ICML2022】可达性约束强化学习
专知会员服务
23+阅读 · 2022年5月18日
【AAAI2022】通过自训练加强反事实分类
专知会员服务
25+阅读 · 2021年12月10日
专知会员服务
25+阅读 · 2021年6月15日
【AAAI2023】图序注意力网络
专知
5+阅读 · 2022年11月24日
【ICML2022】熵因果推理:图的可辨识性
专知
1+阅读 · 2022年8月6日
【ICML2022】在线决策Transformer
专知
2+阅读 · 2022年7月27日
【ICML2022教程】因果公平性分析,68页ppt
专知
3+阅读 · 2022年7月19日
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
1+阅读 · 2023年6月12日
Arxiv
0+阅读 · 2023年6月9日
Disentangled Information Bottleneck
Arxiv
12+阅读 · 2020年12月22日
VIP会员
相关VIP内容
【NeurIPS2022】序列(推荐)模型分布外泛化:因果视角与求解
【ICML2022】熵因果推理:图的可辨识性
专知会员服务
28+阅读 · 2022年8月6日
【ICML2022】在线决策Transformer
专知会员服务
34+阅读 · 2022年7月27日
【ICML2022】基于少样本策略泛化的决策Transformer
专知会员服务
37+阅读 · 2022年7月11日
【ICML2022】可达性约束强化学习
专知会员服务
23+阅读 · 2022年5月18日
【AAAI2022】通过自训练加强反事实分类
专知会员服务
25+阅读 · 2021年12月10日
专知会员服务
25+阅读 · 2021年6月15日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
微信扫码咨询专知VIP会员