【ICML2023】序列反事实风险最小化 - 专知VIP

会员服务 ·

11

ICML 2023 · 反事实学习 ·

2023 年 5 月 1 日

【ICML2023】序列反事实风险最小化

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

反事实风险最小化(CRM)是一个用于处理日志bandit反馈问题的框架，其目标是使用离线数据改进日志策略。本文探讨了可能多次部署学习到的策略并获得新数据的情况。我们将CRM原则及其理论扩展到这种场景，我们称之为“序列反事实风险最小化(SCRM)”。本文提出一种新的反事实估计器，并通过使用类似于加速优化方法中的重启策略的分析，确定可以在超额风险和遗憾率方面提高CRM性能的条件。还在离散和连续行动设置中对所提出方法进行了实证评估，并证明了CRM多次部署的好处。

成为VIP会员查看完整内容

21

相关内容

ICML 2023

国际机器学习大会(International Conference on Machine Learning，简称ICML ) 是由国际机器学习学会（IMLS）主办的机器学习国际顶级会议。 2023年7月23日至29日周六在夏威夷会议中心举行。

【牛津大学博士论文】风险敏感且鲁棒的基于模型的强化学习与规划，201页pdf

【牛津大学博士论文】风险敏感且鲁棒的基于模型的强化学习与规划，201页pdf

专知会员服务

44+阅读 · 2023年4月7日

【NeurIPS2022】序列(推荐)模型分布外泛化：因果视角与求解

【NeurIPS2022】序列(推荐)模型分布外泛化：因果视角与求解

专知会员服务

13+阅读 · 2022年12月11日

【ICML2022】熵因果推理:图的可辨识性

【ICML2022】熵因果推理:图的可辨识性

专知会员服务

28+阅读 · 2022年8月6日

【ICML2022】在线决策Transformer

【ICML2022】在线决策Transformer

专知会员服务

34+阅读 · 2022年7月27日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知会员服务

37+阅读 · 2022年7月11日

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

专知会员服务

17+阅读 · 2022年6月23日

【ICML2022】可达性约束强化学习

【ICML2022】可达性约束强化学习

专知会员服务

23+阅读 · 2022年5月18日

【AAAI2022】通过自训练加强反事实分类

【AAAI2022】通过自训练加强反事实分类

专知会员服务

25+阅读 · 2021年12月10日

反事实学习如何用于推荐！看RecSys2021教程《推荐系统反事实学习和评估:基础、实施和最新进展》，

专知会员服务

35+阅读 · 2021年9月30日

【ICML2021】策略梯度贝叶斯鲁棒优化的模仿学习

专知会员服务

25+阅读 · 2021年6月15日

【牛津大学博士论文】风险敏感且鲁棒的基于模型的强化学习与规划，201页pdf

【牛津大学博士论文】风险敏感且鲁棒的基于模型的强化学习与规划，201页pdf

专知

4+阅读 · 2023年4月7日

【AAAI2023】图序注意力网络

【AAAI2023】图序注意力网络

专知

6+阅读 · 2022年11月24日

【CMU博士论文】黑盒和多目标优化策略，151页pdf

【CMU博士论文】黑盒和多目标优化策略，151页pdf

专知

13+阅读 · 2022年11月24日

【CMU硬核书】现代自适应控制与强化学习，166页pdf

【CMU硬核书】现代自适应控制与强化学习，166页pdf

专知

4+阅读 · 2022年8月30日

【ICML2022】熵因果推理:图的可辨识性

【ICML2022】熵因果推理:图的可辨识性

专知

1+阅读 · 2022年8月6日

【ICML2022】在线决策Transformer

【ICML2022】在线决策Transformer

专知

2+阅读 · 2022年7月27日

【ICML2022】因果Transformer:估算反事实结果的因果, 附ppt

【ICML2022】因果Transformer:估算反事实结果的因果, 附ppt

专知

2+阅读 · 2022年7月20日

【ICML2022教程】因果公平性分析，68页ppt

【ICML2022教程】因果公平性分析，68页ppt

专知

3+阅读 · 2022年7月19日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知

3+阅读 · 2022年7月11日

深度 | 推荐系统评估

深度 | 推荐系统评估

AI100

24+阅读 · 2019年3月16日

基于参数估计理论的信息检索风险研究

国家自然科学基金

0+阅读 · 2013年12月31日

滑动窗口上数据流副本近似检测算法及其空间复杂度下界研究

国家自然科学基金

0+阅读 · 2013年12月31日

公允价值信息风险及决策有用性研究

国家自然科学基金

3+阅读 · 2013年12月31日

基于路段的风险型交通分配模型与网络风险评估方法

国家自然科学基金

0+阅读 · 2013年12月31日

条件独立结构的分解与学习

国家自然科学基金

0+阅读 · 2013年12月31日

量测缺失确定采样组合导航估计理论研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于风险测度的供应链鲁棒建模与策略研究

国家自然科学基金

2+阅读 · 2012年12月31日

因果推断的统计方法

国家自然科学基金

26+阅读 · 2011年12月31日

基于Bregman距离的一致性风险测度及其应用

国家自然科学基金

0+阅读 · 2011年12月31日

Solvency II 框架下非寿险准备金风险度量与控制研究

国家自然科学基金

0+阅读 · 2011年12月31日

RD-Suite: A Benchmark for Ranking Distillation

Arxiv

1+阅读 · 2023年6月12日

Contribution à l'Optimisation d'un Comportement Collectif pour un Groupe de Robots Autonomes

Arxiv

0+阅读 · 2023年6月10日

DP-Fast MH: Private, Fast, and Accurate Metropolis-Hastings for Large-Scale Bayesian Inference

Arxiv

0+阅读 · 2023年6月10日

Understanding the stochastic dynamics of sequential decision-making processes: A path-integral analysis of multi-armed bandits

Arxiv

0+阅读 · 2023年6月10日

Feature Programming for Multivariate Time Series Prediction

Arxiv

0+阅读 · 2023年6月9日

ViT-CX: Causal Explanation of Vision Transformers

Arxiv

0+阅读 · 2023年6月9日

Lightweight Monocular Depth Estimation via Token-Sharing Transformer

Arxiv

0+阅读 · 2023年6月9日

Evaluating and Incentivizing Diverse Data Contributions in Collaborative Learning

Arxiv

0+阅读 · 2023年6月8日

Task-specific experimental design for treatment effect estimation

Arxiv

0+阅读 · 2023年6月8日

Disentangled Information Bottleneck

Disentangled Information Bottleneck

Arxiv

12+阅读 · 2020年12月22日

VIP会员

相关主题

反事实学习

相关VIP内容

【牛津大学博士论文】风险敏感且鲁棒的基于模型的强化学习与规划，201页pdf

【牛津大学博士论文】风险敏感且鲁棒的基于模型的强化学习与规划，201页pdf

专知会员服务

44+阅读 · 2023年4月7日

【NeurIPS2022】序列(推荐)模型分布外泛化：因果视角与求解

【NeurIPS2022】序列(推荐)模型分布外泛化：因果视角与求解

专知会员服务

13+阅读 · 2022年12月11日

【ICML2022】熵因果推理:图的可辨识性

【ICML2022】熵因果推理:图的可辨识性

专知会员服务

28+阅读 · 2022年8月6日

【ICML2022】在线决策Transformer

【ICML2022】在线决策Transformer

专知会员服务

34+阅读 · 2022年7月27日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知会员服务

37+阅读 · 2022年7月11日

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

专知会员服务

17+阅读 · 2022年6月23日

【ICML2022】可达性约束强化学习

【ICML2022】可达性约束强化学习

专知会员服务

23+阅读 · 2022年5月18日

【AAAI2022】通过自训练加强反事实分类

【AAAI2022】通过自训练加强反事实分类

专知会员服务

25+阅读 · 2021年12月10日

反事实学习如何用于推荐！看RecSys2021教程《推荐系统反事实学习和评估:基础、实施和最新进展》，

专知会员服务

35+阅读 · 2021年9月30日

【ICML2021】策略梯度贝叶斯鲁棒优化的模仿学习

专知会员服务

25+阅读 · 2021年6月15日

热门VIP内容

开通专知VIP会员享更多权益服务

《复杂工程系统模型驱动设计决策支持系统：早期设计阶段挑战》最新138页

《日本陆上自卫队2040年作战方式与未来作战研究》最新23页slides

人工智能作为战争武器

《后勤保障》最新23页

相关资讯

【牛津大学博士论文】风险敏感且鲁棒的基于模型的强化学习与规划，201页pdf

【牛津大学博士论文】风险敏感且鲁棒的基于模型的强化学习与规划，201页pdf

专知

4+阅读 · 2023年4月7日

【AAAI2023】图序注意力网络

【AAAI2023】图序注意力网络

专知

6+阅读 · 2022年11月24日

【CMU博士论文】黑盒和多目标优化策略，151页pdf

【CMU博士论文】黑盒和多目标优化策略，151页pdf

专知

13+阅读 · 2022年11月24日

【CMU硬核书】现代自适应控制与强化学习，166页pdf

【CMU硬核书】现代自适应控制与强化学习，166页pdf

专知

4+阅读 · 2022年8月30日

【ICML2022】熵因果推理:图的可辨识性

【ICML2022】熵因果推理:图的可辨识性

专知

1+阅读 · 2022年8月6日

【ICML2022】在线决策Transformer

【ICML2022】在线决策Transformer

专知

2+阅读 · 2022年7月27日

【ICML2022】因果Transformer:估算反事实结果的因果, 附ppt

【ICML2022】因果Transformer:估算反事实结果的因果, 附ppt

专知

2+阅读 · 2022年7月20日

【ICML2022教程】因果公平性分析，68页ppt

【ICML2022教程】因果公平性分析，68页ppt

专知

3+阅读 · 2022年7月19日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知

3+阅读 · 2022年7月11日

深度 | 推荐系统评估

深度 | 推荐系统评估

AI100

24+阅读 · 2019年3月16日

相关基金

基于参数估计理论的信息检索风险研究

国家自然科学基金

0+阅读 · 2013年12月31日

滑动窗口上数据流副本近似检测算法及其空间复杂度下界研究

国家自然科学基金

0+阅读 · 2013年12月31日

公允价值信息风险及决策有用性研究

国家自然科学基金

3+阅读 · 2013年12月31日

基于路段的风险型交通分配模型与网络风险评估方法

国家自然科学基金

0+阅读 · 2013年12月31日

条件独立结构的分解与学习

国家自然科学基金

0+阅读 · 2013年12月31日

量测缺失确定采样组合导航估计理论研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于风险测度的供应链鲁棒建模与策略研究

国家自然科学基金

2+阅读 · 2012年12月31日

因果推断的统计方法

国家自然科学基金

26+阅读 · 2011年12月31日

基于Bregman距离的一致性风险测度及其应用

国家自然科学基金

0+阅读 · 2011年12月31日

Solvency II 框架下非寿险准备金风险度量与控制研究

国家自然科学基金

0+阅读 · 2011年12月31日

相关论文

RD-Suite: A Benchmark for Ranking Distillation

Arxiv

1+阅读 · 2023年6月12日

Contribution à l'Optimisation d'un Comportement Collectif pour un Groupe de Robots Autonomes

Arxiv

0+阅读 · 2023年6月10日

DP-Fast MH: Private, Fast, and Accurate Metropolis-Hastings for Large-Scale Bayesian Inference

Arxiv

0+阅读 · 2023年6月10日

Understanding the stochastic dynamics of sequential decision-making processes: A path-integral analysis of multi-armed bandits

Arxiv

0+阅读 · 2023年6月10日

Feature Programming for Multivariate Time Series Prediction

Arxiv

0+阅读 · 2023年6月9日

ViT-CX: Causal Explanation of Vision Transformers

Arxiv

0+阅读 · 2023年6月9日

Lightweight Monocular Depth Estimation via Token-Sharing Transformer

Arxiv

0+阅读 · 2023年6月9日

Evaluating and Incentivizing Diverse Data Contributions in Collaborative Learning

Arxiv

0+阅读 · 2023年6月8日

Task-specific experimental design for treatment effect estimation

Arxiv

0+阅读 · 2023年6月8日

Disentangled Information Bottleneck

Disentangled Information Bottleneck

Arxiv

12+阅读 · 2020年12月22日

微信扫码咨询专知VIP会员