The goal in offline data-driven decision-making is synthesize decisions that optimize a black-box utility function, using a previously-collected static dataset, with no active interaction. These problems appear in many forms: offline reinforcement learning (RL), where we must produce actions that optimize the long-term reward, bandits from logged data, where the goal is to determine the correct arm, and offline model-based optimization (MBO) problems, where we must find the optimal design provided access to only a static dataset. A key challenge in all these settings is distributional shift: when we optimize with respect to the input into a model trained from offline data, it is easy to produce an out-of-distribution (OOD) input that appears erroneously good. In contrast to prior approaches that utilize pessimism or conservatism to tackle this problem, in this paper, we formulate offline data-driven decision-making as domain adaptation, where the goal is to make accurate predictions for the value of optimized decisions ("target domain"), when training only on the dataset ("source domain"). This perspective leads to invariant objective models (IOM), our approach for addressing distributional shift by enforcing invariance between the learned representations of the training dataset and optimized decisions. In IOM, if the optimized decisions are too different from the training dataset, the representation will be forced to lose much of the information that distinguishes good designs from bad ones, making all choices seem mediocre. Critically, when the optimizer is aware of this representational tradeoff, it should choose not to stray too far from the training distribution, leading to a natural trade-off between distributional shift and learning performance.


翻译:离线数据驱动决策的目标是整合决定,优化黑盒工具功能,使用先前收集的静态数据集,优化黑盒工具功能,不进行积极互动。 这些问题以多种形式出现: 离线强化学习(RL),我们必须提出优化长期奖励的行动, 记录数据中的土匪, 目标是确定正确的手臂, 离线模型优化(MBO)问题, 我们必须找到最佳设计, 只能提供静态数据集。 所有这些环境中的一个关键挑战是分布式转变: 当我们优化输入从离线数据培训的模型时, 很容易产生出一个错误的分布( OOOD) 。 与以前使用悲观或保守主义来解决这一问题的方法相比, 在本文件中, 我们制定离线数据驱动的决策作为域适应, 目标是准确预测优化决策的价值( “ 目标域 ” ) 。 当我们只进行数据集培训时( “ 源代码域 ” ), 很容易产生一个错误的分布式( OOOD) 输入出一个错误的输出( OOD) 输入( OOD) 输入一个错误的输入, 输入错误的配置决定, 当我们进行 数据分析时, 数据分析时, 错误的表达式分析时, 当我们的数据分析时, 学会会变得太偏差, 改变,, 改变 改变 改变, 改变, 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 方向 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 方向 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变

0
下载
关闭预览

相关内容

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
ACM MM 2022 Call for Papers
CCF多媒体专委会
5+阅读 · 2022年3月29日
AIART 2022 Call for Papers
CCF多媒体专委会
1+阅读 · 2022年2月13日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
国家自然科学基金
15+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年1月18日
Arxiv
68+阅读 · 2022年9月7日
VIP会员
相关资讯
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
ACM MM 2022 Call for Papers
CCF多媒体专委会
5+阅读 · 2022年3月29日
AIART 2022 Call for Papers
CCF多媒体专委会
1+阅读 · 2022年2月13日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
相关基金
国家自然科学基金
15+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员