The goal in offline data-driven decision-making is synthesize decisions that optimize a black-box utility function, using a previously-collected static dataset, with no active interaction. These problems appear in many forms: offline reinforcement learning (RL), where we must produce actions that optimize the long-term reward, bandits from logged data, where the goal is to determine the correct arm, and offline model-based optimization (MBO) problems, where we must find the optimal design provided access to only a static dataset. A key challenge in all these settings is distributional shift: when we optimize with respect to the input into a model trained from offline data, it is easy to produce an out-of-distribution (OOD) input that appears erroneously good. In contrast to prior approaches that utilize pessimism or conservatism to tackle this problem, in this paper, we formulate offline data-driven decision-making as domain adaptation, where the goal is to make accurate predictions for the value of optimized decisions ("target domain"), when training only on the dataset ("source domain"). This perspective leads to invariant objective models (IOM), our approach for addressing distributional shift by enforcing invariance between the learned representations of the training dataset and optimized decisions. In IOM, if the optimized decisions are too different from the training dataset, the representation will be forced to lose much of the information that distinguishes good designs from bad ones, making all choices seem mediocre. Critically, when the optimizer is aware of this representational tradeoff, it should choose not to stray too far from the training distribution, leading to a natural trade-off between distributional shift and learning performance.
翻译:离线数据驱动决策的目标是整合决定,优化黑盒工具功能,使用先前收集的静态数据集,优化黑盒工具功能,不进行积极互动。 这些问题以多种形式出现: 离线强化学习(RL),我们必须提出优化长期奖励的行动, 记录数据中的土匪, 目标是确定正确的手臂, 离线模型优化(MBO)问题, 我们必须找到最佳设计, 只能提供静态数据集。 所有这些环境中的一个关键挑战是分布式转变: 当我们优化输入从离线数据培训的模型时, 很容易产生出一个错误的分布( OOOD) 。 与以前使用悲观或保守主义来解决这一问题的方法相比, 在本文件中, 我们制定离线数据驱动的决策作为域适应, 目标是准确预测优化决策的价值( “ 目标域 ” ) 。 当我们只进行数据集培训时( “ 源代码域 ” ), 很容易产生一个错误的分布式( OOOD) 输入出一个错误的输出( OOD) 输入( OOD) 输入一个错误的输入, 输入错误的配置决定, 当我们进行 数据分析时, 数据分析时, 错误的表达式分析时, 当我们的数据分析时, 学会会变得太偏差, 改变,, 改变 改变 改变, 改变, 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 方向 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 方向 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变 改变