Natural agents can effectively learn from multiple data sources that differ in size, quality, and types of measurements. We study this heterogeneity in the context of offline reinforcement learning (RL) by introducing a new, practically motivated semi-supervised setting. Here, an agent has access to two sets of trajectories: labelled trajectories containing state, action, reward triplets at every timestep, along with unlabelled trajectories that contain only state and reward information. For this setting, we develop a simple meta-algorithmic pipeline that learns an inverse-dynamics model on the labelled data to obtain proxy-labels for the unlabelled data, followed by the use of any offline RL algorithm on the true and proxy-labelled trajectories. Empirically, we find this simple pipeline to be highly successful -- on several D4RL benchmarks \cite{fu2020d4rl}, certain offline RL algorithms can match the performance of variants trained on a fully labeled dataset even when we label only 10\% trajectories from the low return regime. Finally, we perform a large-scale controlled empirical study investigating the interplay of data-centric properties of the labelled and unlabelled datasets, with algorithmic design choices (e.g., inverse dynamics, offline RL algorithm) to identify general trends and best practices for training RL agents on semi-supervised offline datasets.
翻译:自然物剂可以有效地从不同大小、 质量和测量类型不同的多种数据源中学习。 我们通过引入一个新的、 实际驱动的半监督设置来研究离线强化学习( RL) 背景下的这种异质性。 在这里, 一种物剂可以使用两套轨迹: 贴标签的轨迹, 包含状态、 动作、 奖励三重轨迹, 以及只包含状态、 质量和奖赏信息的无标签的轨迹。 对于这个设置, 我们开发了一个简单的元升级管道, 在贴标签的数据中学习反动动力模型, 以获得无标签数据的代理标签。 之后, 一个物剂可以在真实和代名标签的轨迹上使用任何离线的 RL 运算算法 。 我们发现这个简单的管道非常成功 -- 在几个 D4RL 基准 \ citefu20d4r} 上, 某些离线的 RL 运算方法可以匹配在完全标签数据设置上训练的变异体的性模型的性模型的性, 即使我们只贴标签上 10 和高等级的变数 的变数 基数据分析 。 最后, 我们进行一个控制性 的 的轨迹 数据分析 的轨迹 的 的 的 上 的 的 的 的 的 上 的 的 的 的 的 的 上 的 的 的 的 的 的 的 的 的 的 的 基压 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 和 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 基值 的 的 的 的 的 的 的 的 的 的 的 的 的 和 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的