Offline reinforcement learning leverages large datasets to train policies without interactions with the environment. The learned policies may then be deployed in real-world settings where interactions are costly or dangerous. Current algorithms over-fit to the training dataset and as a consequence perform poorly when deployed to out-of-distribution generalizations of the environment. We aim to address these limitations by learning a Koopman latent representation which allows us to infer symmetries of the system's underlying dynamic. The latter is then utilized to extend the otherwise static offline dataset during training; this constitutes a novel data augmentation framework which reflects the system's dynamic and is thus to be interpreted as an exploration of the environments phase space. To obtain the symmetries we employ Koopman theory in which nonlinear dynamics are represented in terms of a linear operator acting on the space of measurement functions of the system and thus symmetries of the dynamics may be inferred directly. We provide novel theoretical results on the existence and nature of symmetries relevant for control systems such as reinforcement learning settings. Moreover, we empirically evaluate our method on several benchmark offline reinforcement learning tasks and datasets including D4RL, Metaworld and Robosuite and find that by using our framework we consistently improve the state-of-the-art of model-free Q-learning methods.
翻译:离线强化学习利用大型数据集,在不与环境互动的情况下,培训政策,不与环境互动。然后,在现实世界中,可以部署学习的政策,在不与环境互动费用昂贵或危险的情况下,进行新的数据增强框架,反映系统的动态,从而被解释为环境阶段空间的探索。目前的算法与培训数据集格格不入,因此,在将环境布局布局布局外时,这种算法效果不佳。我们的目标是通过学习Koopman潜在代表来消除这些局限性,从而使我们能够推断系统基本动态的对称性,从而可以直接推断出系统基本动态的对称性。然后,后者被用来扩大培训期间的静态离线数据集;这是一个新的数据增强框架,反映系统的动态,从而被解释为环境阶段空间的探索。为了获得对称性,我们采用了非线性动态在系统测量功能空间上代表线性操作者的对称,从而可以直接推断出系统动态的对称性。我们提供了关于控制系统相关对称性存在和性质的新理论结果,例如强化学习环境。此外,我们用一些基准离线式的离线强化模型评估了我们的系统强化模型的方法,我们通过不断学习模型和不断的模型,我们找到了模型的模型,我们找到了不断的改进的模型和模型的模型, 改进了元化的模型,我们找到了的模型的模型和模型的模型的模型,我们找到了的模型的改进了模型的模型的改进了模型的模型的模型的模型,我们的模型,我们的模型的模型的模型和模型,我们的模型,我们找到了的模型的模型的模型的模型,我们的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的改进了我们的模型的模型的模型的改进了我们的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的改进了我们的改进了我们的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的改进了我们的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的模型的