深度强化学习 (DRL) 是一种使用深度学习技术扩展传统强化学习方法的一种机器学习方法。 传统强化学习方法的主要任务是使得主体根据从环境中获得的奖赏能够学习到最大化奖赏的行为。然而,传统无模型强化学习方法需要使用函数逼近技术使得主体能够学习出值函数或者策略。在这种情况下,深度学习强大的函数逼近能力自然成为了替代人工指定特征的最好手段并为性能更好的端到端学习的实现提供了可能。

VIP内容

作为人类,我们的目标和环境在我们的一生中不断变化,这是基于我们的经验、行动以及内在和外在的驱动力。相反,典型的强化学习问题设置考虑的决策过程是跨情景的静态过程。我们能不能开发一种强化学习算法来应对前者中更现实的问题设置的持续变化?虽然策略上的算法(如策略梯度)原则上可以扩展到非平稳设置,但更有效的非策略算法(在学习时回放过去的经验)却不能这么说。在这项工作中,我们形式化了这个问题设置,并借鉴了在线学习和概率推理文献的思想,得出了一个非策略RL算法,可以推理和处理这种终身非平稳性。我们的方法利用潜在变量模型从当前和过去的经验中学习环境的表示,并使用该表示执行非策略RL。我们进一步介绍了几个显示终生非平稳性的模拟环境,并根据经验发现,我们的方法大大优于那些不考虑环境变化的方法。

https://proceedings.mlr.press/v139/xie21c

成为VIP会员查看完整内容
0
6

最新论文

Deep reinforcement learning (RL) methods often require many trials before convergence, and no direct interpretability of trained policies is provided. In order to achieve fast convergence and interpretability for the policy in RL, we propose a novel RL method for text-based games with a recent neuro-symbolic framework called Logical Neural Network, which can learn symbolic and interpretable rules in their differentiable network. The method is first to extract first-order logical facts from text observation and external word meaning network (ConceptNet), then train a policy in the network with directly interpretable logical operators. Our experimental results show RL training with the proposed method converges significantly faster than other state-of-the-art neuro-symbolic methods in a TextWorld benchmark.

0
0
下载
预览
Top