在这篇论文中,我们研究了深度强化学习中的对称性和结构。我们将论文分为两部分。在第一部分,我们探讨如何在强化学习中利用对称性的知识。在第二部分,我们提出了一些方法,用于学习智能体的环境和状态的结构。我们提出了MDP 同态网络,这是一种在 MDP 的联合状态-动作空间下对称性下是等变的神经网络。由于等变性,我们发现与非等变的基线相比,数据效率得到了提高。我们提出了多智能体MDP 同态网络,一类网络,允许使用仅局部信息的分布式执行,但能够在合作多智能体系统的联合状态-动作空间的全局对称性之间分享经验。我们显示全局等变性比对称协调问题的非等变分布式网络的数据效率更高。我们提出了 PRAE。PRAE 利用动作等变性进行强化学习中的表示学习。动作下的等变性表明输入空间中的转换被潜在空间中的等效转换所镜像,而映射和转换函数也应该交换。我们证明,在某些假设下,学到的映射是一个 MDP 同态,并且通过实验证明该方法是数据高效的,易于训练,能很好地推广到具有相同环境动力学的新目标状态和实例。我们提出了 C-SWMs,它使用对比编码和图神经网络转换函数,从像素中找到状态的面向对象的表示。我们显示与使用解码器、非结构化转换或非结构化表示相比,在多步预测和泛化到未见环境配置方面有所改善。
对称性和结构无处不在。当我们行走时,右腿的运动镜像了左腿的运动。当分子旋转时,它们的分子性质不变。当我们导航到一个目的地时,我们会考虑不同路段的连通性。当我们交谈时,我们可以将单词串联起来,形成完全新的句子。在日常生活中,我们使用关于任务的对称性和结构的信息来指导我们的决策制定。
在人工智能中,对称性和结构也无处不在。考虑一下在运动过程中镜像左右腿运动的机器人,自动化芯片设计,追踪野生动物运动的无人机群,玩 Atari Pong 的机器人,其中屏幕的上下部分是彼此的反射,分子设计,计算机玩家在围棋游戏中考虑旋转的棋盘状态,以及自动驾驶车辆从荷兰的右侧道路切换到英国的左侧道路。这些都是 AI 中展示了某种对称性或结构的任务的例子。利用固有对称性和结构的知识是构建可扩展系统的重要一步。
强化学习是人工智能的一个基础研究领域,它鼓励智能体从正反馈信号中学习,我们称这为奖励。通过试错,智能体可以学会将情境、动作和反馈关联起来,从而改善其决策。例如,我们可以给一个机器人正向奖励以鼓励它快速行走,而给它负向奖励以防止它跌倒。同样,我们可以给计算机玩家正向奖励以鼓励它赢得比赛,负向奖励以防止输掉比赛,或者给一个提出特别高效的芯片设计的智能体正向奖励。使用强化学习领域的概念,我们可以将上述示例正式化,以提出导致智能体做出良好决策的方法。在深度强化学习中,智能体使用神经网络来决定采取哪个动作,而神经网络会根据收到的奖励信号适应任务。然而,即使是那些远远不及人类能力的智能任务,对于人工决策者来说也可能会遇到问题。考虑任何一个在现实世界中运作的基于视觉的控制系统。智能体接收到摄像头输入作为观测,然后必须学习采取最佳动作。可能的观测数量是极其庞大的,而智能体不太可能遇到两个完全相同的状态。因此,我们希望智能体能够重用先前状态的经验,以便在具有相似特征的未见状态中做出良好的决策。例如,在决定如何移动左腿时,智能体应该模仿它学到的移动右腿的动作。
上述示例只是强化学习问题中对称性和结构出现的几个案例。这可以通过考虑在一个状态中采取一个动作是否等同于在另一个状态中采取另一个动作来形式化。在这篇论文中,我们将研究当我们知道对称性和结构时如何在强化学习中使用它,以及如果不知道时如何提取它。智能体不应该学习已知的东西。知识是由系统设计者作为先验知识提供的,还是通过智能体自身的泛化获得的,应取决于问题的上下文。通过适当地重复使用知识,我们可以减少智能体需要与世界互动的次数,这是扩展到真实世界设置的重要部分。在这篇论文中,我们将特别关注强化学习中的对称性和结构。