【学界】MIT提出使用「深度强化学习」帮助智能体在运动中做出「动作决策」

2018 年 5 月 18 日 GAN生成式对抗网络

来源：雷克世界

导语：一般来说，在行人间行进的智能体在进行导航时，需要能够对当前的环境做出相应的观察，以避免碰撞，进行下一步动作。在本文中，麻省理工学院航空航天控制实验室的Michael Everett和 Jonathan P. How教授，以及Oculus Research的Yu Fan Chen教授，提出一种新型避免碰撞的算法—GA3C-CADRL，通过深度强化学习进行模拟训练，而不需要智能体对其他智能体的动态行为有所了解，并通过在网络的输入端使用LSTM，使得算法能够依据对相邻智能体的观察结果来做出决策，进而选择下一个动作。

一般来说，在行人之间进行导航的机器人是使用避免碰撞算法（collision avoidance algorithms）来实现安全且高效的操作的。在最近的一些研究中，提出了将深度强化学习算法作为对复杂的交互和协作进行建模的框架。然而，当环境中智能体的数量增加时，该操作的实现是通过对其他智能体偏离现实的行为的关键性假设来实现的。这项研究对我们以往的研究方法进行了扩展，开发出一种算法，该算法可以在各种类型的动态智能体中学习避免碰撞，而不必假设它们遵循任何特定的行为规则。此外，这项研究还引入了一种使用长短期记忆网络（LSTM）的策略，该策略使得算法能够使用任意数量的其他智能体的观测值，而不是像以往那些需要具有固定观测值大小的方法。当智能体的数量增加时，我们所提出的算法在模拟中的性能表现要优于我们以往的方法，并且该算法是在一个没有使用3D激光雷达的、以人类行走速度行驶的全自动机器车辆上运行得以证明的。

可以这样说，在行人之间进行导航的机器人将能够观察到许多人类行为，例如合作或遗忘。行人不仅能够移动障碍物，而且还可以不断地做出机器人只能部分观察的决策。这项研究解决了在存在其他决策智能体的世界中运行的智能体所面对的避免碰撞问题，特别是考虑到机器人—行人领域。分散式避免碰撞算法的一个基本问题是：智能体所知道和假定的其他智能体的信念状态、策略和意图是什么？如果没有智能体之间的沟通，这些属性不是可以直接进行衡量的，但它们可以通过推理得到。

图1：机器人在行人之间进行导航。机器人使用机载传感器来感知环境并运行避免碰撞算法以保持安全和有效的操作。

智能体对其他智能体行为的假设将会影响其决定采取何种行动。在最简单的情况下，智能体假设其他智能体是静态的，并且足够快地进行重新规划以避免碰撞。另一种方法是，假定其他智能体是动态障碍，但速度保持不变。此外，智能体可以假定其智能体是决策制定者，其中，它们的速度可能会随时根据已知或未知的策略（决策规则）进行改变。即使机器人知道行人的决策规则，但因为其他智能体的意图是未知的（例如目标目的地），所以也不可能完全预测其他非沟通的决策智能体（例如行人）将如何响应智能体所作出的决策。因此，与其试图明确预测其他智能体的行为，最近的研究方法已经使用强化学习（RL）来对智能体之间复杂的相互作用和协作进行建模。

图2：LSTM展开以显示每个输入。在每个决策步骤中，智能体将一个可观察的状态向量，即每个附近的智能体，依次送入LSTM单元。LSTM单元将相关信息存储在隐藏状态中，hi。最终隐藏状态hn，将其他智能体的整个状态编码成固定长度的向量，然后馈送到网络的前馈部分。智能体的顺序是通过减少到自我智能体的距离来进行排序的，以便最近的智能体对hn有近因效应（recent effect）。

虽然基于学习的方法已被证明在这个领域内具有良好的性能表现，但现有方法对其他智能体，如同质性或短时间尺度上的特定运动模型做了细微的假设。在这项研究中，我们对以往的研究方法进行了扩展以学习避免碰撞策略，而不假设其他智能体遵循任何特定的行为模型。

图3：网络架构。附近智能体的的可观察状态被按顺序馈送到LSTM中。

避免碰撞的另一项关键挑战是环境中其他智能体的数量有所不同，而在这一领域中使用的前馈神经网络需要固定维度的输入。现有的策略明确了网络可观察到的智能体的最大数量，或使用原始传感器数据作为输入。本次研究采用自然语言处理的思想，通过在网络输入端使用长短期记忆网路（LSTM）单元，将现实世界中不同的大小状态（例如：其他智能体的位置）编码成固定长度的向量。这使得该算法可以根据机器人周围任意数量的智能体，来做出相应的决策。

本次研究的主要贡献在于：

•我们对避免碰撞的算法做了扩展，使其不必假定其他智能体的行为。

•我们提出了一种策略，使得算法能够利用任意数量智能体的观察结果。

•我们通过模拟结果证明了新框架的优点。

•在不使用3D激光雷达的情况下，通过在行人间运行的机器人进行了算法演示。

目前，该软件已经作为开源ROS软件包cadrl_ros发布。

图4：机器人硬件。这款紧凑、低成本（<1000美元）的感测套件使用单个2D激光雷达和3个Intel RealSense R200摄像头。总传感器和计算组件的高度小于3英寸，为货物留出足够的空间。

本次研究提出了一种避免碰撞的算法—GA3C-CADRL，该算法仅通过深度强化学习进行模拟训练，而不需要对其他智能体的动态有所了解。此外，我们还提出了一种策略，通过在网络的输入端使用LSTM，使得算法能够依据对任意数量的相邻智能体的观察结果来做出决策进而选择下一个动作。随着环境中智能体数量的增加，新方法的性能将优于现有方法。研究结果表明，该算法能够在不被明确执行（explicity enforced）的情况下学习问题结构，并支持使用LSTM将大量智能体在现实世界中的状态编码为固定长度的表征。新算法在一个小型真实机器人上成功运行，该机器人在不使用3D激光雷达的情况下，可以在保持人类行走速度的同时，在行人之间进行导航。今后的研究将利用本文全新的、更为通用的公式，借助智能体的行为选择，更为明确地研究信号意图所带来的影响。

原文：https://arxiv.org/pdf/1805.01956.pdf

高质量延伸阅读

☞【学界】OpenPV：中科院研究人员建立开源的平行视觉研究平台

☞【征稿通知】IEEE IV 2018“智能车辆中的平行视觉”研讨会

☞【学界】基于平行视觉的特定场景下行人检测

☞【征稿】神经计算专刊Virtual Images for Visual Artificial Intelligence

☞【学界】ParallelEye：面向交通视觉研究构建的大规模虚拟图像集

☞【CFP】Virtual Images for Visual Artificial Intelligence

☞【最详尽的GAN介绍】王飞跃等：生成式对抗网络 GAN 的研究进展与展望

☞【智能自动化学科前沿讲习班第1期】王飞跃教授：生成式对抗网络GAN的研究进展与展望

☞【智能自动化学科前沿讲习班第1期】王坤峰副研究员：GAN与平行视觉

☞【重磅】平行将成为一种常态：从SimGAN获得CVPR 2017最佳论文奖说起