本报告详细介绍了用于评估强化学习 RL 算法的系统、测试环境和结果,以确定它们在没有外部传感器帮助的情况下降低惯性导航系统 INS 位置误差漂移率的能力。创建了一个定制RL 环境来训练 RL 算法,以校正来自 INS 的原始惯性测量值,使得位置在被全球导航卫星系统 GNSS 校正后更接近 INS 位置。当 GNSS 辅助被移除时,RL 系统将继续校正惯性测量,因为它在 GNSS 辅助被移除之前接受过训练。 RL 系统中使用了多种 RL 算法,并根据其校正惯性测量的能力评估了它们的性能,以允许更准确的位置解决方案减少位置误差。还评估了算法对计算机资源的使用和实时操作的能力。本报告中描述的数据收集和评估表明,RL 系统可以帮助减少 INS 的位置误差,而无需借助 GNSS 等外部传感器。它还表明,某些 RL 算法比其他算法更适合此类系统。最后,这项研究确定了两种 RL 算法,它们将继续用于与这项工作相关的进一步测试。
通过强化训练改善漂移--惯性传感器(DIRT-I)项目的主要目标是通过使用强化学习(RL)或训练,在没有全球导航卫星系统(GNSS)的情况下延长惯性传感器的保持时间。在本文件中,GNSS和GPS(全球定位系统)这两个缩写词可以互换使用。其基本概念是用一个由GNSS辅助的惯性传感器来训练RL系统。这将允许RL系统在被GNSS辅助校正之前和之后学习惯性数据。一旦它被充分训练,GNSS辅助将被禁用,以模拟一个GNSS否认的环境,RL系统将提供对惯性数据的修正。然后,该惯性数据将被用来为用户提供一个位置解决方案。我们的想法是,RL系统将查看所有可能导致惯性传感器漂移的误差源的总和,并对它们进行修正,以便在没有GNSS的情况下提供一个精确的位置解决方案,这比没有RL系统的情况下通常是可能的。这个概念如图1所示。
由于RL系统是在惯性传感器上进行训练的,它在每次训练中都会创建自己的传感器及其噪声源的模型。这意味着RL系统可以与各种惯性传感器一起使用。由于误差源都是混在一起的,所以不管它们是线性还是非线性的,也不管它们是平台还是用户特定的噪声源。换句话说,一个惯性传感器可能有一些内置的东西来纠正会对性能产生不利影响的温度变化,但制造商对传感器将要使用的平台一无所知,所以没有办法纠正来自任何特定平台的误差源。这就是RL系统将能够提高性能的地方。在DIRT-I项目的第一年,重点是一个地面车辆和一个惯性导航系统(INS)。