强化学习(RL)方法的主要关注点之一是如何将在模拟环境中学到的策略转移到现实环境中,同时获得相似的行为和性能(即模拟到现实的可转移性),这一点在机器人控制器中尤为重要[1]。在过去的几年里,为了缩小模拟世界与现实世界之间的差距,实现更有效的策略转移,人们已经跟踪了多个研究方向。领域随机化是学习迁移中应用最广泛的方法之一,它将模型暴露在各种条件下,使模型对这些方面的建模误差具有鲁棒性。随机化被认为是实现从模拟到真实转移和一般稳健策略的关键[2]。另一种常用的方法是系统识别,它使用具有精确物理和动态系统数学模型的高保真环境。不过,系统识别的缺点是计算量大,因此需要更多时间进行训练。其他相关方法有零点转移法和域适应法 [3]。

大多数关于 RL 的研究都集中在使用端到端方法的低级控制器上,其中 RL 网络将机载传感器提供的原始信息作为输入,并将应用于执行器的连续控制动作作为输出 [4]。然而,这种方法有两个主要局限性:(i) 它对平台的配置有很强的依赖性,例如,与传感器提供的信息及其质量有关,或与推进器等执行器的数量及其配置有关;(ii) 模拟到现实的传输差距更难缩小,因为经过训练的策略会受到机器人平台动态的强烈影响。例如,在文献[5]中,作者在真实飞行器中使用了第二个训练过程,学习过程继续在线进行。在文献[6]中,控制器需要进行额外的调整,以弥补模拟与真实世界之间的差异,但即便如此,现场结果仍显示出较低的性能。

在本研究中,我们介绍了一种平台便携式深度强化学习方法,该方法已被用作自主车辆定位水下物体的路径规划系统,如图 1 所示。我们设计了一个高级控制系统,以减少上述问题,并具有强大的模拟到实际的传输能力。此外,我们的方法易于配置,可在不同平台和不同条件下部署。例如,训练有素的智能体已成功部署在两种不同的飞行器上: (i) 液体机器人公司(Liquid Robotics,美国)的自主水面飞行器(ASV)"波浪滑翔机";以及 (ii) IQUA 机器人公司(IQUA Robotics,西班牙)的自主水下飞行器(AUV)"Sparus II"。测试在加利福尼亚州蒙特雷湾和西班牙加泰罗尼亚 Sant Feliu de Guıxols 港口进行。在这两种情况下,飞行器都使用了仅测距的目标跟踪方法来定位锚定的应答器[7]。

图 1:制导、导航和控制系统,以及与制导相关的一些主要研究方向。用粗体字表示详细描述的方面。

成为VIP会员查看完整内容
24

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《基础模型在现实世界机器人应用》综述
专知会员服务
52+阅读 · 2月11日
《基于开源软件强化学习的计算机生成兵力》
专知会员服务
65+阅读 · 1月21日
《用于空战机动的分层多智能体强化学习》
专知会员服务
57+阅读 · 2023年10月5日
《基于超视距空战模拟的有效导弹发射监督机器学习》
专知会员服务
40+阅读 · 2023年7月10日
《基于强化学习开发战斗行为》美国海军研究生院
专知会员服务
90+阅读 · 2022年6月27日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
30+阅读 · 2022年7月13日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
157+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
399+阅读 · 2023年3月31日
Arxiv
66+阅读 · 2023年3月26日
Arxiv
139+阅读 · 2023年3月24日
Arxiv
20+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员