加拿大国防研究与发展部(DRDC)已经确定需要为下车士兵-机器人团队提供直观、安全的人机交互(HRI)方法。本文介绍了一个多模态的HRI平台,结合语音和手势输入来指挥一个无人地面车辆(UGV)。使用Mycroft,一个开源的数字助理,来促进语音输入工具链,我们将命令翻译成机器人操作系统(ROS)环境,以控制Argo Atlas J8 无人地面车辆。利用MediaPipe的手部检测来识别关键的手部动作,我们实现了手势识别作为一种替代的输入形式。通过这种架构,我们成功地开发了一套语音和手势命令,以操作Argo Atlas J8,调用现有的自主功能,并增加了新的、直观的功能,如口头的路线建设。为了简化人与机器人的交互,我们增加了关键的架构修改,如 "推送 "功能和类似命令的上下文处理。我们在反馈和闲置时间方面进一步研究了人机交互识别系统。本文最后分析了我们系统的开源构建模块的优点,并对未来的实施提出了建议。这个系统将被用于未来的士兵试验,以推动未来人类机器人合作研究方向。
在未来的作战环境中,预计加拿大武装部队(CAF)士兵将使用无人驾驶车辆来协助各种行动。然而,传统的基于平板电脑的HRI方法可能会转移操作者的注意力,使他们处于弱势。因此,DRDC希望研究其他的HRI方法,使士兵能够以手的方式与无人车互动。此外,直观的控制可以最大限度地减少熟悉新系统及其复杂性的负担,这对于必须在作为士兵-机器人团队的一部分工作时专注于作战任务的下车士兵来说尤其重要。基于语音和手势的控制以前已经被证明是控制自主系统的有效手段。在这份报告中,我们介绍了在人类系统性能项目(HSP)下开发的一个混合语音/手势人机交互识别系统。该系统与一个代用的UGV集成,该UGV将成为未来下车士兵测试的对象。这些试验的结果将推动未来的研究,并协助CAF,特别是加拿大陆军,制定对未来UGV系统的要求。
随着无人驾驶地面车辆(UGVs)的普及,对直观的、强大的人机交互(HRI)形式的需求也在增加。加拿大国防研究与发展部(DRDC)已经确定了一个成功的HRI平台的三个关键因素:直观的控制、用户态势感知(SA)和安全操作。直观的控制需要一个直接的命令集和一个与UGV沟通的自然方法,这样具有非技术背景的用户可以很容易地与车辆互动。一个理想的系统通过提供信息,同时限制阻碍用户对环境线索作出反应的分心,从而最大限度地提高安全系数。智能安全防护装置在任何HRI系统中也是必不可少的,以确保用户和周围基础设施的安全。
自从早期使用语音控制UGV[1]以来,数字语音助手,如亚马逊的Alexa和苹果的Siri,基于互联网的系统已经取得了令人印象深刻的进展,并成为日常人机交互的主力军。现在,随着准确性和复杂性的提高,语音控制可以与传统形式的HRI(如平板电脑界面和遥控器)竞争,甚至可以弥补。遥控器提供了一套有限的命令。平板电脑界面虽然提供了广泛的控制,但由于将用户的注意力集中在屏幕上,因此限制了对情况的了解。另一方面,语音控制和反馈提供了丰富的命令集,提高了用户的环态势感知,同时限制了分心。因此,语音控制为HRI提供了一种“抬头、动手”的方法,从而减轻了传统车辆控制方法所带来的担忧。
虽然语音控制在野外环境中具有明显的优势,但大风和嘈杂的环境可能会削弱音频命令的准确性。此外,对无声操作的需求可能使语音无法在操作环境中使用。手势识别提供了另一种自然交流方法,它很适合机器人远程操作,但仍然不受嘈杂环境的影响。此前,陆军研究实验室的研究人员证明,基于手势的命令可以用来向大型UGV发出简单的命令[2]。作者注意到各种手势方法的局限性,其中包括传感器的视线、恶劣天气或夜间作业的能见度、需要明确的通信,以及在作业期间增强的视觉特征。由于不同的模式之间总是存在着权衡,因此最好是使用一个多模态的界面,将语音和手势输入结合起来。这使用户能够利用每种方法的优势来完成手头的任务,并有可能实现灵活、可靠和直观的人机交互识别。以前的语音/手势组合控制的尝试,如士兵交互设备[3],表明用户在指挥UGV时更喜欢语音而不是手势,但如前所述,各种因素可能会降低语音的有效性。在某些情况下,可以依靠一种或两种方法来提高系统的稳健性。此方法可以为语音命令提供额外的上下文(反之亦然),而且多种输入方法可以同时使用,以提高命令检测的稳健性。
本文探讨了在DRDC-苏菲尔德研究中心开发的多模态HRI平台的方法和实现。HRI系统利用开源数字助理Mycroft,结合机器人操作系统(ROS)来指挥Argo Atlas J8 UGV。为了评估系统结构的有效性,我们创建了一个完整的命令套件,调用Argo Atlas J8上现有的自主功能,并在此基础上增加了新的命令,如通过语音建立路线。
本文的结构如下。第2节快速介绍了这里设计的解决方案所使用的主要工具背景。第3节概述了系统结构并讨论了语音命令子集的开发。第4节讨论了HRI系统的主要成果。第5节批判性地分析了该系统及其开源构件的成功和缺点,第6节指出了未来人机交互识别研究的兴趣领域。
这里开发的系统依赖于开源机器人软件的使用。主要是ROS、Mycroft开源语音助手和MediaPipe。
作为最初的概念验证,开始的目标是创建语音命令,以调用Argo Atlas J8上的一些现成的自主功能。这些功能包括切换车辆控制模式和参与补给行动(路径记录和回放)。在开发过程中,结构被逐渐调整,以促进更顺畅的互动。手势识别被添加为一种替代的输入形式。此外,命令集被扩展到现有的UGV命令之外,包括口头路线建设、视频捕捉等。本节的其余部分将详细介绍硬件设置和系统设计。
图1:UGV硬件设置:1.Argo Atlas J8 UGV;2. 差分GPS;3. ZED2立体相机;4. System76笔记本电脑