IEEE/RSJ 智能机器人与系统国际会议(IROS)是全球规模最大、影响力最强的机器人研究会议之一。
IROS 成立于 1988 年,每年举办一次,为国际机器人研究界提供了一个探讨智能机器人和智能机器科技前沿的国际论坛。除了技术会议和多媒体报告外,IROS 会议还举办小组讨论、论坛、研讨会、教程、展览和技术参观等活动,以丰富参会人员的成果讨论。IROS 2020 已于 10 月 24 日在美国拉斯维加斯召开。受疫情影响,IROS 2020 全部改为线上的方式。此外,IROS 2020 还是全部免费的,注册后可以在线参加全部技术讲座、主题演讲、研讨会和竞赛,同时可以阅读 IROS 2020 的全部论文集。
本文重点对 IROS 2020 中 Industry 4.0 Session 的部分文章进行解读。相较于重点关注新材料的应用、末端触觉反馈中新传感器的应用、关节驱动器中新技术应用等技术专题,Industry 4.0 主要聚焦于机器人在工业领域中不同实用场景中的最新应用进展。
Industry 4.0 Session 下面还分有 8 个子会议,具体包括:
(1)用于自动化的计算机视觉(Computer Vision for Automation):重点讨论计算机视觉在自动化中的作用。其中包括指导三维模型的数据采集、抓取物体、装配物体、折叠可变形物体、测量表面粗糙度、对操纵动作进行分类以及使用新型传感技术提高性能等方面的工作。
(2)制造业和物流业(Manufacturing and Logistics):主要介绍在自动化制造和物流场景中提高精度、效率和安全性的新方法,具体包括在控制、机电一体化、感知和规划等方面的改进和创新。
(3)机器人计算(Robot Computation - Hardware, Software, Datasets):该部分有 4 篇主题各异的论文。其中一篇论文介绍了使用现代传感器的大规模 SLAM 数据集和详细的真值图像。其他三篇论文则重点讨论常见算法的并行化处理,目的是实现算法加速。其中,最后一篇论文介绍了一种新型的硬件架构,目的是减少多进程、多核系统的计算量,并在自动驾驶应用中使用激光雷达定位进行了演示。
(4)效果评估和基准制定(Performance Evaluation and Benchmarking):重点讨论在不同的工业场景中机器人系统或装置应用的效果评估,具体包括人机交互应用场景、自动驾驶应用场景、微型飞行器定位场景、多智能体场景等。
(5)信任和可解释性(Trust and Explainability):介绍了评估人与机器人信任度和生成机器人解释的新方法和实验技术。这部分文章详细介绍了证明各种因素如何影响在线和物理环境中人与机器人互动的实验。
(6)模拟到真实(Sim-to-Real):介绍了 Sim-to-Real 迁移的新发展。具体包括:为接触传感构建更好的模拟器,用学习到的组件增强模拟器,使 Sim-to-Real 领域适应性更强,以及提出对 Sim-to-Real 迁移的形式化理解,同时还包括测量 Sim-to-Real 相关性的讨论。
(7)调度(Scheduling):介绍多智能体规划和调度方面的研究。
(8)机器人安全(Robot Safety):涵盖了与机器人安全相关的各种主题,包括在未检测到的故障情况下的定位、不确定环境下的路径规划、多车系统和控制等。
上述文章有国内外研究机构、大型企业研发中心关于机器人在工业场景中应用的介绍,也包括了一些研究机构、学校关于基础数据库构建的分析和讨论。目前,机器人已经在众多工业场景中应用,其有效性和良好的应用前景吸引了越来越多的研究人员和机构的关注。我们从中选择了三篇应用不同技术、解决不同工业场景问题的文章进行详细解读。
一、基于软触觉传感器的不确定性感知纹理分类与映射(Computer Vision for Automation)
我们研究和制造机器人,其中一个重要的目的是让机器人去替人类完成单调、肮脏和危险的工作,高分辨率软触摸传感器就是影响这一类机器人制造水平的关键因素之一。在航空航天工业、汽车工业和木工技术中,打磨(Sanding)是影响制造技术和维护水平的关键。其中一些组件可能需要在成型后、涂漆前或抛光时进行打磨处理。
对于人类来说,打磨是一项存在危险的任务。打磨过程中会产生有害于呼吸的颗粒物,工具产生的振动也可能会导致关节和神经损伤。此外,完成这项工作的位置和姿态容易使人在工作过程中摔倒。而机器人自动化打磨的开发难点在于,由于
缺乏对表面粗糙度的反馈
,仅仅通过视觉观察表面,很难控制打磨物体的哪个部分,特别是在零件副本可能有变化、进行维修或在小批量生产环境中时这种问题就更加严重了。人类在对表面粗糙度进行判断时,是使用他们高度发达的触觉系统帮助他们找到组件中需要进一步处理的区域的,显然,机器人还不具备这种能力。
目前,在制造业的实际处理场景中,一般使用固定的基础设备设施或现场检查来获取表面粗糙度反馈。然而对于一些产品来说,固定传感器的应用存在很多问题。例如,飞机部件太大,无法安装在固定式激光轮廓仪阵列中。再比如,改进椅子的制作过程需要将固定传感器部署进入狭小的空间。对于自动打磨的所有这些应用,对空间映射表面粗糙度的感知能力是关键,这种能力需要保证轻量级、快速,并与定位数据集成,才能成功应用于感知控制反馈回路。
为了解决自适应打磨系统的感知问题,本文提出了一个由 Gelsight 感知输入、用于学习表面粗糙度表示的卷积神经网络(CNN)和用于触摸表面的柔性机器人执行器组成的感知系统。作者开发和训练了两个贝叶斯 CNN 模型,用于基于 Gelsight 图像的打磨木材表面粗糙度分类和比较。此外,还提出了一种新的不确定性感知预测算法,利用贝叶斯不确定性估计进行推理。完整的系统结构如图 1。
GelSight Mobile 是「便携式无损弹性 3D 成像系统」,可精确观察和测量任何表面的 3D 微观结构。它采用 MIT 发明的接触式弹性传感器技术,可用于任何坚硬的表面检测,包括反光的金属或玻璃。GelSight 提供精细和快速的表面测量方案,适用于航空航天、汽车等行业的产品表面 3D 检测。
图 1. 大面积纹理预测。本文系统利用 Gelsight 光学触控感测来学习表面纹理的复杂表示,并通过认知不确定性建模,该算法可以提供反馈以通知自动化机器人打磨模块
自适应机器人打磨系统大致由两部分组成:(1)执行打磨处理的机器人打磨机(a robotic sander);(2)对板上区域的粗糙度进行分类的感知系统。感知系统的主要作用是感知到板子的存在,并向机器人打磨机提供反馈,以通知应该在哪个位置继续打磨,以及继续打磨的程度。整个过程闭环处理,以实现自适应打磨。在这篇论文中,作者专注于第二部分:使用机器学习演算方法完成感知系统的设计,其中的机器学习演算方法是直接从软触觉传感器的输入中训练得到的。
-
绝对分类(Absolute classification)。给定一个单一的 Gelsight 扫描作为输入,训练网络在静止砂砾层上输出一个离散的概率分布。考虑三个均匀分布的砂砾层:60、120、180(图 2A)。
-
相对分类(Relative classification)。以两次 Gelsight 扫描为输入,训练网络输出砂砾层的相对差异值。同样,考虑一个离散的输出空间,其中一次扫描中的砂砾可以等于、小于或大于另一个扫描中的砂砾。
作者将解决感知问题的机器学习算法定义如下:通过 Gelsight 获得观测值 X 及对应的表面粗糙程度标签 y,目的是学习映射函数 f,满足如下针对目标函数 L 的优化约束:
本文使用从松木板中采集的 Gelsight 扫描结果作为实验数据库。使用不同等级的砂纸砂砾(60、120 或 180 砂砾)将每块板分别打磨至三种砂砾级别中的一种。用于训练的数据是通过人工操作 Gelsight 扫描得到的,而用于测试的数据则是使用软机器人控制系统得到的。系统由一个运动跟踪的 Gelsight 传感器组成,该传感器连接在通用机器人(Universal Robotics,UR)5 机械臂的软机器人末端执行器上。利用带有伺服控制的手动剪切辅助装置(Handed Shearing Auxetics,HSAs)作为软机器人末端执行器,当触觉传感器接触到表面时,它可以保证额外的柔顺性。为了满足训练的要求,对收集到的扫描数据进行了增强处理,如图 2B 所示。
图 2. 样本数据和增强数据样本。随机抽样扫描(A)三种不同的表面材料,从粗(左)到细(右)。(B)为实现平移、旋转和色调不变性,增强处理后的数据样本
贝叶斯深度神经网络将概率分布置于网络中的每个权重上,因而使网络具有随机性,能够捕捉不确定性。利用后验概率 q(W)的一个 Dropout 近似,得到预测分布如下:
利用该预测不确定性估计公式,本文提出了两个不确定性感知模型,旨在学习解决绝对和相对纹理分类任务。
由于 Gelsight 纹理扫描的结果存储为 2D RGB 图像,本文模型利用卷积层来学习 2D 视觉特征。针对绝对和相对纹理分类任务的两种模型的基本框架可以大致分为两部分:卷积特征提取器和学习预测器。特征提取器将单个 Gelsight 扫描作为输入,并返回该扫描的学习特征向量表示,而预测器则将特征向量作为输入,并使用最终的 softmax 激活层输出离散概率分布:
最后,端到端训练预测和目标分布之间的交叉熵损失函数:
在绝对纹理分类任务(图 3B)中,端到端模型将从单个扫描输入中学习到的特征输入到预测器模块中,预测器模块被训练来预测纹理的绝对粒度(60、120、180)。在相对纹理分类中,使用一个双输入头从两个扫描中同时学习特征,然后在输入预测模块之前将学习到的特征组合成一个单一的特征向量。由于最终目的是在两个特征提取器之间强制实现所学特征的一致性,所以作者在这两个头之间显式共享训练和测试期间的权重。
图 3. 模型结构。(A) 特征提取和预测模块,用于绝对(B)和相对(C)纹理分类的端到端处理过程
通过上述处理步骤,可以将不确定性估计与预测相融合,从而实现不确定性感知推理。这在软机器人领域中是极其重要的。在实际部署过程中,由于软机器人的传感器未完全按下,或者传感器的一部分离开目标兴趣区域等原因,不确定性感知推理系统的扫描结果会遇到较为严重的噪声问题。为了解决这一问题,作者引入一种在潜在噪声触觉扫描中获得可靠预测的算法,该算法基于每个子部分的不确定性将扫描子部分的预测组合起来。
给定一次扫描 X,通过在扫描上滑动一个 64x64 的滑动窗口将 X 分成 S 个子块,作者建议 S=25。可以手动定义一个不确定性阈值,丢弃掉低于该阈值的子块预测值。然而,在一个数据库上确定有效的阈值在其它数据库上可能无效。因此,作者提出了一种灵活的方法来满足所有子块的预测需求,同时考虑到它们的相关不确定性。将最终预测结果 Y^ 表示为所有子块预测结果的加权平均:
由上式,低不确定性(高精度)的预测在最终预测中的权重大,而高不确定性子块的权重较小。Algorithm 1 给出该算法在绝对纹理分类任务中的伪代码。对于相对分类任务,采用了一种类似的算法,其中一个头的输入按 Algorithm 1 方式进行处理,而第二个输入则保持不变,并将其视为基线扫描结果。
最后,作者将模型与使用 OptiTrack 定位传感器的高精度运动跟踪进行集成。因此,不确定性感知预测系统可以用来分类物体表面纹理,定位设置能够根据末端执行器的姿态在坐标空间中映射这些预测。Gelsight 传感器连接在 UR5 机械臂上的一个柔软的机器人末端执行器上。传感系统与定位信息的完全集成允许传感预测直接通知机器人打磨系统需要注意的位置。这种集成使得传感系统可以直接放置在一个更大的感知规划控制回路中,用于自动机械打磨任务。
为了与本文所提出的自动化系统进行比较,作者评估了人类在两个期望任务(绝对和相对纹理分类)上的表现。在评估人类完成任务的表现时,使用(1)Gelsight 扫描的图像(与系统中相同),(2)人类触觉。对于每一个测试,参与者都会接受一个简短的培训,直到他们有信心完成任务为止。测试阶段包括为每个任务随机选择 20 个测试样本。在所有测试完成之前,不会向参与者提供监督反馈。本研究共选择了 10 名参与者。
图 4 给出了本文提出的训练算法在绝对(A)和相对(B)纹理分类任务上的损失演化曲线。标准偏差蓝线表示实验结果的平均值。这些曲线显示的是验证集在看不见的 Gelsight 扫描上的准确度,而不在是以前看到的训练数据中的。为了进一步进行比较,作者还用触觉(紫色)和视觉 Gelsight 感知(橙色)来绘制性能水平线,以确定人类在这两项任务中的准确性。
图 4. 损失演变结果。绝对(A)和相对(B)模型(青色)与人类触摸(紫色)和通过 Gelsight 的人类视觉感知(橙色)的测试准确度比较
图 5A 显示了使用本文系统的 Gelsight 扫描的测试板和空间位置。每个点的颜色代表扫描位置的地面真实砂砾。使用具有不确定性感知权重的绝对分类器可以达到 85.3% 的纹理分类准确率。对于相对纹理分类,在每个扫描位置输入该位置的当前扫描以及已知砂砾的 “候选” 基线子块。这个候选子块可以直接从训练库中获取,也可以从一个单独的带标注的候选数据库中获取。模型能够预测当前扫描(未知砂砾)和另一个已知砂砾候选扫描之间的砂砾度。对比不同砂砾级别的几个候选数据,可以预测当前扫描的砂砾。图 5B 给出了添加更多候选样本的可视化效果,同时继续利用不确定性加权算法过滤出扫描的高不确定性区域。基于空间距离最近的扫描预测,通过对区域进行空间着色来生成可视化热图。预测的准确度是根据真实砂砾分类计算得到的(图 5C)。
在后续工作中,作者计划扩大砂砾的数量和物体表面材料的种类,以发现传感器硬件的局限性,并探索该解决方案如何扩展到更多类别的分类。作者认为,依赖于更高分辨率的相机、更软的凝胶和更光滑的 Gelsight 涂层,将能够实现更高分辨率的感知探测,从而提高对高分辨率砂砾的辨别能力。本文的研究证明了这种技术在闭环反馈打磨作业中的应用可能性。未来,这样一个闭环打磨系统将可以帮助人类从单调、肮脏和危险的打磨工作中解放出来,从而提高打磨相关工业生产的水平。
二、基于运动跟踪和皮肤电流响应的机器人信任评估(Trust and Explainability)
重复的手工生产工作,例如工业肉类生产,对人类的身体健康产生了很大的威胁。因为经年累月重复性劳动所导致的肌肉骨骼类疾病严重影响了患者的生活质量。在这些工作中,人 - 机器人协作(Human-robot collaboration,HRC)变得越来越重要。近年来,研究人员不断努力实现近距离 HRC,以使机器人能够减轻协作工人(这里称为操作员)的繁重和重复性劳动,同时保证操作员的安全性和安全感。在现代工业化生产中,这种人机协作将变得普遍。而其中 Trust and Explainability(信任和可解释性问题)将成为人机协作的关键问题之一。本文的研究目的就是实时评估操作者对机器人伙伴的信任程度,以满足近距离 HRC 的需要。
作者提出并评估了一种测量和记录操作员与机器人之间距离的方法,该方法使用了一个非常小的占地面积的深度摄像头,使机器人系统能够相应地进行调整。通过感知反应性的身体姿态作为从机器人行为变化中产生的物理恐惧信号,来推断是否出现了超出操作员预期而导致其信任度发生变化的情况。作者提出,长期的研究目标是开发出一套适合于生产环境的无障碍解决方案,允许机器人系统基于近距离跟踪来解释操作员对机器人的信任。
图 6 给出完整的方法原型和测试设置。它由一个大约两米乘两米的铝制钻机组成,装备有两个投影仪和一个红外(IR)摄像头。在钻机的中心设置有座椅、工作台面和机器人。配备双投影设置,将投影仪置于任何一侧,与工作表面的角度偏移大约 45 度,输出模式为基于投影的 AR,并且在到达工作台面时无完全遮挡,只需要校准投影以匹配。另外,一个红外摄像头安装在钻机的顶部中心,并向下指向用户。
图 6. 由投影仪、红外摄像机、Sawyer 机器人组成的 HRC 装置
为了推断用户的接近程度和姿势,对红外相机的帧进行了聚合处理以观察它们如何沿帧的垂直轴反射光。图 7 给出了红外图像的示例,其中用户坐直并向后倾斜。
图 7. 图像来自于自上而下的红外摄像机。左图:用户端坐。右:用户向后倾斜
处理帧的第一步是保存工作环境的空白背景平均值。每行的平均值根据该行中的所有非零像素计算,因为黑色像素是没有反射光的区域,即被认为是噪声。从用户处于帧中的每行平均值中减去背景平均值即可得到用户与相机的距离。测量示例如图 8。在这个例子中,整体幅度和分布有明显的差异,可以通过观察曲线的边界和峰值来推断用户的接近程度和姿态。然而,正如在示例中看到的那样,与地板相比,工作台面离相机太近,使得帧中关于工作台区域部分的测量变得不敏感。
图 8. 从自上而下的红外摄像机采集深度测量值,用户坐直并向后倾斜
作者设计了一个协作绘图任务,其中操作员将一张 A4 纸放在机器人前面的桌子上,该桌子是用 AR 装备标记的。操作员的角色是将纸张压在桌子上,为机器人在 3D 打印支架上配备毛笔,机器人移动毛笔并在操作员双手之间在纸张上绘制正方形。在实验过程中,在没有提前预警的情况下改变机器人的移动速度,目的是改变模式以引起操作员信任度的下降,从而判断操作员的接近程度是否与他们对机器人的信任程度相关。整个实验通过电流皮肤反应(Galvanic skin response,GSR)和填写问卷调查的方式来评估。此外,由于不同的马达噪音会对操作者听觉能力产生影响,进而影响操作员对机器人的感知,作者还研究了不同的运动速度产生不同的马达噪音。为了评估近距离跟踪,作者测试了以下假设:
-
H1:参与者对机器人的信任程度受机器人手臂移动速度的变化以及参与者是否戴上护耳装置的影响。
-
H2:机器人手臂移动速度的变化以及参与者是否佩戴了护耳装置,对参与者的运动的影响。
-
H3:参与者的 GSR 反应受机器人手臂运动速度和其是否戴耳机的影响。
-
H4:参与者的动作和接近机器人的程度与他们对机器人的信任程度有关。
在测试开始时,参与者会收到一份打印的同意书和实验说明。签署同意书后,参与者坐在桌子旁,Sawyer 机器人正对着他们。然后向参与者介绍任务过程:首先,他们必须从左边的一堆纸中取出一张纸,放在桌子上有标记的地方。一旦纸张定位完成并被按住,机器人就会从静止位置移动并在纸上画一个正方形。在介绍过程中,使用参与者开始时的机器人速度进行演示。除了标记纸张的区域外,AR 还用于显示机器人要绘制的线条。这是用投影的红线来完成的。图 9 给出了一个参与者坐在机器人前面,拿着纸,机器人沿着投影的红线画的场景。一旦绘图完成,参与者把纸放在右边,然后他们填写左边平板电脑上的问卷报告以表达他们对机器人的态度和信任。要求参与者陈述对三种表述的同意程度,得分分别在 0 和 1 之间,包括:
要求参与者再次拿起一张新的纸,重复这个任务直到测试结束。在测试之前,将电极连接到参与者的肩膀后面,与他们的手相对。将测量 GSR 的蓝牙设备绑在他们的上臂。GSR 装置通过测量连接电极之间皮肤的导电率来推断参与者的反应水平。
重复该任务总共 20 次,在前 10 次重复之后,改变机器人的移动速度。这样处理的目的是为了确定参与者是否会对速度的提高做出反应,还是只要速度发生变化就做出反应。令一半的参与者以较慢的速度开始,而另一半则以较快速度开始。
图 9. 一个参与者坐在机器人前面,拿着纸。纸张放在标有投影白色矩形的区域内
针对 H1,图 10 给出了实验结果,具体内容为每个任务的汇总问卷结果,并按条件和置信区间分组。由实验结果可知,参与者并不会因为机器人突然做出令人惊讶的动作而影响其对机器人的信任。垂直线标志着实验过程中速率增加或降低的情况。对于那些以较低速率开始的小组,报告的信任度在整个测试的前半段都很高,然后随着速度的增加信任度下降。报告显示的信任程度在测试的后半部分逐渐恢复。
图 10. 在整个测试过程中,根据调查问卷的答案和置信区间的总和计算出的平均信任度
为了验证 H1,作者在机器人移动速度改变前后对信任分数进行了 Wilcoxon 秩和检验。测试表明,速度提高场景中的参与者与有(W=88,p<0.01)和没有护耳器(W=100,p<0.01)的参与者之间存在显著差异,而对于速度下降场景中的参与者,则没有显著差异。
针对 H2,图 11 和图 12 给出了相关实验结果。在实验中,根据参与者的最高点(通常是头顶)沿深度图像的垂直轴的位置判断其接近程度(距离),以像素为单位进行测量。测量参与者在机器人移动绘图的第一秒钟内随着 Delta 在接近程度上的变化,以表示参与者对机器人的运动反应。图 11 显示了每个任务参与者之间的平均增量移动。图 12 则给出了平均绝对值。从这两个数字看不出任何明显的趋势,无论是在前半段还是后半段,或者是在机器人速率变化前后。
为了验证 H2,作者也对接近程度进行了 Wilcoxon 秩和检验。当比较条件之间的增量和绝对移动时,无论数据分组如何,Wilcoxon 秩和检验均无显著差异。由于缺乏显著性的差异和不一致,作者认为无法拒绝 H2 的零假设。
图 11. 机器人运动第一秒的平均参与者运动,按运动方向和置信区间加权
图 12. 机器人运动第一秒的平均绝对参与者运动以及置信区间
对于 H3,图 13 给出实验结果,具体为参与者之间的平均标准化 GSR 测量值以及不同条件下的平均标准化 GSR 测量值。去除噪声后,通过拟合每个参与者的读数范围在 0 到 1 之间对数据进行归一化处理。随着测试的进行,置信区间会随着测试的进行而增加。这是由于大多数参与者开始测试时皮肤上的电阻值都很高,接近 1,而在整个测试过程中,电阻值以不同的速率降低。
为了验证 H3,作者也对信任分数进行了 Wilcoxon 秩和检验。与 H2 的验证结果类似,无论数据分组如何,Wilcoxon 秩和检验均无显著差异。因此,作者认为无法拒绝 H3 的零假设。
图 13. 每个任务开始时的平均标准化 GSR 以及置信区间
最后,针对 H4,在进行 Kendall 和 Spearman 的秩相关分析时,加权 Delta 移动和绝对移动都没有显示出与信任分数的显著相关性,作者表示,无法拒绝 H4 的零假设。
对于完整的实验,作者分析可以得出
信任度只受机器人移动速度增大的影响
的结论。然而,实验最初的目标还包括验证是否可以利用 GSR 作为判断指标,这一实验目标并未实现。这可能是由于 GSR 对于在实验中参与者出现的反应不够敏感,也可能是整个程序设计中存在缺陷,例如,电极可能没有足够的时间在开始任务之前进行预热和调平。
对于实验中的运动跟踪方式,作者也表示,由于所采用的摄像头像素不够高,可能会影响运动跟踪的效果。此外,仅仅依靠参与者头顶的位置判断运动也是不够的。
最后,本文是通过机器人速度的改变判断对信任度的影响。但是在实际应用场景中,可能更多的是一些细微的变化,机器人并不会有如此明显的、剧烈的变化。这也是实验模拟环境中和真实工业场景之间的一个主要区别。
本文使用自上而下的红外深度相机收集帧数据来测量操作员与机器人直接的距离,以便从物理感知信号推断出操作员对机器人的信任程度。实验结果表明,当机器人的移动速度突然增大时,操作员对机器人的信任会受到显著影响。不过,当机器人的移动速度减小时,并不会产生类似的影响。此外,佩戴护耳器并没有产生任何显著差异,表明运动噪声对其影响不大。不同实验条件下的 GSR 测量值没有显著差异,这可能是由于设备电极预热时间不足造成的。最后,对本研究中使用的运动跟踪方法的分析表明,操作员的运动会受到信任度下降的显著影响。
在今后的研究中,作者计划提出一种新的数据处理方式,以便更好的利用收集到的数据,从而获取到更敏感的运动指标。此外,也考虑设计其它的人 - 机协作任务,例如可以让操作员站立起来,以便有更多的运动状态。
三、不确定条件下具有安全屏障证书的深度控制策略中的安全考虑(Robot Safety)
本文提名入围 IROS 2020 Best Paper on Safety, Security, and Rescue Robotics in memory of Motohiro Kisoi
近年来,关于通过强化学习(RL)和模仿学习(IL)训练深度控制策略的研究非常多。然而,将这些技术直接应用于现实世界中的与安全相关的应用场景中仍然是一项极具挑战性的任务。例如,将模型应用于训练阶段未知的、无标签的数据中往往效果不佳。又或者,在现实生活中,可能存在环境因素(如摩擦、风、粘度等)和机器感知造成的不确定性,这些因素在模型 / 方法 / 公式中可能并没有明确的建模。因此,对于上述问题的安全性、可靠性、稳定性、鲁棒性研究,对于在现实世界机器人技术应用来说至关重要。本文研究目的是:通过实现源于嵌入式深度控制策略的控制信号的最小偏差来保持系统的安全。
本文提出了一个安全深度控制策略框架。该框架试图通过一个屏障函数(Barrier function)持续保持安全,同时智能体(Agent)可以继续完成其目标任务。这项工作扩展了安全屏障证书(Safety Barrier Certificates,SBC),以处理深度控制策略中的安全事项。同时,该框架只关注测试阶段的工作,并不会影响训练阶段。本文特别关注无人机竞技比赛( Drone-racing)的问题,比赛任务是四旋翼机需要在赛道上以尽可能快的速度穿过多个门而不发生碰撞。将该框架应用于无人机竞技比赛,通过最小限度地更改控制器,以确保安全性的前向不变性。考虑障碍物位姿误差阈值的最坏情况,通过欧氏符号距离场建立预先计算的距离图以克服障碍物位置不确定性问题。
假设我们已有一个产生控制信号~ u 的策略,本文框架的目标是生成一个~ u 的投影,使得系统在安全约束下是安全的。在这个讨论背景下,作者使用了一个重要的假设,即 * 可以将与系统动力学和感知观测有关的不确定性建模为具有有限支撑的分布 *,可以从具体应用领域知识中获取这些有限支撑假设。本文重点关注的无人机竞技问题的依托的是一个四旋翼机系统(Quadrotor),由于物理驱动的限制,由平动和转动动力学引起的不确定性是有界的。同时,负责产生控制动作的基于感知的定位系统仅在摄像机的视锥范围内定位无人机要穿过的门,也在一定程度上限制了观测不确定性。
为了使用 SBC 框架,需要依次描述系统动力学、安全约束和处理不确定性问题。
由于在大多数深度控制场景中并没有一个明确的系统动力学模型,我们需要做出一定的假设。首先,考虑机器人的演化过程为连续时间系统的简化动力学模型:
(1)
其中,x 表示系统状态,x^ 为有噪观察值,u 为控制输入动作,w 和 v 分别为过程和测量噪声。U 为均匀分布。将机器人动力学简化为随机控制仿射单积分动力学的形式:
其中,w 同时考虑了模型的非线性和不确定性。这样,我们可以对控制输入的动态进行局部线性近似。在四旋翼机中,将通过单积分动力学提供的虚拟控制输入映射到仿真中相应的非线性物理模型中。
针对无人机竞赛应用领域,本文基于机器人学中的常见表征,提出了安全约束。假设我们的障碍物模型是一个静态模型,通过欧几里德符号距离场(Euclidean signed distance field,ESDF)启发得到的距离变换来表示。对于一个障碍物 i,姿态表征为 p_i,定义三个区域:(Ω_i)- 表示障碍物内部,(Ω_i)+ 表示障碍物外部,∂Ω_i 表示障碍物边缘。对于 3D 空间 x 中的任意点,即机器人的位置,定义一个到障碍物 i 的自定义距离函数,如下所示:
注 1: d(x,p_i)是 Lipschitz 连续的,几乎处处可微且在有限支撑下有界。
如果以下条件成立,定义一个状态 x 对于姿态为 p_i 的障碍物 i 是安全的:
对于无人机竞赛中的应用,目标是将方形门视为障碍物(见图 14)。另外,考虑到公式(2)中的有限边界和我们所有的障碍物都是相同的,本文使用公式(2)对机器人在感兴趣区域内相对于门的一组采样姿势预计算符号距离场,从而创建一个距离地图。
图 14. 由公式(2)、XY 和 YZ 平面(上排和下排)定义的距离地图。绿色箭头指示 SBC 计算的最安全动作,并提供安全约束,黑色十字表示各个方向不安全的位置。每个位置和每个角度的采样动作为 | u|=velocity。右图为原来的大门。
在无人机竞赛任务中,使用一个基于可变自动编码器(VAE)的模块来估计门的姿态,VAE 中的潜在变量可以估计出不确定下的状态量,这在进行机器人控制策略都是常用的方法。这种估计不精确,但是具有有限个数的支持(support)。在本应用中,为了解决由于这种状态估计引起的不确定性下的安全性,作者进行了最坏情况下的安全计算。定义新的距离函数如下:
其中,P_i 是在预测姿态误差阈值内的所有可能位置复制障碍物 i 时占用的点集。
注 2:可以用包含所有可能位置的 * p_i 来表示一个新的障碍物 ^p_i:*d(x , p_i) = d(x, ^p_i)。
这个新的障碍允许考虑门的姿态估计不确定性下的 * 最坏情况 *,并且可以使用与公式(4)中相同的安全定义来解决。此外,还可以预先计算得到一个新的对应的距离地图。这种方法简化了在不确定情况下提供安全性的方法。图 14 和图 15 中的结果显示了考虑不确定性和障碍物测量差异的距离图。
图 15. 由公式(5)、XY 和 YZ 平面(上排和下排)定义的距离地图。与图 14 相比,应用安全约束会影响对原始控制器的修改,从而导致对其的更多限制
使用注(2)可以很容易地证明,存在一个等效安全集,该安全集考虑了初始 ESDF,使用了新构造的姿态为 ^p_i 的障碍物。
屏障证书(Barrier certificates)或屏障函数(Barrier functions)用于确保机器人始终处于安全的环境中。控制器在采取尽可能接近标准动作的控制动作时,应满足屏障证书的要求。作者对本文讨论的应用环境进行了简化表述,以得到类似于公式(4)的安全集合:
基于零控制屏障函数(Zeroing Control Barrier Functions,ZCBF)和 SBC 理论,控制器 u 需要满足一定的条件以保证安全集的前向不变性(Forward invariance)。令连续可微函数 h^s 表示一个 ZCBF,容许控制空间可定义为:
任意 Lipschitz 的连续动作 u 都能保证 H^s 的前向不变性。考虑扩展的 k 类函数,基于容许控制空间,描述约束的 SBC 定义为:
注 3:对于机器人所占据的所有位置,在距离图可微的情况下,假设初始位置是碰撞规避(collision-free)的,可以证明由公式(10)描述的约束控制空间在机器人控制器上诱导了一个线性约束。
在本文的实验中简单地使用 ESDFs,不可微区域(相对于无人机门的形状而言)只出现在保证飞行器安全的地方。其次,将 VAE 的估计门位置坐标从球面坐标转换为欧式坐标,其中四旋翼机的偏航角等于相对于障碍物的预测角。B^s 重写为:
最后,将安全问题描述为一个二次规划(QP)问题。使用公式(8)和 SBC 公式(11)中定义的安全约束来解决以下问题:
其中,α表示控制动作边界,~u 表示原始深度控制策略,*u 表示安全动作。
本文实验环境如下:通过建立在 AirSim 之上的无人机竞赛仿真,验证了本文所提出方法的鲁棒性,并了解了其局限性。每一次实验一个四旋翼机在 10 条赛道上航行三圈。每条赛道长约 50 米,包括 8 个随机放置的大门。每个实验都对应于一个难度等级,一共四个难度等级,从 0 到 1.5,间隔步长为 0.5。使用两个连续门的中心之间的最大偏移量定义难度等级,当偏移量较大时,需要更多的动力来使飞行器保持在轨道上,因此难度等级较高。
作者使用两个关键指标进行评估:安全性(Safe)和成功解决给定任务的能力(Success)。当四旋翼机在整个实验过程中保持无碰撞时,则实验结果为安全的。能够成功穿过门的次数百分比是衡量任务成功与否的标准。
实验中使用 VAE 作为感知模块预测下一个门的姿态,使用行为克隆(Behavior Cloning,BC)作为基线控制策略。作者将这两种深度控制策略与本文提出的安全框架(对应于门位置定位)进行比较。
图 16 为不同方法的实验结果,由图中结果可知,所有方法的成功率相差不大,而考虑到不确定性的安全方法稍有优势。当跟踪难度增加到 1.5 时,我们发现原始策略的安全性能急剧下降,而安全策略的安全性能下降较慢。此外,我们还观察到,在考虑不确定性时达到了最佳安全率。
图 16. (a) 原始策略和安全策略的实验轨迹样本。(b) 箱线图总结了在 10 次实验中,每种难度水平下四旋翼机到达任何门的最近距离。水平线表示中间值,而方框的边界分别表示 25% 和 75% 分位数水平
图 17 给出了详细的控制可视化图,其中原始策略的操作违反了安全约束并可能导致与门的碰撞,而具有不确定性的安全方法计算无碰撞动作。
图 17. 四旋翼机正在向门移动的可视化图示。图片按照四旋翼机的运动从左到右排列。在每个图中,红色箭头表示原始的深度策略控制,绿色箭头表示本文框架推断的安全操作,本文框架同时考虑到了门位置的不确定性
在本文的实验中,作者也观察到了所提出方法的一些局限性。例如,当前门和下一个门之间的角度过大但仍在四旋翼机的视野内时,所有方法都存在导致四旋翼机与当前门碰撞的风险。另一个问题是,当四旋翼机启动实验时,如果面对的恰好是门极而且距离很近,在这种情况下,使用所有方法的四旋翼机极大可能性都会与门相撞,这可能是由于门估计位置的噪声很大,估计误差超过了考虑的最坏情况值。作者认为,后续解决这个问题的一个有效方法是考虑对两个门都进行优化,而不是只考虑一个。
本文提出了一个针对无人机竞赛任务的安全深度控制策略框架。该框架的核心是安全屏障证书:用于最小限度地更改控制器以确保安全性的前向不变性。克服障碍物位置不确定性的主要思路是考虑障碍物位姿误差阈值的最坏情况,通过欧氏符号距离场建立预先计算的距离图。
关于后续的研究方向,作者认为,一是,可以研究多个 / 杂波障碍物的预测过程,其中可能没有足够的自由空间来处理所有的不确定性,以及迭代优化方案的可行性和效率也会收到影响。二是,可以探索在深度控制策略训练阶段使用这种方法,以便在飞行开始前确保安全和性能。三是,本文提出的方法是平台无关的,因此可以尝试将其应用于机械手臂、自动驾驶汽车等,在自动驾驶汽车应用领域中,地图的不确定性也是一个非常关键的问题。
仵冀颖,工学博士,毕业于北京交通大学,曾分别于香港中文大学和香港科技大学担任助理研究员和研究助理,现从事电子政务领域信息化新技术研究工作。主要研究方向为
模式识别
、计算机视觉,爱好科研,希望能保持学习、不断进步。
关于机器之心全球分析师网络 Synced Global Analyst Network
机器之心全球分析师网络是由机器之心发起的全球性人工智能专业知识共享网络。在过去的四年里,已有数百名来自全球各地的 AI 领域专业学生学者、工程专家、业务专家,利用自己的学业工作之余的闲暇时间,通过线上分享、专栏解读、知识库构建、报告发布、评测及项目咨询等形式与全球 AI 社区共享自己的研究思路、工程经验及行业洞察等专业知识,并从中获得了自身的能力成长、经验积累及职业发展。
感兴趣加入机器之心全球分析师网络?点击阅读原文,提交申请。