触觉感知在机器人与物理环境交互中扮演着重要角色,这一观点已被广泛认可。然而,现有的传感器中,少有能够在机器人领域中得到广泛应用。本文提出了一个将触觉感知融入机器人学习范式的框架,涵盖从开发到部署的全过程,并通过ReSkin——一种多功能且可扩展的磁性触觉传感器为实例。通过探讨ReSkin的设计、集成、策略学习和表示学习,本文旨在为机器人学习中有效的感知系统的实现提供指导。我们首先提出ReSkin——一个低成本、紧凑且多样化的触觉感知平台。我们开发了一种自监督学习技术,使得传感器具备可替换性,通过适应已学习的模型推广到新的传感器实例。接下来,我们在灵巧操作的背景下研究了ReSkin的可扩展性:我们引入了D'Manus,一个廉价、模块化且坚固的平台,集成了大面积的ReSkin传感,旨在满足机器人学习的大规模数据收集需求。基于ReSkin和D'Manus的开发经验,我们提出了AnySkin——一种专为机器人学习设计的升级版传感器,它进一步减少了不同传感器实例之间的响应差异。AnySkin的集成简单如同给手机戴上手机壳,无需粘附,并表现出更一致的信号。我们将AnySkin部署在精确操控的策略学习场景中,展示了在补充相机信息后任务性能的提升,并实现了跨传感器实例的零样本策略迁移。除了传感器的设计和部署,我们还探索了包括但不限于ReSkin在内的传感器的表示学习。传感数据通常是连续的、序列性的,但大多数现有的序列架构研究(如LSTM和Transformer)主要集中在离散模态,如文本和DNA。为填补这一空白,我们提出了分层状态空间模型(HiSS),一种概念上简单的新型连续序列到序列预测(CSP)方法。HiSS通过在时间轴上叠加结构化的状态空间模型来创建层次结构,并且在现有的序列模型(如因果Transformer、LSTM、S4和Mamba)中表现优异。此外,我们引入了CSP-Bench,一个来自真实感知数据的CSP任务新基准。CSP-Bench旨在解决CSP任务中缺乏真实世界数据集的问题,为从事该领域研究的学者提供了宝贵的资源。最后,我们总结了从ReSkin的开发到部署过程中的经验教训,并提出了将触觉感知带入主流机器人研究中的潜在方向。
引言
传感设备在帮助机器人有效理解和响应其周围环境中起着至关重要的作用。其中,触觉传感器尤为重要,因为它们为机器人提供了类似于人类的触觉感知,使其能够精确地处理物体、检测障碍物或危险、调整对物体的握力,并有效操纵环境。尽管这一领域多年来取得了显著进展,但目前仍缺乏一种普遍适用的机器人触觉感知解决方案。这主要是由于开发、集成和从触觉传感器中学习的复杂多步骤过程——每个步骤都面临着一系列挑战。本文通过ReSkin——一种专注于耐用性、可扩展性和适用于机器人学习应用的鲁棒性磁性触觉传感器,提出了一种应对这些挑战的方案。
人类灵活性的关键在于触觉反馈 [77, 78, 79],这一点长期以来激发了对机器人触觉传感器的广泛研究,始于机器人学的早期 [67, 91]。多年来,微型化和快速原型制作加速了基于各种换能技术的触觉传感器的发展 [52]。电阻式 [128, 147] 和压阻式 [12, 129] 传感器通过材料在两个电极之间的变形引起电阻的变化来测量施加的压力。电容式传感器 [53, 133] 类似地依赖于测量传感器变形引起的电容变化来捕捉交互特性。最近,使用相机与弹性体材料相结合的光学传感器 [40, 90, 146, 152] 通过一系列弹性体变形的图像捕捉物理交互,成为一种高分辨率的触觉感知替代方案。其他解决方案则使用MEMS设备 [105, 132] 和压电材料 [36, 159] 作为记录物理接触信息的换能机制。然而,这些传感方案中的许多存在缺陷,阻碍了它们在机器人领域的普及。除了光学传感器外,每种传感技术都需要电路与软性弹性体之间的直接电气连接。尽管软性弹性体的集成在一定程度上提升了触觉传感器的接触适应性,这种非预期的耦合增加了成本并使集成过程变得复杂。光学传感器通过将传感电子元件(相机)与传感界面(弹性体)分离,克服了这一难题,但它们需要相机和弹性体之间有清晰的视线,严重限制了其形状因素并增加了设计复杂性。此外,由于弹性体界面的柔软性,弹性体比相关电子元件老化更快,需要频繁更换。然而,传感器的可替换性和一致的传感响应,这些在软性传感器背景下很少被讨论。此外,软性传感器复杂的制造程序使其难以规模化生产,并增加了传感器实例间的响应差异。鉴于这些不足,本文的重点是使用磁性弹性体进行触觉感知 [69, 70]。磁性换能的使用使ReSkin的电路与作为传感界面的磁性弹性体完全独立分离。这使我们的传感器具有低成本、可扩展性和灵活的形状因素等优势,能够适应不同形状和大小的表面。我们的制造过程简单且可重复,从而减少了不同磁性弹性体皮肤实例之间的响应差异,最小化了弹性体更换带来的干扰,强化了其作为通用机器人触觉传感器的适用性。
类似于触觉感知,人手的多功能性长期以来激励了许多关于仿人手能力的机器人手研究 [10, 89, 103]。构建这些设备的复杂性导致当代许多解决方案,如Shadow Hand [82, 139] 和Allegro Hand(Wonik Robotics),价格极为昂贵(超过$25,000)、易碎且难以维修。这些缺点与数据驱动机器人的需求相悖,数据驱动机器人依赖大量数据,这反过来要求硬件廉价且能够应对大规模数据采集的各种挑战。LEAP Hand [124] 和Trifinger Hand [151] 等解决方案试图通过创建廉价、通用且易于组装的机器人手来填补这一空白。然而,尽管触觉感知被广泛认为是人类灵活性的核心 [78, 79],但这些解决方案中没有一个能够以合理的价格(<$50,000)提供可扩展的触觉感知集成。D'Manus——一个开源的手部设计,集成了大面积的触觉传感,填补了机器人手部触觉感知领域的这一关键空缺。此外,该手完全可以3D打印,具有辅助灵活性的手掌功能,不同于其他设计 [2, 151],还具备其他商业手部设计中没有的关键功能,如内收和外展能力,并且比大多数商用替代品便宜至少10倍。
许多现实世界的控制系统,如风力涡轮机状态监测 [130]、MRI识别 [84] 和惯性里程计 [4, 98],通常通过处理噪声传感数据来推断环境状态。传统的传感器响应建模主要依赖于分析技术来建模原始测量量(如电阻、电容、磁通)与感兴趣量(如力、扭矩、惯性测量)之间的关系 [96, 120]。虽然分析建模在将测得的换能量映射为可解释的量(如力或接触位置)方面很有用,但它通常复杂且/或需要严格的假设,这些假设无法完全模拟传感器的行为 [61]。有限元分析等计算技术 [97] 尽管有效,但速度极慢,限制了传感器在实时环境中的应用。快速原型和制造技术的进步加快了传感器开发的速度和多样性,同时也催生了对间接建模技术的需求,这些技术能够实现这些传感器的实时部署。机器学习为解决这一问题提供了一种可行的方案,通过无需明确建模驱动换能机制的复杂物理现象来实现隐式传感器建模 [32, 75]。尽管在视觉和语言方面的深度学习研究展示了跨任务的强大能力 [1, 41],在传感数据上的有效机器学习模型仍然寥寥无几 [86, 154]。尽管某些深度学习解决方案在传感数据上显示了令人鼓舞的结果,但它们仍然是针对特定传感器的研究 [71, 153]。传感学习中存在的两难局面导致了这一现象:缺乏统一、标记化的传感数据集,进而导致缺乏处理传感数据的神经架构研究,从而缺乏对传感系统能力的理解,而这本应促使更多数据的收集。为解决这一问题,我们提出了一个两部分的解决方案:CSP-Bench——一个由六个连续序列预测任务组成的基准数据集,以及分层状态空间模型(HiSS)——一种擅长对连续传感数据进行序列推理的神经架构,基于在结构化状态空间模型(如S4和Mamba)中引入时间层次。我们借鉴了视觉和语言领域的成功案例 [85],这些研究展示了在基于学习的推理中,审慎的神经架构选择和归纳偏差的重要性。我们展示了在跨三种不同传感器的六项传感预测任务中,HiSS相较于传统序列建模架构(如因果Transformer、LSTM、S4和Mamba)表现出色。
随着机器人学家解决机器人在非结构化环境中操作的问题,特别是随着深度学习的兴起,机器人学习成为一种极具前景的解决方案。集成了最前沿的神经架构 [68, 117, 142] 与密度估计 [30, 93] 和模仿学习算法的技术,使得抓取 [161]、操作关节物体 [42, 107] 以及双手操作 [162] 的能力得以实现。然而,与本章的持续主题保持一致,集成触觉感知的机器人学习模型显著稀缺。对需要对与环境的物理交互进行推理的复杂精确技能学习的分析大多局限于模拟 [28, 92],几乎没有讨论如何将这些策略迁移到现实世界。替代方法通常涉及复杂、不现实的摄像机设置,以规避缺乏触觉感知的问题 [3, 5]。本文对融合视觉和触觉传感数据的多模态策略学习进行了控制研究,并交叉验证了所有可用模态在学习有效机器人策略中的重要性和有效性。
本文其余部分的结构如下:第二章介绍ReSkin——一种磁性触觉皮肤,它的能力以及学习传感器模型的潜力;第三章介绍D'Manus——一种开源的集成大面积感知的灵巧手设计;第四章介绍升级版的自粘式传感器皮肤设计,并展示其在策略学习中的可替换性;第五章讨论了一个新的基准数据集和一种针对触觉及其他传感数据的序列建模的新型学习架构。我们在第六章总结了主要经验教训并探讨了未来的研究方向。