ICLR 2022 Spotlight|让AI学会捏橡皮泥飞机

2022 年 5 月 2 日 机器之心
机器之心专栏

作者:李思哲、黄志翱、淦创等

来自于mit-ibm 机器人研究院院长淦创团队的工作提出了一种接触点发现算法 CPDeform,将基于最优传输的接触点发现算法集成到可微物理求解器中,克服了初始接触点次优或接触点切换时的局部极小值问题。


最近的研究表明,可微分物理是解决软体控制任务的强大工具。然而,当末端执行器的初始接触点次优或在多阶段任务中执行接触点切换时,可微物理求解器经常会卡住并导致局部最小值。

为了解决该问题,来自于mit-ibm 机器人研究院院长淦创团队的研究者提出了一种接触点发现方法 (CPDeform)。该方法的关键思想是将基于最优传输的接触点发现算法集成到可微物理求解器中,以克服初始接触点次优或接触点切换时的局部极小值,并在单阶段任务和多阶段任务上分别取得良好性能。论文已被 ICLR 2022 接收为 Spotlight Presentation。


论文地址:https://openreview.net/forum?id=mmUA7_O9mjY

1. 简介

软体操纵在烹饪、织物操纵、医疗保健和可变形物体的制造中有着广泛的应用。微分物理最近被证明是一种强大而解决软体操纵任务控制问题的有效工具。PlasticineLab 展示了当给定参数化操纵策略,可微物理求解器可以通过计算策略参数的梯度来实现比强化学习算法更高效的策略优化,从而高效的找到软体操纵任务上最优解。

但是,基于梯度的可微物理求解器的性能会受到策略初始化的严重影响。末端执行器与物体的初始接触点在优化中起到至关重要的作用。不同的接触点可能导致优化结果上的巨大差异由于局部最优。此外,有些任务需要 agent 在操纵期间进行接触点切换,在这种情况上局部最优问题成为完成这些多阶段任务的严重瓶颈。

例如,如图 1 所示,一个 agent 需要控制 “笔” 在黄色橡皮泥立方体的表面写下两条竖线。为了完成第二条线,agent 需要在绘制第一个后切换接触点。然而,独立的可微物理求解器可能可以画出第一条线,但它经常在此之后卡住并难以绘制第二个。这是因为缺少能将笔推到新的接触点的梯度。因此,如何为软体操作任务自动找到合适的接触点在可微物理中仍然是一个挑战。

图 1

在本文中,我们根据接触点问题提出了一个框架 CPDeform,该框架的关键思想是将基于最优传输的接触点发现算法集成到可微物理求解器中。通过把软体操纵是为粒子传输问题,CPDeform 使用最优传输来比较当前形状与目标形状并获得粒子的传输优先级。通过利用传输优先级,CPDeform 启发式地找到末端执行器的接触点。找到接触点后,CPDeform 可以结合可微分物理求解器,来去解决软体操纵任务。在不需要切换触点的单阶段任务上,CPDeform 可以找到合适的初始触点来完成任务。

在多阶段任务上,CPDeform 基于运输优先级可以迭代切换末端执行器的接触点。使用图 2(右)所示的示例,其中目标是重塑橡皮泥立方体变成飞机,CPDeform 可以基于运输优先级来迭代切换末端执行器的接触点。我们对于这种迭代变形过程的启发来源于观察人类如何操纵橡皮泥。如图 2(左)所示,当人类操作橡皮泥面团时,我们倾向于反复关注兴趣点并将其修改为目标形状。CPDeform 通过迭代地切换感兴趣的接触点来模仿这个过程,并在可微解算器的帮助下将软体变形为目标形状。通过将接触点发现集成到可微物理求解器中,CPDeform 可以跳过接触切换引起的局部最小值并提高独立求解器的性能。

图 2

本文的贡献可以总结如下:

  • 我们对初始可微物理求解器由初始触点和触点切换所导致的局部最优问题进行了深入调查。

  • 我们提出了一个框架 CPDeform,将基于最优传输的接触点发现算法集成到可微物理求解器中。

  • CPDeform 的 接触点发现 backbone 可以直接由可微物理求解器用于为单阶段任务找到更好的初始接触点。

  • 在独立求解器解决不了的多阶段任务上,CPDeform 启发式地找到末端执行器的接触,并通过迭代来完成任务。


2. 方法

考虑软体操纵的一种方法是将其视为粒子传输问题。通过评估将当前状态粒子 x 传输到目标状态粒子 y 的成本,最优传输提供了一个有用的框架来比较任何给定的对之间的差异形状,可以帮助我们发现接触点。给定一个成本矩阵 M,最优运输希望找到运输计划 P 通过最小化运输成本 <P, M>。将问题转化为对偶形式,我们有 OT(X, Y) := max E[f] +E[g] 使得 ∀i, j, 拉格朗日乘数 f[i], g[j] 满足 f[i] + g[j] ≤ M[i, j]。我们关注当前粒子的拉格朗日乘数 f (图 3)。因为它代表了当前粒子的 support ,我们将 f 解释为当前粒子 x 的传输优先级 (图 4)。

图 3

运输优先级有助于选择接触点。给定一对当前和目标形状,我们直观地将末端执行器放置在两者之间差异最大的区域周围以大幅修改形状。我们想要去将末端执行器放置在最佳操作策略可以最小化形状差异的接触点上。然而,直接评估接触点的最优性在计算上是令人望而却步的,所以我们不能通过穷举搜索来确定接触点。因此,我们提出启发式地识别接触点,基于一个简单的规则:选取高传输优先级的接触点。我们观察到具有高运输优先级的接触点大多对应具有优越的优化性能。

图 4

为了放置操纵器,我们考虑一个候选姿势集,其中每个姿势对应一个独特的操作策略。在飞机示例中(图 5),我们有三个姿势。对于每个姿势,我们根据传输优先级放置操纵器。我们的直觉是鼓励操纵器去覆盖高优先级区域。我们为每个姿势运行可微物理求解器并获得它们的动作轨迹。通过比较每个轨迹实现的形状差异损失,我们选择实现最低损失的姿势。

图 5:CPDefeorm 对于操纵器的放置
 
在找到最佳候选姿势后,我们使用求解器优化的相应动作轨迹对当前形状进行变形(图 6)。由于可微物理求解器可以在优化过程中调整机械手方向,因此候选姿势集在实践中不需要很大。

图 6:可微分求解器对软体进行变形

然后我们重复这个过程进行迭代变形(图 7)。综上所述,对于每个阶段,我们根据传输优先级找到接触点,并执行可微物理优化以使当前形状变形。

图 7: CPDeform 迭代变形的过程

3. 实验

我们进行了多项实验来测试 CPDeform 在软体操作任务上的功效, 来回答两个主要问题:

  • 在涉及多个触点切换的多阶段任务中,CPDeform 能否完成这些任务通过迭代操作软体?

  • 假如我们在单阶段任务上限制只允许一个接触点 (one shot),我们的接触点发现方法 (CPDeform backbone) 的鲁棒性如何?


为了广泛评估我们的方法,我们提出了 PlasticineLab-M,扩展 PlasticineLab 到七个新的具有挑战性的多阶段软体操纵任务,并包含 PlasticineLab 中的多阶段环境 Pinch。我们在图 8 中展示了这八个多阶段任务。我们还使用 PlasticineLab 中剩余的单阶段任务来评估我们的接触点发现方法。对于多阶段环境,我们使用 Wasserstein-1 距离评判与目标的差异。对于单阶段环境,我们使用 IoU 指标与 PlasticineLab 进行公平一致的比较。

图 8: PlasticineLab-M 的任务示例

我们在表 1 中展示了定量结果,在图 9 中展示了定性结果。我们发现我们的方法能够完成这些复杂的任务,并且明显优于基线。我们发现通过发现的接触点,我们的方法能够迭代地构建和改进飞机的机头、机尾和机翼。在椅子上,我们发现我们的方法引导求解器首先创建一般座椅,然后改进扶手和椅背。在 Bottle 中,我们的方法首先在细化瓶子的侧面之前,将橡皮泥立方体的顶部向下推以创建颈部。对于 Move++,我们的方法能够通过选择来完成三个立方体的运输任务在每个阶段转移的最有利的对象。在 Rope++ 中,我们的方法首先移动绳索在精炼绳子的末端之前,形成大致的形状。在 Writer++ 中,我们的方法能够迭代引导微分物理求解器在橡皮泥立方体上写出 “ICLR” 字母。

图 9:多阶段任务环境中 CPdeform 和 PlasticineLab 的定性结果。

表 1:多阶段任务上平均 Wasserstein-1 距离和每种方法的标准差

为了进一步证明我们方法的有效性,在单阶段任务上,我们将 CPDeform backbone 所发现的一次性接触点和 PlasticineLab 中人工定义的接触点进行对比。从表 2 中我们可以看到,在大多数单阶段任务上,CPDeform 的性能优于或类似于 PlasticineLab 中人工定义的初始接触点。

表 2:单阶段任务上平均归一化增量 IoU 分数和两种方法的标准偏差。

4. 总述

在本文中,我们提出了一个新的框架 CPDeform,它将基于最优传输的接触点发现算法集成到可微物理求解器中。广泛的实验表明在单阶段任务上我们提出的接触发现方法性能优于或类似于人工定义的初始接触点。在使用独立的微分求解器解决不了的多阶段任务上,CPDeform 采用启发式搜索方法迭代解决任务。我们的工作证明了接触点在可微物理策略学习中的重要性和几何分析方法作为启发式的优势。未来工作的有趣方向包括推广发现通过学习各种形状的方法来获得有用的接触点,并应用类似的接触点发现原理用于灵巧的刚体操纵,或将其与其他规划方法进行结合。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

登录查看更多
0

相关内容

【AAAI2022】一种基于状态扰动的鲁棒强化学习算法
专知会员服务
33+阅读 · 2022年1月31日
NeurIPS 2021 | 通过动态图评分匹配预测分子构象
专知会员服务
21+阅读 · 2021年12月4日
NeurIPS 2021 Spotlight | 针对有缺失坐标的聚类问题的核心集
专知会员服务
14+阅读 · 2021年11月27日
【NeurIPS 2021】学会学习图拓扑
专知会员服务
24+阅读 · 2021年10月22日
【CMU博士论文】通过记忆的元强化学习
专知会员服务
53+阅读 · 2021年10月16日
专知会员服务
27+阅读 · 2020年12月15日
八篇NeurIPS 2019【图神经网络(GNN)】相关论文
专知会员服务
43+阅读 · 2020年1月10日
学习抓取柔性物体
TensorFlow
3+阅读 · 2021年7月5日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年6月22日
Arxiv
0+阅读 · 2022年6月20日
Arxiv
13+阅读 · 2021年10月22日
Arxiv
24+阅读 · 2021年1月25日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关VIP内容
【AAAI2022】一种基于状态扰动的鲁棒强化学习算法
专知会员服务
33+阅读 · 2022年1月31日
NeurIPS 2021 | 通过动态图评分匹配预测分子构象
专知会员服务
21+阅读 · 2021年12月4日
NeurIPS 2021 Spotlight | 针对有缺失坐标的聚类问题的核心集
专知会员服务
14+阅读 · 2021年11月27日
【NeurIPS 2021】学会学习图拓扑
专知会员服务
24+阅读 · 2021年10月22日
【CMU博士论文】通过记忆的元强化学习
专知会员服务
53+阅读 · 2021年10月16日
专知会员服务
27+阅读 · 2020年12月15日
八篇NeurIPS 2019【图神经网络(GNN)】相关论文
专知会员服务
43+阅读 · 2020年1月10日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
相关论文
Arxiv
0+阅读 · 2022年6月22日
Arxiv
0+阅读 · 2022年6月20日
Arxiv
13+阅读 · 2021年10月22日
Arxiv
24+阅读 · 2021年1月25日
Arxiv
11+阅读 · 2018年4月25日
Top
微信扫码咨询专知VIP会员