Quora：波士顿动动力的机器人用的是什么学习算法？谷歌工程师的回答

2017 年 11 月 26 日 未来产业促进会

点击上方“公众号”可以订阅哦！

【新智元导读】 波士顿动动力的机器人用的是什么学习算法？来自谷歌工程师和两位机器人博士的回答。

1、Eric Jang, Research Engineer at Google Brain

正如其他答案所提到的，BD在他们的机器人控制算法中并没有使用太多的机器学习。

波士顿动力学公司也没有公布他们使用什么技术，但是我去年现场听了马克·拉贝特（Marc Raibert）在NIPS的演讲，似乎他们的工作是基于“灵活机器人动态顺序组合”（由Burridge，Rizzi，和1999年的Koditscheck（论文：https：//kodlab.seas.upenn.edu/up ...）。

它们都机器人策略使用基于模型的控制器，该控制器又被表示为在局部区域状态空间上操作的“成本漏斗”的顺序组成。

您可以将“系统”（即机器人及其环境）的当前状态视为这些漏斗之一的一个点。

最底部的漏斗的最小值代表系统的“期望状态”，漏斗的结构代表在局部小的局域空间中局部动态的一个合理模型。

这种方法不是建立与状态无关的全局动态模型，而是模拟状态依赖的局部动态，其中状态空间区域由知道如何将系统同轴转移到另一个漏斗（我们还有另一个精确的局部模型）的模型“处理”。

只要状态估计是好的，策略就可以动态稳定地从一个状态转换到另一个状态（理想状态是成本较低）。这就解释了为什么BD的以控制理论为中心的方法依赖于这种精确的驱动和传感器。

我们使用这种方法实现“泛化”的方式是通过人类为国家空间的区域设计手动工程漏斗，并设计出所有漏斗最终导致的吸收性“漏斗”。我怀疑这需要对每个任务进行仔细的设计（例如，一组独立的漏斗可以使机器人直线运动，一组单独的漏斗可以倒转，等等）。这样做的好处是，我们对模型的假设有了很好的理解（因为漏斗是人为处理特定的边缘情况而手工指定的），因此机器人具备稳定性。

缺点是这些控制理论方法需要对每个任务进行完整的模型规范（例如像房屋这样的动态环境的高阶或与滞后的材料或系统可识别性的相互作用）。从长远考虑，也不清楚这些漏斗如何构建，使机器人能够思考，记忆和学习环境。无论你想称之为“在线校准”，“适应”，还是“学习”，完全指定的模型都只能得到你的目标，并且对未知的系统动力学有一定程度的鲁棒性。

Emo Todorov在2017年的一次演讲中给出了一些有关他们策略的见解，迄今为止，这是我能找到的最好的公开描述：

2、Zeeshan Zia, PhD in Computer Vision and Machine Learning

这些全都是专利技术，所以我怀疑有人可以很快公布实际的细节。

我有一个亲密的朋友为有名的学术实验室研究足式的机器人，他们专门采用显式模型，包括用许多微分方程和测量系数的大系统，而不是基于数据是学习。看起来，BD机器人也是如此。

另一方面，一些算法位于控制和主动学习的交集处，包括贝叶斯算法的所有变体，例如卡尔曼滤波器和粒子滤波器。这些可能在BD机器人中使用。

我感觉到这个问题实际上可能是关于强化学习算法的问题，但是我怀疑这些算法是否被使用，因为到目前为止我们还没有看到真实的机器人上的那些令人信服的示范，即使对于更简单的伺服任务也是如此。此外，我还不知道任何重要的深度强化学习研究员加入BD。所以，我们可以肯定，那里没有任何RL被使用。

BD的逐渐进步是基于旧的控制算法，以及小型高精度传感器*，低噪声电机的进步，以及计算能力的指数级增长。

3、 Tarry Singh, M.S / Ph.D Artificial Intelligence & Robotics, Columbia University (2020)

他们确实很酷，不是吗？

他们主要使用足式运动算法来平衡，正如你可以清楚地看到他们的wildcats，跳跃/近距离跳跃机器人一样。

我认为这是令人兴奋的，但也是一个相当具有挑战性的思想，认知和动作/平衡来到机器人。

这本由麻省理工学院出版社出版的书很早就在1986年写得很好， https://mitpress.mit.edu/books/legged-robots-balance