这位伯克利小姐姐，让机器人能“预见未来”

2017 年 12 月 14 日 智东西 轩窗

看点：伯克利AI实验室研发出新技术“视觉预见” ，让机器人“边玩边学”。

几日前，美国加州大学伯克利分校（简称UC Berkeley）AI实验室推出了一款名叫Vestri的机器人。虽然它没有波士顿动力Atlas那样能后空翻的本事，也没有俄罗斯机器人Fedor射击、开车的酷炫本领，但却凭借“预见未来”的超凡能力赢得了大家的关注。

所谓的“预见未来”并不像极具玄幻色彩的水晶球、塔罗牌那样，Vestri只是一个好学的“孩子”，它通过用各种能想到的方式“把玩”面前的物品，并通过摄像头采集视频信息，Vestri会记下每次移动物体时的路线。当Vestri面对了一个新的物品，不用再动手玩耍，Vestri也会知道采取哪种方式移动，物体的位置将发生哪种变化。

也许你会有点失望，Vestri并不是你想象中的人类先知那样能预见世事，但对于目前的机器人来说，这确实算是一项超凡的能力了。Vestri拥有如此超凡能力的原因，来源于伯克利AI实验室研发的一项深度学习新技术——视觉预见。这是一项什么样的技术？是谁研发了它？这项技术对机器人行业将有怎样的影响呢？

“可预见未来”机器人Vestri

据伯克利AI实验室公布的视频可以看到，Vestri拥有一条红色的机械手臂和一台显示面部表情的显示器组成。手臂的终端有两半抓取钳组成。从外观上看，Vestri并不像人形机器人那么讨喜，也没有工业机器人庞大的身躯。

但这并不阻碍Vestri成为聪明的机器人，从视频上我们可以看到，Vestri像人类婴儿一样，摆弄着眼前的玩具。这样一个机器人到底有什么稀奇的呢？

1、Vestri两大特点

区别于以往机器人，Vestri具有完全自学执行任务和可预测行动结果两大特点。

（1）完全自学执行任务

许多常见的机器人只会按照给定的程序处理物体，没有“自己的想法”，和机器无异。但Vestri看到眼前的物体后，会生成自己的判断和想法，并据此不断探索如何去“把玩”，整个过程完全不需要人类的监督，可以说是“自学成才”了。

Vestri的研发者之一，加州伯克利大学分校的助理教授Sergey Levine说“虽然这种机器人的能力还很有限，但它完全是自动学习技能的，Vestri根据已记录的交互模式（这些交互模式来自它之前自主学习的过程）来预测与未见过的新物体进行复杂物理交互时，选择不同的方式分别会产生哪种结果。”

（2）可预测行动结果

常见的机器人都是按照事先预设好的指令代码进行执行，它们只理会“做”或者“不做”动作，并不会考虑这些动作是否会带来不好的结果。

Vestri可以在执行特定动作之前，就预测到这种动作将会产生怎样的结果。当然它能实现这种“特异功能”，得益于它在之前“摆弄”物体时，通过自带摄像头收集到了大量的数据。这些图像数据信息就存储在Vestri的系统内，预测图像的像素将如何从一帧移动到下一帧。

2、Vestri背后的新技术

Vestri机器人本身并无特别之处，而它两大特点，其实都基于一项最新的技术——“视觉预见”（visual foresight）。

该项技术由伯克利AI实验室研发，其技术核心是基于卷积循环视频预测（convolutional recurrent video prediction）或动态神经平流（简称DNA）（dynamic neural advection）的深度学习技术。

“视觉预见”背后的两位研究者

这项即将改变人工智能世界的学习技术，背后有研究员们辛勤的努力。目前Vestri运用的只是这项技术的早期的原型，只是教会机器人如何自主学习一些独立的手工技能。虽然目前的技术只能使机器人预测几秒钟时间，但足以让他们计算如何躲避障碍，成功地移动桌子上的物体。

视觉预见技术来自加州伯克利大学AI实验室，而这项技术与以下两位息息相关。

1、Sergey Levine

Sergey Levine是UC Berkeley电气工程和计算机科学系的助理教授。目前他主要在两大研究中心活动：伯克利AI实验室（简称BAIR）和加州大学社会利益信息技术研究中心人与机器人部门（简称CPAR）。

2009年Sergey Levine同时获得斯坦福大学计算机科学学士和硕士学位，并于2014年获得斯坦福大学计算机科学博士学位。2016年秋季他加入UC Berkeley电气工程与计算机科学系，主要研究用于决策和控制的机器学习技术，重点研究深入学习和强化学习算法。工作的应用包括自动机器人和车辆，以及计算机视觉和图形。

他的研究包括开发结合感知和控制的深度神经网络策略中的端到端训练算法、逆向强化学习可伸缩算法、深度强化学习算法等。2016年他与Chelsea合作发表了“视觉预见”技术论文。此外，他还入选2016年MIT35岁以下科技创新者评选前35名。

2、Chelsea Finn

Chelsea Finn是Levine实验室的一名博士研究生，她发明了最初的DNA模型。

2014年Chelsea Finn毕业于麻省理工大学电气工程与计算机科学学院，2014年进入UC Berkeley攻读PHD（学术研究型博士），主要研究机器人感知与控制。在进入BAIR之前，Chelsea Finn还曾在Consyl、Google和Sandia国家实验室工作过。

2016年Chelsea Finn以第一作者的身份发表论文《面向机器人运动规划的深度视觉预见》，该论文在2017年3月更新了第二版。

伯克利AI实验室

UC Berkeley成立于1868年，全美排名21，该校有130个专业排名前10，其中土木工程、环境工程、生态学、化学、计算机相关专业均位列全美第一。此外，该校有许多知名校友如戈登·摩尔、朱棣文、丘成桐等。国际知名的科学奖项如诺贝尔奖、菲尔兹奖、图灵奖等也让伯克利的校友们拿到手软。UC Berkeley成立了70多个研究中心和实验室，伯克利AI实验室（简称BAIR）就是其中之一。

伯克利AI实验室有目前有24名教师和100多名研究生，主要研究领域有计算机视觉、机器学习、自然语言处理和机器人。

2016年，实验室博客BAIR开博，BAIR 博文的作者们包括在校学生、博士后及教职员工。博客内容不仅面向专业人员，还面向普通读者们，并为他们及时提供实验室的研究动态。

伯克利AI实验室的研究成果也是层出不穷，之前其实验室负责人Pieter Abbeel就曾与OpenAI的同事合作建立了初创公司“Embodied Intelligence”，开发出一款用AR训练机器人的软件。

本月2号，其实验室还发布了最新的研究论文《基于模型的无模型精调深度强化学习的神经网络动力学》，可以使机器人17分钟就学会轨迹跟踪。

就在12号BAIR博客上又更新了一条消息，他们研发了用于机械系统控制( MSC)的机器人安全交互系统，该系统将保障人类在人机协作过程中的安全。

结语：视觉预见技术两大应用前景

“视觉预见”技术，运用的是机器人自己收集到的视频信息，这就使得这项技术具有了普遍适用的基础。

与传统计算机视觉需要人类标注成千上百万的图像不同，构建视频预测模型只需要机器人自己采集到的视频而无需标注。事实上，视频预测模型也已经被应用于从人类活动到驾驶的各种数据集，并且取得了令人信服的结果。

Vestri集成的这项技术可以被用于自动驾驶系统，目前，自动驾驶是十分热门的领域，各大公司都在争相研发无人驾驶车辆。使车辆在路上跑起来并不是大问题，最重要的问题是车辆如何躲避障碍以及突然出现的障碍物。视觉预见技术将能够通过预测突发障碍物的行动轨迹，为自动驾驶汽车规划最佳的躲避路线，从而保障了驾驶的安全。

除了用于自动驾驶，视觉预见技术还能用于研发更加智能的家庭机器人助理。尤其对有老人和小孩的家庭来说，集成视觉预见技术的机器人将可预测摔倒等危险情况的发生，并及时采取措施防患于未然。

不过，目前这一技术还不够完善，它只能预测未来几秒内的动作，并且这些预测的依据也是机器人在之前自主学习过程中收集过的视频信息。伯克利AI实验室的研究员们说将继续开发更复杂的方法，使机器人可收集更集中的视频数据，完成复杂的任务。