多年来,工厂里的机器人就像技术熟练但缺乏灵活性的工人,在完成特定任务时能力很强,但无法适应或学习新任务。它们使用复杂的、针对特定制造商的语言进行编程,因此专业性很强,但通用性不高。然而,随着我们步入第四次工业革命时代,对这些机器人工人的要求正在发生变化。现在,它们需要更像瑞士军刀:多才多艺、适应性强,随时准备迎接新的挑战。
在这里,"机器人技能 "的概念应运而生--可以把它们想象成机器人的应用程序。就像你在智能手机上下载应用程序来赋予它新的功能一样,机器人技能也是一种程序,可以通过混合和匹配来教授机器人新的任务。这些技能并非一招鲜;它们可重复使用,并可根据不同需求进行调整,从而使机器人编程更加灵活。
但是,这些机器人如何知道该做什么以及在哪里做呢?这就是 "世界模型 "的作用所在。它就像地图和指南合二为一,包含机器人所处环境和能力的相关信息。例如,如果要求机器人去取一杯咖啡,世界模型可以帮助它了解厨房在哪里、咖啡机在哪里以及如何操作。这就好比让机器人对自己的世界有一个基本的了解,并知道如何导航。
现在,教机器人新技能是一回事,但教它自学又如何呢?这正是我们的研究出现令人兴奋的转机的地方。我们正在使用强化学习--一种让机器人通过尝试和错误来学习的方法,就像人类学习一样。机器人会尝试不同的方法,从反馈中学习,并逐渐改进自己的策略。这就像婴儿学习走路一样,蹒跚学步,渐入佳境。
但问题是:教机器人学习并不简单。研究重点是让这一学习过程变得更简单、更高效,即使对于那些不是机器人专家的人来说也是如此。正在寻找加快学习速度的方法,比如给机器人 "提示",或者在真实世界中进行尝试之前使用模拟器进行练习。此外,我们正在教机器人处理各种任务,而不是每次都从头开始。
方法结合了规划、机器人技能和学习,比传统方法快得多。正在模拟环境和真实机器人上测试这种方法,重点是涉及大量接触的任务,如操作物体或擦拭表面。
总之,不只是教机器人新的技巧,而是让它们能够学习和适应,使它们能够满足现代工业世界不断变化的需求。
图 8:SkiROS2 的结构。世界模型(WM)存储知识和关系。任务管理器创建任务级计划。图形用户界面(GUI)降低了与系统交互的门槛。