最先进的机器学习模型极为强大,最终正在突破进入计算机视觉和自然语言处理的商业产品领域。这些成功模型的共同特点是,它们都需要大量的数据集进行训练。
沿着这一趋势,大规模基于学习的方法为机器人研究提供了一条有前景的发展路径。这种思路自然引出了两个问题:我们能从哪里收集合适的数据?如何利用这些数据创造有效的机器人系统?幸运的是,已经存在大量数据,展示了机器人需要理解的现实环境和交互的复杂性,这些数据以视频的形式存在。然而,这些视频数据不能直接应用传统的机器人学习技术。视频可能缺乏明确的动作或目标标签,通常展示的是次优的轨迹,并且在视觉上和动态上存在显著的体现差距。这些挑战突显了需要新的机器人学习方法,以克服这些障碍。在本研究中,我们展示了通过“野外视频”实现大规模机器人学习目标的努力,开发了针对每个限制机器人从视频中学习的挑战的解决方法。我们介绍了如何从未标注的视频数据中推断动作和目标,如何从次优数据中学习最佳行为,并通过利用因子化表示来解决体现差距问题。总体而言,本论文为如何利用视频数据进行大规模机器人学习奠定了基础。我们希望这项工作能成为实现通用机器人代理的一步,从而在世界上产生积极的影响。