进入人工智能的第三个时代已有二十年,深度学习的兴起带来了两种看似截然不同的现实。在其中一种现实中,深度强化学习、蛋白质折叠和大语言模型等领域取得了巨大成就。然而,在另一种现实中,深度学习赋予机器人在现实环境中可靠操作的承诺仍未兑现。物体的多样性、分布转变和长尾现象:在实验室之外,现实环境对现代统计学习的数据假设提出了挑战。尽管此类环境通常被称为“非结构化”,但这种术语掩盖了它们的本质。现实环境并非“非结构化”,而是由于结构的存在而产生:生成观察数据的潜在因果过程。从这个角度看,机器人不仅应依据数据进行推理和学习,还应理解数据生成过程。这些过程可以通过因果关系的语言形式化。因此,为了学习和利用这些“开放世界”环境的结构,需要新的基于因果关系的机器人学习算法。为实现这一目标,本论文探索了从感知到控制的多种机器人学习问题。首先,我们探讨了如何使用从合成数据到现实数据的转移(如DREAM和FormNet)来学习感知模型。在这些工作中,通过域随机化学习到了相关特征,从而深入了解了如何更直接地使用因果关系来学习结构。为此,我们引入了结构性从模拟到现实的转移,在这种情况下,模拟可以作为因果推理引擎,帮助机器人选择控制策略(如CREST)或技能(如SCALE)的相关特征。通过这种构造,这些策略对无关的分布转变具有鲁棒性,而这些分布转变通常会阻碍基于相关性的深度学习。接下来,通过Learning By Doing(LBD)竞赛和LMeshNet方法,我们探讨了控制、动力系统和因果关系之间的丰富互动,构建了整合潜在信息和语义信息的混合因果世界模型。最后,我们研究了课程学习。在ACL中,我们探讨了人类和代理课程学习的共性和差异。然后,我们运用这些经验教训来进行CURATE:代理如何操纵训练数据的顺序,以有效学习解决特定困难任务的控制策略。因果推理原则在生物医学科学、经济学和基因组学等领域的优势已有目共睹。在机器学习领域,最近有人提出应整合这些原则以利用深度学习,实现因果表示学习。类似地,本论文提出机器人学习领域通过利用因果关系原则也能受益。通过这样做,这一新范式有望使机器人通过因果机器人学习实现操控,从而在开放世界中学习和利用结构。
https://www.ri.cmu.edu/publications/causal-robot-learning-for-manipulation/