在过去的几十年里,机器人已经展现出卓越的能力,从执行外科手术到探索太空,成就斐然。尽管取得了诸多进展,机器人仍未普及到我们的日常生活中;相反,它们仍局限于执行那些人类可以预先穷举所有可能情境的任务。实现机器人自主性的核心挑战在于物理世界的多样性与不可预测性。人类在不断面对新情境时,能够迅速适应并作出反应。那么,我们是否也能通过让机器人在线学习来自真实世界的经验,使其能够应对这个充满不确定性的世界?

强化学习为通过与环境的交互和反馈进行学习提供了理论框架。在本论文中,我们研究了将强化学习应用于非实验室环境下的真实机器人系统所面临的挑战,并在此过程中提出了算法解决方案、开展了实证分析,并构建了验证其有效性的实用训练系统。我们首先构建了一个用于腿式机器人运动学习的系统,结合了模拟预训练、自主故障恢复、多任务训练、机载传感器与高样本效率的强化学习方法,实验证明,少量的真实世界实践即可在非结构化环境中实现有效的微调。

接下来,我们展示了如何利用更复杂的奖励函数实现高效学习,这些奖励源于现实世界中普遍可用的监督信号:人类偏好。我们进一步简化了假设条件,探索了在真实世界中直接进行学习的方式,构建了一个系统,使四足机器人能够完全基于真实经验在各种自然环境中学会行走。

最后,我们将目光投向更复杂任务的学习,重点在于如何利用先验知识。我们首先扩展了高效学习框架,使其能够有效吸收离线的、质量不一的数据。我们探讨了该方法在机器人应用中的实用性,实验显示该方法能够实现灵活的高动态四足运动,如奔跑跳跃双足行走等复杂行为。最后,我们进一步探索了**基础模型(foundation models)如何将语言条件操控(language-conditioned manipulation)**能力迁移到现实世界中的新场景。

成为VIP会员查看完整内容
1

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
微信扫码咨询专知VIP会员