一个智能体的显著特点是能够作出一系列聪明的决策,这些决策被协同执行以达到目标。通过观察人类,我们可以看到,一个精炼的序贯决策制定策略会产生优雅的行为,如平稳驾驶、灵巧的步态和审慎的投资。由于长期视野的信用分配、在指数级大的搜索空间中的探索以及设计合适的奖励函数来鼓励正确行为等问题,学习最优的序贯决策制定策略是具有挑战性的。
在这篇论文中,我们对人类所从事的最自然的学习形式之一感兴趣:从观察中学习。我们希望重点关注的是那些通过观察其他理性智能体所展示的最优行为来实现数据驱动学习的序贯决策制定策略的算法。这个过程主要包括两个步骤:理解和采纳。在第一部分,我们讨论如何设计算法,使得一个智能体能够理解并因此内化理性行为。我们开发了一个主动的世界模型学习算法,使得一个主体智能体能够通过有效地引导其注意力来构建由类人智能体所示的复杂行为的模型。我们进一步探讨了通过逆向强化学习构建其他理性智能体模型的可行性。在第二部分,我们开发了从示范中采纳理性行为的方法。在存在领域不匹配,如形态和视点差异的情况下,我们开发了模仿学习的算法。我们进一步提出了通过逆向强化学习进行模仿的算法,其中我们提出了从复杂行为,如机器人步态的示范中提取潜在奖励的算法。我们希望这些贡献能使我们更接近用机器学习解决真实世界的序贯决策制定问题。