人工智能研究的目标之一是创建能够通过与环境的交互来从经验(即数据)中改进的决策者(即代理) 环境模型(即世界模型)是代理用来表示其知识的显式方式,使其能够进行反事实预测和规划,而无需额外的环境交互。尽管使用完美环境模型进行规划的代理已经带来了令人印象深刻的成果,例如在棋类游戏中表现出超人水平,但它们仅限于设计者能够指定完美模型的问题。因此,从经验中学习模型有望超越设计者的能力范围,形成一个自我改进的恶性循环:(i) 从过去的经验中学习模型;(ii) 使用学习到的模型进行规划;(iii) 与环境交互,收集新的经验。理想情况下,学习到的模型应该能够推广到训练范围以外的情况。然而,当使用有限数据进行模型学习时,这个目标往往是雄心勃勃且不现实的,导致通常不完美的模型,而在训练分布以外的新情境中,天真的规划可能是灾难性的。一个更务实的目标是拥有能够意识到并量化其知识缺乏(即无知或认知不确定性)的代理。
在这篇论文中,我们激励并展示了使用学习到的模型进行规划的无知感知代理的有效性,并提出了新的无知感知代理。天真地将强大的规划算法应用于学习到的模型上可能会产生负面结果,当规划算法在训练分布以外的情况下利用模型缺陷时,这种现象通常被称为过度优化,可以通过优化增强无知目标,即知识等价物来解决。我们在多个问题设置中验证了我们的理念和方法,包括从(i)专家示范中学习(模仿学习,§3);(ii)次优示范中学习(社会学习,§4);以及(iii)与带有奖励的环境交互中学习(强化学习,§5)。我们的实验证据基于模拟的自动驾驶环境、连续控制和像素级视频游戏以及小规模的教学网格世界。在整个论文中,我们使用神经网络来参数化(可学习的)模型,并使用现有的可扩展的近似无知量化深度学习方法,如集成,或引入新的规划特定方法来量化代理的无知。
牛津大学是一所英国研究型大学,也是罗素大学集团、英国“G5超级精英大学”,欧洲顶尖大学科英布拉集团、欧洲研究型大学联盟的核心成员。牛津大学培养了众多社会名人,包括了27位英国首相、60位诺贝尔奖得主以及数十位世界各国的皇室成员和政治领袖。2016年9月,泰晤士高等教育发布了2016-2017年度世界大学排名,其中牛津大学排名第一。