机器学习的现实应用通常具有复杂的目标和安全关键约束。当代的机器学习系统擅长于在具有简单程序指定目标的任务中实现高平均性能,但它们在许多要求更高的现实世界任务中很困难。本文致力于开发可信的机器学习系统,理解人类的价值观并可靠地优化它们。
机器学习的关键观点是,学习一个算法通常比直接写下来更容易,然而许多机器学习系统仍然有一个硬编码的、程序指定的目标。奖励学习领域将这种见解应用于学习目标本身。由于奖励函数和目标之间存在多对一的映射,我们首先引入由指定相同目标的奖励函数组成的等价类的概念。
在论文的第一部分,我们将等价类的概念应用于三种不同的情形。首先,我们研究了奖励函数的可识别性:哪些奖励函数集与数据兼容?我们首先对诱导相同数据的奖励函数的等价类进行分类。通过与上述最优策略等价类进行比较,我们可以确定给定数据源是否提供了足够的信息来恢复最优策略。
其次,我们解决了两个奖励函数等价类是相似还是不同的基本问题。我们在这些等价类上引入了一个距离度量,即等价策略不变比较(EPIC),并表明即使在不同的过渡动态下,低EPIC距离的奖励也会诱导具有相似回报的策略。最后,我们介绍了奖励函数等价类的可解释性方法。该方法从等价类中选择最容易理解的代表函数,然后将代表函数可视化。
在论文的第二部分,我们研究了模型的对抗鲁棒性问题。本文首先介绍了一个物理上现实的威胁模型,包括在多智能体环境中行动的对抗性策略,以创建对防御者具有对抗性的自然观察。用深度强化学习训练对手,对抗一个冻结的最先进的防御者,该防御者通过自训练,以对对手强大。这种攻击可以可靠地战胜最先进的模拟机器人RL智能体和超人围棋程序。
最后,研究了提高智能体鲁棒性的方法。对抗性训练是无效的,而基于群体的训练作为一种部分防御提供了希望:它不能阻止攻击,但确实增加了攻击者的计算负担。使用显式规划也有帮助,因为我们发现具有大量搜索的防御者更难利用。
。