许多目前自动化的顺序决策问题,例如制造业或推荐系统中的问题,都是在几乎没有不确定性或零灾难风险的环境中运行的。随着公司和研究人员试图在较少约束的环境中部署自主系统,赋予序列决策算法对不确定性和风险进行推理的能力变得越来越重要。在本文中,我们将讨论序列决策的规划和强化学习(RL)方法。在规划设置中,假设提供了一个环境模型,并在该模型中优化策略。强化学习依赖于广泛的随机探索,因此通常需要一个模拟器来进行训练。在现实世界的许多领域,不可能构建一个完全准确的模型或模拟器。因此,由于对环境的不完全了解,任何策略的执行都不可避免地具有不确定性。此外,在随机领域中,由于环境固有的随机性,任何给定运行的结果也是不确定的。这两种不确定性的来源通常分别被归类为认知的不确定性和偶然的不确定性。本文的首要目标是帮助开发算法,以减轻序列决策问题中的两种不确定性来源。
本文为这一目标做出了一些贡献,重点是基于模型的算法。本文从考虑马尔可夫决策过程(MDP)完全已知的最简单情况开始,提出了一种优化风险规避目标的方法,同时将优化期望值作为次要目标。对于本文的其余部分,我们不再假设MDP是完全指定的。考虑MDP上不确定性的几种不同表示,包括a)候选MDP的不确定性集合,b) MDP的先验分布,以及c)与MDP交互的固定数据集。在设置a)中,提出了一种新的方法来近似最小化最大遗憾目标,并在所有候选MDP中找到一个低次优的单一策略。在b)中,我们建议在贝叶斯自适应MDP中优化风险规避,以在单一框架下避免认知和偶然不确定性带来的风险。在c)中,离线强化学习设置,本文提出两种算法来克服由于只能访问固定数据集而产生的不确定性。第一种方法提出了一种可扩展的算法来解决离线强化学习的鲁棒MDP公式,第二种方法基于风险敏感优化。在最后一章中,我们考虑一种从演示中学习的交互式表述。在这个问题上,有必要对当前政策执行的不确定性进行推理,有选择地选择何时要求进行示威。实验证明,所提出的算法可以在许多不同的领域中产生风险敏感或鲁棒的行为。