在为许多现实世界的问题指定奖励方面的困难导致人们越来越关注从人的反馈中学习奖励,比如演示。然而,通常有许多不同的奖励功能来解释人类的反馈,这让智能体不确定什么是真正的奖励功能。虽然大多数策略优化方法通过优化预期性能来处理这种不确定性,但许多应用需要规避风险行为。我们推导了一种新的策略梯度式鲁棒优化方法PG-BROIL,它优化了平衡预期性能和风险的软鲁棒目标。据我们所知,PG-BROIL是第一个对奖励假设分布鲁棒的策略优化算法,该假设可以扩展到连续的MDPs。结果表明,PG-BROIL可以产生一系列从风险中性到风险厌恶的行为,并通过对冲不确定性从模糊的演示中学习,而不是寻求唯一识别演示者的奖励功能时,表现优于最先进的模仿学习算法。
https://www.zhuanzhi.ai/paper/a367014851df7b705e67adc94da69694