为了让智能体(例如机器人)无缝融入人类社会,人类必须能够理解它们的决策过程。例如,自动驾驶汽车的决策过程必须对认证其安全的工程师、乘坐它们的乘客以及同时在道路上驾驶的附近司机清晰可见。由于智能体的决策在很大程度上取决于其奖励函数,我们专注于向人类教授智能体奖励函数。通过类似于逆强化学习(IRL)的推理,人类自然能够推断出决策展示背后的奖励函数。因此,智能体可以通过对IRL有信息量的展示来教授它们的奖励函数。然而,我们批判性地指出,IRL没有考虑到人类从每个展示中学习的难度。因此,本论文提出了将教育文献中的原则与IRL教学相结合,以提供属于人类近端发展区(ZPD)或他们的“刚刚好”区域的展示,即展示既不太简单也不太困难,考虑到他们当前的信念。本论文在以下三个领域提供了贡献。
首先,我们考虑通过精选展示教授奖励函数的问题。基于ZPD,我们使用脚手架策略传递渐进增加信息增益和难度的展示,以便使人类更容易学习。重要的是,我们认为,展示的信息增益不是固有于展示本身,而必须基于人类当前的信念。因此,一个有信息量的展示相应地是指那些与人类对智能体将会采取的行为的当前理解(即反事实)有显著差异的展示。
其次,我们考虑通过要求人类在新环境中预测智能体行为来测试人类从展示中学到了多少的问题。我们展示了两种衡量测试难度对人类的方法。第一种是一个粗略的难度衡量方法,它将测试难度与答案揭示智能体奖励函数的信息增益相关联。第二种是一个更加定制化的衡量方法,它根据人类对奖励函数当前的信念来确定测试的难度,将难度估算为会产生正确答案的人类信念的比例。
最后,我们介绍了一个将教学和测试结合起来的闭环教学框架。虽然有信息量的教学展示可能会提前选定,但学生的学习可能会现场偏离预选课程。因此,我们的教学框架提供了间歇性的测试和反馈,介于相关展示组之间,以两种方式支持定制化指导。首先,我们能够维护一个关于人类信念的新颖粒子滤波模型,并提供针对人类当前理解的定制化展示。其次,我们能够利用测试不仅作为评估工具,也作为根据教育文献中的测试效应进行教学的工具。
通过各种用户研究,我们发现针对人类近端发展区(ZPD)的示范可以增加学习成果(例如,人类预测智能体在新环境中行动的能力)。然而,我们发现学习收益可能与人类更新其信念所需的增加的心理努力有关,这再次强调了选择与人类预期刚好有所不同以至于有信息量但又不太难以理解的示范的重要性。我们还看到,这样的有信息量示范通常会照亮智能体奖励函数中可能细微且难以预测的固有权衡,例如智能体愿意绕过潜在危险地形(如泥地)的距离。最后,我们在后期用户研究中发现我们的各种网格世界领域和我们的结果之间有趣的交互效应,并且我们提供了进一步的见解,关于如何根据观察到的最佳教学方法可能依赖于领域的特点来表征领域。