【CMU博士论文】以人为中心的强化学习

在医疗、教育、交通运输和网络安全等高风险领域中，智能体需要做出一系列影响现实世界结果的决策。强化学习（Reinforcement Learning, RL）为通过经验训练此类智能体提供了一个自然且强大的框架。然而，尽管近年来取得了显著进展，RL 的部署与应用仍面临若干关键障碍。

首先，一个具备能力的 RL 智能体可能会以违背人类预期的方式行事。在协作或安全关键场景中，难以理解的行为可能会让用户感到困惑，甚至带来新的风险。例如，一辆自动驾驶汽车若突然急转以避免事故，即使它整体上比人类驾驶员更安全，也可能仍被认为不安全。这种感知风险会阻碍其被广泛采用。因此，开发表现出直观行为的智能体往往是实现人机协作与信任的前提。

其次，在安全关键和受监管的领域，解释与审计 AI 决策的能力正日益成为正式要求。然而，大多数 RL 智能体依赖深度神经网络做出决策，而这类模型对人类而言难以理解。因此，可解释性决策成为一个亟待解决的重要问题。

第三，设计者通常难以完全明确地指定智能体的全部期望行为。因此，往往采用固定且简化的奖励函数来作为代理目标。如果该代理目标存在错误或不足，智能体可能会表现出与人类真实期望不一致的行为。因此，如何确保智能体与人类意图、目标和价值观保持一致，成为一项重要挑战。

这些挑战都具有一个共同主题：它们源于 RL 智能体在人类环境中与人类互动或代表人类做出决策。因此，AI 未来的一个关键问题是如何开发能够与人良好协作的智能体。本论文提出了一种以人为中心的 RL 方法，旨在构建和探索具备可解释性、直观性和一致性的 AI 智能体。我们在智能体设计与评估上提出了若干技术进展，解决了由人类参与引出的关键研究问题。

为实现直观行为，我们设计了第一个通过导航图灵测试（navigation Turing test）的 RL 智能体，并研究了人们为何将其行为视为“类人”的原因。为实现可解释性，我们提出并实现了针对 RL 的两种新维度的可解释性算法：在多智能体决策中保持透明性，以及减少对人工标注的依赖。围绕行为一致性，我们提出了一种新的对齐问题表述（基于决策的对齐），并引入了一种能够学习与人类偏好一致的决策策略的算法。同时，我们贡献了用于训练和评估智能体在模糊、不完全指定任务下行为一致性的基准与数据集。最后，本论文讨论了未来研究如何在此基础上进一步推进，以实现能够支持人类繁荣发展的 AI 智能体。

成为VIP会员查看完整内容

相关内容

博士论文

关注 118

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

VIP会员