自主机器人正日益部署于复杂且有人类参与的环境中。为了在这些环境中实现高性能与高可信度,机器人不仅需要能够从数据中学习并适应环境中的动态不确定性,还必须能够对人类相关的安全问题进行稳健推理。传统方法往往将学习与安全相互割裂,或依赖过于简化的假设——例如假定人类意图或行为在交互过程中保持静态——从而增加了从社会性僵局到灾难性安全失效的风险。 本论文提出了一个统一的博弈论框架,用于在人本机器人学中融合安全与学习,重点探讨能够在高风险、多智能体环境中实现可扩展且可验证决策的算法方法。具体而言,论文论述了如何在物理状态与信息状态(如信念)的联合空间中进行规划,使机器人能够在人本场景中做出安全且自适应的决策。 首先,论文引入了一种通用安全过滤器框架(universal safety filter framework),该框架将稳健安全分析与概率推理相结合,实现可信的人机交互。通过闭合交互—学习回路,机器人能够在不牺牲安全性的前提下降低过度保守性。 随后,研究探讨了**博弈论强化学习(game-theoretic reinforcement learning)如何在可计算的条件下为高维人类参与系统合成安全过滤器,既能保证训练收敛性,又能在存在对抗性输入的情况下减少策略的可被利用性。 从更宏观的层面看,论文进一步研究了如何将博弈论式的协调机制扩展至大规模多智能体系统,以优化整体协同性能。通过结合机器人学习与基于模型的博弈论规划思想,作者展示了如何融合两者优势——既利用模型先验知识对安全与交互进行显式推理,又发挥学习行为模型的强泛化能力——从而合成兼具安全性与适应性的机器人策略。 论文最后展望了下一代人本自治系统(human-centered autonomy)**的发展愿景:这些系统不仅能通过物理干预保障安全、增强信任,还能在部署于真实物理环境中时,主动与人类伙伴进行价值对齐,并提供可验证的安全保障。