自主机器人正日益部署于复杂且有人类参与的环境中。为了在这些环境中实现高性能与高可信度,机器人不仅需要能够从数据中学习并适应环境中的动态不确定性,还必须能够对人类相关的安全问题进行稳健推理。传统方法往往将学习与安全相互割裂,或依赖过于简化的假设——例如假定人类意图或行为在交互过程中保持静态——从而增加了从社会性僵局到灾难性安全失效的风险。 本论文提出了一个统一的博弈论框架,用于在人本机器人学中融合安全与学习,重点探讨能够在高风险、多智能体环境中实现可扩展且可验证决策的算法方法。具体而言,论文论述了如何在物理状态与信息状态(如信念)的联合空间中进行规划,使机器人能够在人本场景中做出安全且自适应的决策。 首先,论文引入了一种通用安全过滤器框架(universal safety filter framework),该框架将稳健安全分析与概率推理相结合,实现可信的人机交互。通过闭合交互—学习回路,机器人能够在不牺牲安全性的前提下降低过度保守性。 随后,研究探讨了**博弈论强化学习(game-theoretic reinforcement learning)如何在可计算的条件下为高维人类参与系统合成安全过滤器,既能保证训练收敛性,又能在存在对抗性输入的情况下减少策略的可被利用性。 从更宏观的层面看,论文进一步研究了如何将博弈论式的协调机制扩展至大规模多智能体系统,以优化整体协同性能。通过结合机器人学习与基于模型的博弈论规划思想,作者展示了如何融合两者优势——既利用模型先验知识对安全与交互进行显式推理,又发挥学习行为模型的强泛化能力——从而合成兼具安全性与适应性的机器人策略。 论文最后展望了下一代人本自治系统(human-centered autonomy)**的发展愿景:这些系统不仅能通过物理干预保障安全、增强信任,还能在部署于真实物理环境中时,主动与人类伙伴进行价值对齐,并提供可验证的安全保障。

成为VIP会员查看完整内容
0

相关内容

【CUHK博士论文】现代机器学习中的因果性学习
专知会员服务
34+阅读 · 1月24日
【斯坦福博士论文】协作多机器人学习算法
专知会员服务
17+阅读 · 1月6日
【普林斯顿博士论文】理解数据在模型决策中的作用
专知会员服务
41+阅读 · 2024年4月26日
盘点当下大热的 7 大 Github 机器学习『创新』项目
机器学习算法与Python学习
13+阅读 · 2019年9月20日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
16+阅读 · 2019年1月24日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
484+阅读 · 2023年3月31日
Arxiv
175+阅读 · 2023年3月24日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员