我们采用博弈论框架中的辅助博弈(assistance games)来研究人类与AI的对齐问题。过去关于辅助博弈的研究探讨了人类和AI助手都能完全观察环境的物理状态的情况。在此基础上,我们将研究推广到人类和助手可能只能部分观察环境的情况,并提出了部分可观察辅助博弈(POAG)。通过POAG框架,我们证明了关于AI助手的多种理论结果。我们首先考虑了观察干扰的问题,展示了三种可能导致最优AI助手干扰人类观察的因素。然后,我们重新审视了关于所谓**关闭开关问题(off-switch problem)**的过去保证,表明部分可观察性对设计能够自我关闭的AI助手提出了新的挑战。最后,我们分析了部分可观察性如何导致通过人类反馈进行强化学习——一种广泛应用于训练AI助手的算法——陷入欺骗性失败模式。我们最后讨论了将这些理论见解转化为改进有益AI助手技术的可能路径。

成为VIP会员查看完整内容
0

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【博士论文】学习对象和关系的结构化表示
专知会员服务
28+阅读 · 2024年10月14日
【MIT博士论文】物理启发的生成式模型
专知会员服务
30+阅读 · 2024年9月6日
【MIT博士论文】理解与提升机器学习模型的表征鲁棒性
专知会员服务
26+阅读 · 2024年8月26日
【牛津大学博士论文】抗规避攻击鲁棒学习的样本复杂度
【ICML2023】知识蒸馏对模型可解释性的影响
专知会员服务
37+阅读 · 2023年5月27日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
论文浅尝 | 远程监督关系抽取的生成式对抗训练
开放知识图谱
17+阅读 · 2018年7月12日
回归预测&时间序列预测
GBASE数据工程部数据团队
43+阅读 · 2017年5月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
160+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
419+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
Arxiv
150+阅读 · 2023年3月24日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【博士论文】学习对象和关系的结构化表示
专知会员服务
28+阅读 · 2024年10月14日
【MIT博士论文】物理启发的生成式模型
专知会员服务
30+阅读 · 2024年9月6日
【MIT博士论文】理解与提升机器学习模型的表征鲁棒性
专知会员服务
26+阅读 · 2024年8月26日
【牛津大学博士论文】抗规避攻击鲁棒学习的样本复杂度
【ICML2023】知识蒸馏对模型可解释性的影响
专知会员服务
37+阅读 · 2023年5月27日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员