【伯克利博士论文】在部分可观察性下的对齐问题 - 专知VIP

会员服务 ·

13

博士论文 · 对齐学习 ·

【伯克利博士论文】在部分可观察性下的对齐问题

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

我们采用博弈论框架中的辅助博弈（assistance games）来研究人类与AI的对齐问题。过去关于辅助博弈的研究探讨了人类和AI助手都能完全观察环境的物理状态的情况。在此基础上，我们将研究推广到人类和助手可能只能部分观察环境的情况，并提出了部分可观察辅助博弈（POAG）。通过POAG框架，我们证明了关于AI助手的多种理论结果。我们首先考虑了观察干扰的问题，展示了三种可能导致最优AI助手干扰人类观察的因素。然后，我们重新审视了关于所谓**关闭开关问题（off-switch problem）**的过去保证，表明部分可观察性对设计能够自我关闭的AI助手提出了新的挑战。最后，我们分析了部分可观察性如何导致通过人类反馈进行强化学习——一种广泛应用于训练AI助手的算法——陷入欺骗性失败模式。我们最后讨论了将这些理论见解转化为改进有益AI助手技术的可能路径。

成为VIP会员查看完整内容

20

相关内容

博士论文

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【斯坦福博士论文】探索自监督学习中对比学习的理论基础

【斯坦福博士论文】探索自监督学习中对比学习的理论基础

专知会员服务

34+阅读 · 2024年12月21日

【博士论文】学习对象和关系的结构化表示

【博士论文】学习对象和关系的结构化表示

专知会员服务

31+阅读 · 2024年10月14日

【牛津博士论文】大规模观测因果机器学习中的结构与统计不确定性

【牛津博士论文】大规模观测因果机器学习中的结构与统计不确定性

专知会员服务

25+阅读 · 2024年9月29日

【牛津大学博士论文】观察性因果机器学习中的结构性和统计不确定性

【牛津大学博士论文】观察性因果机器学习中的结构性和统计不确定性

专知会员服务

26+阅读 · 2024年9月24日

【MIT博士论文】物理启发的生成式模型

【MIT博士论文】物理启发的生成式模型

专知会员服务

31+阅读 · 2024年9月6日

【MIT博士论文】理解与提升机器学习模型的表征鲁棒性

【MIT博士论文】理解与提升机器学习模型的表征鲁棒性

专知会员服务

26+阅读 · 2024年8月26日

【剑桥大学博士论文】可识别的因果表示学习：无监督、多视图和多环境

【剑桥大学博士论文】可识别的因果表示学习：无监督、多视图和多环境

专知会员服务

32+阅读 · 2024年6月25日

【牛津大学博士论文】抗规避攻击鲁棒学习的样本复杂度

【牛津大学博士论文】抗规避攻击鲁棒学习的样本复杂度

专知会员服务

22+阅读 · 2023年8月29日

【ICML2023】知识蒸馏对模型可解释性的影响

【ICML2023】知识蒸馏对模型可解释性的影响

专知会员服务

37+阅读 · 2023年5月27日

【哥本哈根博士论文】因果性与泛化:可识别性与学习方法

专知会员服务

65+阅读 · 2021年10月18日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知

11+阅读 · 2021年2月8日

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知

12+阅读 · 2020年6月9日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

专知

23+阅读 · 2019年12月8日

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

专知

171+阅读 · 2019年10月28日

论文浅尝 | 将文本建模为关系图，用于联合实体和关系提取

论文浅尝 | 将文本建模为关系图，用于联合实体和关系提取

开放知识图谱

77+阅读 · 2019年9月14日

论文浅尝 | 远程监督关系抽取的生成式对抗训练

论文浅尝 | 远程监督关系抽取的生成式对抗训练

开放知识图谱

17+阅读 · 2018年7月12日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

回归预测&时间序列预测

回归预测&时间序列预测

GBASE数据工程部数据团队

43+阅读 · 2017年5月17日

格点问题与振荡积分理论

国家自然科学基金

0+阅读 · 2015年12月31日

合作均衡的本质稳定性研究

国家自然科学基金

0+阅读 · 2015年12月31日

融合系分类问题及其特征幂等元研究

国家自然科学基金

1+阅读 · 2015年12月31日

带有前馈矩阵的线性系统的标准分解及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于贝叶斯观点的分数阶扩散方程反问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

相依回归模型与扩散过程的统计推断及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

相依重尾随机变量和的渐近性及其在更新风险模型中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

分数阶扩散方程反向问题的正则化理论与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

网络的小世界结构及其上随机游动的混合时

国家自然科学基金

1+阅读 · 2014年12月31日

基于狄利克雷过程的潜变量模型贝叶斯半参数分析

国家自然科学基金

2+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

165+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

37+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

98+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

203+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

79+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

448+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

140+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

76+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

165+阅读 · 2023年3月24日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

VIP会员

相关主题

相关VIP内容

【斯坦福博士论文】探索自监督学习中对比学习的理论基础

【斯坦福博士论文】探索自监督学习中对比学习的理论基础

专知会员服务

34+阅读 · 2024年12月21日

【博士论文】学习对象和关系的结构化表示

【博士论文】学习对象和关系的结构化表示

专知会员服务

31+阅读 · 2024年10月14日

【牛津博士论文】大规模观测因果机器学习中的结构与统计不确定性

【牛津博士论文】大规模观测因果机器学习中的结构与统计不确定性

专知会员服务

25+阅读 · 2024年9月29日

【牛津大学博士论文】观察性因果机器学习中的结构性和统计不确定性

【牛津大学博士论文】观察性因果机器学习中的结构性和统计不确定性

专知会员服务

26+阅读 · 2024年9月24日

【MIT博士论文】物理启发的生成式模型

【MIT博士论文】物理启发的生成式模型

专知会员服务

31+阅读 · 2024年9月6日

【MIT博士论文】理解与提升机器学习模型的表征鲁棒性

【MIT博士论文】理解与提升机器学习模型的表征鲁棒性

专知会员服务

26+阅读 · 2024年8月26日

【剑桥大学博士论文】可识别的因果表示学习：无监督、多视图和多环境

【剑桥大学博士论文】可识别的因果表示学习：无监督、多视图和多环境

专知会员服务

32+阅读 · 2024年6月25日

【牛津大学博士论文】抗规避攻击鲁棒学习的样本复杂度

【牛津大学博士论文】抗规避攻击鲁棒学习的样本复杂度

专知会员服务

22+阅读 · 2023年8月29日

【ICML2023】知识蒸馏对模型可解释性的影响

【ICML2023】知识蒸馏对模型可解释性的影响

专知会员服务

37+阅读 · 2023年5月27日

【哥本哈根博士论文】因果性与泛化:可识别性与学习方法

专知会员服务

65+阅读 · 2021年10月18日

热门VIP内容

开通专知VIP会员享更多权益服务

《人机团队增强现实与虚拟现实用户界面设计中共享态势感知指南与指标开发》165页

美军2025条令《远程传感器作战条令》

海战：近期冲突启示

《美陆军后勤数据分析中心（LDAC）：核心能力与工具体系》最新56页报告

相关资讯

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知

11+阅读 · 2021年2月8日

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知

12+阅读 · 2020年6月9日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

专知

23+阅读 · 2019年12月8日

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

专知

171+阅读 · 2019年10月28日

论文浅尝 | 将文本建模为关系图，用于联合实体和关系提取

论文浅尝 | 将文本建模为关系图，用于联合实体和关系提取

开放知识图谱

77+阅读 · 2019年9月14日

论文浅尝 | 远程监督关系抽取的生成式对抗训练

论文浅尝 | 远程监督关系抽取的生成式对抗训练

开放知识图谱

17+阅读 · 2018年7月12日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

回归预测&时间序列预测

回归预测&时间序列预测

GBASE数据工程部数据团队

43+阅读 · 2017年5月17日

相关基金

格点问题与振荡积分理论

国家自然科学基金

0+阅读 · 2015年12月31日

合作均衡的本质稳定性研究

国家自然科学基金

0+阅读 · 2015年12月31日

融合系分类问题及其特征幂等元研究

国家自然科学基金

1+阅读 · 2015年12月31日

带有前馈矩阵的线性系统的标准分解及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于贝叶斯观点的分数阶扩散方程反问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

相依回归模型与扩散过程的统计推断及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

相依重尾随机变量和的渐近性及其在更新风险模型中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

分数阶扩散方程反向问题的正则化理论与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

网络的小世界结构及其上随机游动的混合时

国家自然科学基金

1+阅读 · 2014年12月31日

基于狄利克雷过程的潜变量模型贝叶斯半参数分析

国家自然科学基金

2+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

165+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

37+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

98+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

203+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

79+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

448+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

140+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

76+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

165+阅读 · 2023年3月24日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员