人类使用社会背景来指定对行为的偏好,即他们的奖励函数。然而,从偏好数据中推断奖励模型的算法并未考虑这种社会学习视角。受到人类语用交流的启发,我们研究了如何提取关于为什么一个示例被偏好的细粒度数据,这对于学习更准确的奖励模型是有用的。我们提出丰富二元偏好查询,不仅询问(1)给定示例中的哪些特征是更可取的,还询问(2)示例之间的比较。我们推导了一种从这些特征级别的偏好中学习的方法,无论用户是否指定哪些特征与奖励相关。我们在视觉和语言领域的线性强盗设置中评估了我们的方法。结果支持我们的方法能够通过更少的比较迅速收敛到准确的奖励,而不是仅依靠示例标签。最后,我们通过蘑菇觅食任务的行为实验验证了其现实世界的适用性。我们的研究结果表明,结合语用特征偏好是一种更高效的用户对齐奖励学习的有前途的方法。

成为VIP会员查看完整内容
21

相关内容

【NeurIPS2023】基于语义对齐的潜空间翻译
专知会员服务
20+阅读 · 2023年11月2日
【ICML2023】在受限逆强化学习中的可识别性和泛化能力
专知会员服务
25+阅读 · 2023年6月5日
【AAAI2023】不确定性感知的图像描述生成
专知会员服务
24+阅读 · 2022年12月4日
【ICML2022】基于少样本策略泛化的决策Transformer
专知会员服务
36+阅读 · 2022年7月11日
【CVPR2022】提示分布学习
专知会员服务
29+阅读 · 2022年5月17日
专知会员服务
14+阅读 · 2021年9月11日
专知会员服务
21+阅读 · 2021年5月27日
【ICML2020】持续终身学习的神经主题建模
专知会员服务
37+阅读 · 2020年6月22日
【AAAI2023】用于图对比学习的谱特征增强
专知
18+阅读 · 2022年12月11日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
【ICML2020】对比多视角表示学习
专知
19+阅读 · 2020年6月28日
【CVPR 2020 Oral】小样本类增量学习
专知
16+阅读 · 2020年6月26日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
155+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
397+阅读 · 2023年3月31日
Arxiv
66+阅读 · 2023年3月26日
Arxiv
137+阅读 · 2023年3月24日
Arxiv
19+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【NeurIPS2023】基于语义对齐的潜空间翻译
专知会员服务
20+阅读 · 2023年11月2日
【ICML2023】在受限逆强化学习中的可识别性和泛化能力
专知会员服务
25+阅读 · 2023年6月5日
【AAAI2023】不确定性感知的图像描述生成
专知会员服务
24+阅读 · 2022年12月4日
【ICML2022】基于少样本策略泛化的决策Transformer
专知会员服务
36+阅读 · 2022年7月11日
【CVPR2022】提示分布学习
专知会员服务
29+阅读 · 2022年5月17日
专知会员服务
14+阅读 · 2021年9月11日
专知会员服务
21+阅读 · 2021年5月27日
【ICML2020】持续终身学习的神经主题建模
专知会员服务
37+阅读 · 2020年6月22日
相关资讯
【AAAI2023】用于图对比学习的谱特征增强
专知
18+阅读 · 2022年12月11日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
【ICML2020】对比多视角表示学习
专知
19+阅读 · 2020年6月28日
【CVPR 2020 Oral】小样本类增量学习
专知
16+阅读 · 2020年6月26日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员