【ICML2024】语用特征偏好：从人类输入中学习与奖励相关的偏好 - 专知VIP

会员服务 ·

11

ICML 2024 · 人类偏好对齐 ·

2024 年 5 月 25 日

【ICML2024】语用特征偏好：从人类输入中学习与奖励相关的偏好

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

人类使用社会背景来指定对行为的偏好，即他们的奖励函数。然而，从偏好数据中推断奖励模型的算法并未考虑这种社会学习视角。受到人类语用交流的启发，我们研究了如何提取关于为什么一个示例被偏好的细粒度数据，这对于学习更准确的奖励模型是有用的。我们提出丰富二元偏好查询，不仅询问（1）给定示例中的哪些特征是更可取的，还询问（2）示例之间的比较。我们推导了一种从这些特征级别的偏好中学习的方法，无论用户是否指定哪些特征与奖励相关。我们在视觉和语言领域的线性强盗设置中评估了我们的方法。结果支持我们的方法能够通过更少的比较迅速收敛到准确的奖励，而不是仅依靠示例标签。最后，我们通过蘑菇觅食任务的行为实验验证了其现实世界的适用性。我们的研究结果表明，结合语用特征偏好是一种更高效的用户对齐奖励学习的有前途的方法。

成为VIP会员查看完整内容

22

相关内容

ICML 2024

【NeurIPS2023】基于语义对齐的潜空间翻译

【NeurIPS2023】基于语义对齐的潜空间翻译

专知会员服务

21+阅读 · 2023年11月2日

【ICCV2023】稳定且因果推断的自监督深度视觉表示判别方法

【ICCV2023】稳定且因果推断的自监督深度视觉表示判别方法

专知会员服务

30+阅读 · 2023年8月20日

【ICML2023】在受限逆强化学习中的可识别性和泛化能力

【ICML2023】在受限逆强化学习中的可识别性和泛化能力

专知会员服务

26+阅读 · 2023年6月5日

【AAAI2023】不确定性感知的图像描述生成

【AAAI2023】不确定性感知的图像描述生成

专知会员服务

26+阅读 · 2022年12月4日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知会员服务

37+阅读 · 2022年7月11日

【CVPR2022】提示分布学习

【CVPR2022】提示分布学习

专知会员服务

31+阅读 · 2022年5月17日

【ICML2021】GeomCA: 数据表示几何评估

专知会员服务

15+阅读 · 2021年9月11日

【ICCV2021】残差注意力：一种简单但是有效的多标签图像识别方法

专知会员服务

17+阅读 · 2021年8月26日

【ICML2021】模仿学习的超参数选择

专知会员服务

22+阅读 · 2021年5月27日

【ICML2020】持续终身学习的神经主题建模

【ICML2020】持续终身学习的神经主题建模

专知会员服务

39+阅读 · 2020年6月22日

【AAAI2023】用于图对比学习的谱特征增强

【AAAI2023】用于图对比学习的谱特征增强

专知

20+阅读 · 2022年12月11日

【ICML2021】因果匹配领域泛化

【ICML2021】因果匹配领域泛化

专知

12+阅读 · 2021年8月12日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【AAAI2021】自监督对应学习的对比转换

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

【MIT】硬负样本的对比学习

【MIT】硬负样本的对比学习

专知

13+阅读 · 2020年10月15日

【ICML2020】对比多视角表示学习

【ICML2020】对比多视角表示学习

专知

19+阅读 · 2020年6月28日

【CVPR 2020 Oral】小样本类增量学习

【CVPR 2020 Oral】小样本类增量学习

专知

20+阅读 · 2020年6月26日

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

专知

37+阅读 · 2020年6月11日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

随机图和随机环境中的接触过程、选举模型、排他过程

国家自然科学基金

0+阅读 · 2015年12月31日

组合测试用例优先排序算法及选择策略研究

国家自然科学基金

8+阅读 · 2015年12月31日

模糊情况下的最优消费与投资

国家自然科学基金

3+阅读 · 2015年12月31日

社交网络中的流言传播与演化

国家自然科学基金

2+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

44+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

一类带有Hénon项的变分问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

试验设计中的模型选择

国家自然科学基金

6+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

216+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

477+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

147+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

174+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

VIP会员

相关主题

人类偏好对齐

相关VIP内容

【NeurIPS2023】基于语义对齐的潜空间翻译

【NeurIPS2023】基于语义对齐的潜空间翻译

专知会员服务

21+阅读 · 2023年11月2日

【ICCV2023】稳定且因果推断的自监督深度视觉表示判别方法

【ICCV2023】稳定且因果推断的自监督深度视觉表示判别方法

专知会员服务

30+阅读 · 2023年8月20日

【ICML2023】在受限逆强化学习中的可识别性和泛化能力

【ICML2023】在受限逆强化学习中的可识别性和泛化能力

专知会员服务

26+阅读 · 2023年6月5日

【AAAI2023】不确定性感知的图像描述生成

【AAAI2023】不确定性感知的图像描述生成

专知会员服务

26+阅读 · 2022年12月4日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知会员服务

37+阅读 · 2022年7月11日

【CVPR2022】提示分布学习

【CVPR2022】提示分布学习

专知会员服务

31+阅读 · 2022年5月17日

【ICML2021】GeomCA: 数据表示几何评估

专知会员服务

15+阅读 · 2021年9月11日

【ICCV2021】残差注意力：一种简单但是有效的多标签图像识别方法

专知会员服务

17+阅读 · 2021年8月26日

【ICML2021】模仿学习的超参数选择

专知会员服务

22+阅读 · 2021年5月27日

【ICML2020】持续终身学习的神经主题建模

【ICML2020】持续终身学习的神经主题建模

专知会员服务

39+阅读 · 2020年6月22日

热门VIP内容

开通专知VIP会员享更多权益服务

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

构建军事人工智能信任体系始于破除黑盒机制

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

相关资讯

【AAAI2023】用于图对比学习的谱特征增强

【AAAI2023】用于图对比学习的谱特征增强

专知

20+阅读 · 2022年12月11日

【ICML2021】因果匹配领域泛化

【ICML2021】因果匹配领域泛化

专知

12+阅读 · 2021年8月12日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【AAAI2021】自监督对应学习的对比转换

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

【MIT】硬负样本的对比学习

【MIT】硬负样本的对比学习

专知

13+阅读 · 2020年10月15日

【ICML2020】对比多视角表示学习

【ICML2020】对比多视角表示学习

专知

19+阅读 · 2020年6月28日

【CVPR 2020 Oral】小样本类增量学习

【CVPR 2020 Oral】小样本类增量学习

专知

20+阅读 · 2020年6月26日

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

专知

37+阅读 · 2020年6月11日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

相关基金

随机图和随机环境中的接触过程、选举模型、排他过程

国家自然科学基金

0+阅读 · 2015年12月31日

组合测试用例优先排序算法及选择策略研究

国家自然科学基金

8+阅读 · 2015年12月31日

模糊情况下的最优消费与投资

国家自然科学基金

3+阅读 · 2015年12月31日

社交网络中的流言传播与演化

国家自然科学基金

2+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

44+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

一类带有Hénon项的变分问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

试验设计中的模型选择

国家自然科学基金

6+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

216+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

477+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

147+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

174+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员