学习奖励函数仍是让机器人掌握广泛技能的瓶颈。大型语言模型(LLM)包含有价值的与任务相关的知识,这可能有助于学习奖励函数。然而,所提出的奖励函数可能不够精确,因而效果不佳,需要进一步与环境信息相结合。我们提出了一种在无人参与的情况下更高效学习奖励的方法。我们的方法包括两个组成部分:首先使用LLM提出奖励的特征和参数化,然后通过迭代的自对齐过程更新参数。特别是,该过程通过执行反馈最小化LLM与学习到的奖励函数之间的排名不一致性。该方法在9个任务和2个模拟环境中进行了验证。它展示了与训练效果和效率相比的一致性改进,同时与替代的基于突变的方法相比,消耗的GPT令牌显著减少。项目网站:https://sites.google.com/view/rewardselfalign.

成为VIP会员查看完整内容
26

相关内容

【ICML2023】面向决策Transformer的未来条件无监督预训练
专知会员服务
41+阅读 · 2023年5月30日
【ICML2023】多任务分层对抗逆强化学习
专知会员服务
19+阅读 · 2023年5月25日
【CVPR2022】提示分布学习
专知会员服务
29+阅读 · 2022年5月17日
专知会员服务
22+阅读 · 2021年7月10日
专知会员服务
21+阅读 · 2021年5月27日
【NeurIPS 2020】生成对抗性模仿学习的f-Divergence
专知会员服务
25+阅读 · 2020年10月9日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
【CVPR 2020 Oral】小样本类增量学习
专知
16+阅读 · 2020年6月26日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
15+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2013年12月31日
Arxiv
142+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
348+阅读 · 2023年3月31日
Arxiv
59+阅读 · 2023年3月26日
Arxiv
123+阅读 · 2023年3月24日
Arxiv
18+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【ICML2023】面向决策Transformer的未来条件无监督预训练
专知会员服务
41+阅读 · 2023年5月30日
【ICML2023】多任务分层对抗逆强化学习
专知会员服务
19+阅读 · 2023年5月25日
【CVPR2022】提示分布学习
专知会员服务
29+阅读 · 2022年5月17日
专知会员服务
22+阅读 · 2021年7月10日
专知会员服务
21+阅读 · 2021年5月27日
【NeurIPS 2020】生成对抗性模仿学习的f-Divergence
专知会员服务
25+阅读 · 2020年10月9日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
15+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2013年12月31日
微信扫码咨询专知VIP会员