本文探讨使用来自强化学习和搜索的工具来提高大型语言模型(LLM)智能体的能力和对齐性。

能够在计算机上执行通用任务的智能体能够极大地提高效率和生产力。理想情况下,这些智能体应该能够通过自然语言命令解决呈现给它们的新计算机任务。然而,以前解决这个问题的方法需要大量的专家演示和特定任务的奖励函数,这两者对于新任务来说都是不切实际的。在这次演讲中,我展示了经过预训练的大型语言模型(LLMs)通过递归地批评和改进输出,能够在MiniWoB(一个流行的计算机任务基准测试)上达到最先进的性能。然后,我论证了基于强化学习的人类反馈(RLHF)是提高LLM智能体的一个有前景的方法,并介绍了通过受限制的强化学习来对抗RLHF中过度优化的新工作。

简历:Stephen McAleer是卡内基梅隆大学与Tuomas Sandholm合作的博士后。他的研究导致了第一个解决魔方的强化学习算法以及第一个在斯特拉特战略游戏上达到专家级表现的算法。他的工作已发表在《科学》、《自然机器智能》、ICML、NeurIPS和ICLR等杂志上,并被《华盛顿邮报》、《洛杉矶时报》、《麻省理工科技评论》和《福布斯》等新闻媒体报道。他在加州大学尔湾分校获得了计算机科学博士学位,导师是Pierre Baldi,此前在亚利桑那州立大学获得了数学和经济学学士学位。

成为VIP会员查看完整内容
62

相关内容

【普林斯顿】基于大型语言模型的语言智能体认知架构
专知会员服务
62+阅读 · 2023年9月6日
大模型如何赋能医学?全科医学人工智能基础模型
专知会员服务
73+阅读 · 2023年4月13日
【NeurIPS2022】分布式自适应元强化学习
专知会员服务
20+阅读 · 2022年10月8日
【伯克利博士论文】学习跨领域的可迁移表示
专知会员服务
45+阅读 · 2022年8月17日
专知会员服务
22+阅读 · 2021年10月6日
【干货书】可解释人工智能(xAI)方法和深度元学习模型
专知会员服务
54+阅读 · 2020年9月13日
【IJCAI2020】图神经网络预测结构化实体交互
专知会员服务
42+阅读 · 2020年5月13日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
18+阅读 · 2022年7月13日
时空数据挖掘:综述
专知
21+阅读 · 2022年6月30日
【AI与医学】多模态机器学习精准医疗健康
【KDD2020】图神经网络生成式预训练
专知
21+阅读 · 2020年7月3日
初学者的 Keras:实现卷积神经网络
Python程序员
24+阅读 · 2019年9月8日
深度学习超参数搜索实用指南
云栖社区
28+阅读 · 2018年10月14日
手把手教你如何部署深度学习模型
全球人工智能
15+阅读 · 2018年2月5日
国家自然科学基金
36+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
134+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
329+阅读 · 2023年3月31日
Arxiv
56+阅读 · 2023年3月26日
Arxiv
115+阅读 · 2023年3月24日
Arxiv
17+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【普林斯顿】基于大型语言模型的语言智能体认知架构
专知会员服务
62+阅读 · 2023年9月6日
大模型如何赋能医学?全科医学人工智能基础模型
专知会员服务
73+阅读 · 2023年4月13日
【NeurIPS2022】分布式自适应元强化学习
专知会员服务
20+阅读 · 2022年10月8日
【伯克利博士论文】学习跨领域的可迁移表示
专知会员服务
45+阅读 · 2022年8月17日
专知会员服务
22+阅读 · 2021年10月6日
【干货书】可解释人工智能(xAI)方法和深度元学习模型
专知会员服务
54+阅读 · 2020年9月13日
【IJCAI2020】图神经网络预测结构化实体交互
专知会员服务
42+阅读 · 2020年5月13日
相关资讯
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
18+阅读 · 2022年7月13日
时空数据挖掘:综述
专知
21+阅读 · 2022年6月30日
【AI与医学】多模态机器学习精准医疗健康
【KDD2020】图神经网络生成式预训练
专知
21+阅读 · 2020年7月3日
初学者的 Keras:实现卷积神经网络
Python程序员
24+阅读 · 2019年9月8日
深度学习超参数搜索实用指南
云栖社区
28+阅读 · 2018年10月14日
手把手教你如何部署深度学习模型
全球人工智能
15+阅读 · 2018年2月5日
相关基金
国家自然科学基金
36+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员