强化学习(RL)为基于学习的控制提供了一个形式化的框架。通过尝试学习能优化用户指定的奖励函数的行为策略,RL方法已经能够获得新颖的决策策略,即使在动态非常复杂,所有可能结果的空间巨大(例如,机器人操作、芯片地板规划)的情况下,这些策略也可以胜过最好的人类。但与标准机器学习(ML)在现实世界的应用相比,RL的适用性有限。为什么呢?RL的核心问题在于,它严重依赖于执行大量试错的主动数据收集来学习策略。不幸的是,在现实世界中,主动数据收集通常非常昂贵(例如,进行药物设计的实验室实验)和/或危险(例如,机器人在人们周围操作),且准确的模拟器很难构建。总的来说,这意味着,尽管RL具有广泛解锁现实世界决策问题中的ML的潜力,但我们无法通过当前的RL技术实现这一潜力。

为了实现RL的这种潜力,在这篇论文中,我们开发了一个旨在使用静态数据集经验学习策略的替代范式。这种“数据集驱动”的范式扩大了RL在存在历史数据集或可以通过特定领域策略收集的决策问题中的适用性。它还将现代有监督和无监督ML方法的可扩展性和可靠性带入了RL。话虽如此,实例化这一范式是具有挑战性的,因为它需要将从数据集中的静态学习与RL的传统主动性相协调,这导致了分布偏移、泛化和优化的挑战。在理论上和实证上理解这些挑战后,我们为应对这些挑战开发了算法思想,并讨论了几种扩展,将这些思想转化为实际方法,可以在大型和多样化的数据集上训练现代高容量神经网络函数逼近器。最后,我们展示了这些技术如何使我们能够为真实的机器人和视频游戏预训练通用策略,并实现快速高效的硬件加速器设计。

成为VIP会员查看完整内容
55

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【MIT博士论文】序列博弈中的近似最优学习, 338页pdf
专知会员服务
36+阅读 · 2023年8月31日
【牛津大学博士论文】元强化学习的快速自适应,217页pdf
专知会员服务
100+阅读 · 2022年9月19日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
162+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
423+阅读 · 2023年3月31日
Arxiv
10+阅读 · 2020年11月26日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员