在机器学习领域,开发在世界中智能行为的代理仍是一个开放性挑战。对这样的代理的期望包括高效的探索、最大化长期效用以及能够有效利用以往数据解决新任务的能力。强化学习(RL)是一种基于通过试错直接与环境互动来学习的方法,并为我们训练和部署此类代理提供了途径。此外,将RL与强大的神经网络功能逼近器结合使用——一个被称为“深度RL”的子领域——已显示出实现这一目标的证据。例如,深度RL已产生了能够以超人水平玩围棋的代理、提高微芯片设计的效率,以及学习控制核聚变反应的复杂新策略的代理。部署深度RL的一个主要问题是样本效率低。具体来说,虽然可以使用深度RL训练有效的代理,但主要成功案例大多数是在我们可以通过使用模拟器获得大量在线互动的环境中实现的。然而,在许多现实世界的问题中,我们面临的情况是样本成本高昂。正如所暗示的,解决这个问题的一种方式是通过获取一些以往的数据,通常称为“离线数据”,这可以加速我们学习这些代理的速度,例如利用探索性数据防止重复部署,或使用人类专家数据快速引导代理朝向有前途的行为等。然而,将这些数据融入现有的深度RL算法的最佳方式并不直观;简单地使用RL算法在这些离线数据上进行预训练,一种称为“离线RL”的范式作为后续学习的起点,往往是不利的。此外,如何明确地在线派生出由这种离线预训练积极影响的有用行为尚不清楚。鉴于这些因素,本文提出了一种三管齐下的策略来提高深度RL中的样本效率。首先,我们研究了在离线数据上进行有效的预训练。然后,我们解决在线问题,探讨在纯在线操作时对环境进行高效适应。最后,我们得出结论,使用离线数据在在线行动时明确增强策略。

成为VIP会员查看完整内容
22

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【多伦多大学博士论文】深度学习中的训练效率和鲁棒性
【MIT博士论文】数据高效强化学习,176页pdf
综述| 当图神经网络遇上强化学习
图与推荐
19+阅读 · 2022年7月1日
【KDD2020】图神经网络生成式预训练
专知
20+阅读 · 2020年7月3日
论文浅尝 | 采用多层注意力机制的事件检测
开放知识图谱
23+阅读 · 2019年8月24日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
131+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
326+阅读 · 2023年3月31日
Arxiv
111+阅读 · 2023年3月24日
Arxiv
15+阅读 · 2023年3月17日
Arxiv
10+阅读 · 2020年11月26日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员