【牛津大学博士论文】有效的离线训练与高效的在线适应

在机器学习领域，开发在世界中智能行为的代理仍是一个开放性挑战。对这样的代理的期望包括高效的探索、最大化长期效用以及能够有效利用以往数据解决新任务的能力。强化学习（RL）是一种基于通过试错直接与环境互动来学习的方法，并为我们训练和部署此类代理提供了途径。此外，将RL与强大的神经网络功能逼近器结合使用——一个被称为“深度RL”的子领域——已显示出实现这一目标的证据。例如，深度RL已产生了能够以超人水平玩围棋的代理、提高微芯片设计的效率，以及学习控制核聚变反应的复杂新策略的代理。部署深度RL的一个主要问题是样本效率低。具体来说，虽然可以使用深度RL训练有效的代理，但主要成功案例大多数是在我们可以通过使用模拟器获得大量在线互动的环境中实现的。然而，在许多现实世界的问题中，我们面临的情况是样本成本高昂。正如所暗示的，解决这个问题的一种方式是通过获取一些以往的数据，通常称为“离线数据”，这可以加速我们学习这些代理的速度，例如利用探索性数据防止重复部署，或使用人类专家数据快速引导代理朝向有前途的行为等。然而，将这些数据融入现有的深度RL算法的最佳方式并不直观；简单地使用RL算法在这些离线数据上进行预训练，一种称为“离线RL”的范式作为后续学习的起点，往往是不利的。此外，如何明确地在线派生出由这种离线预训练积极影响的有用行为尚不清楚。鉴于这些因素，本文提出了一种三管齐下的策略来提高深度RL中的样本效率。首先，我们研究了在离线数据上进行有效的预训练。然后，我们解决在线问题，探讨在纯在线操作时对环境进行高效适应。最后，我们得出结论，使用离线数据在在线行动时明确增强策略。

成为VIP会员查看完整内容

相关内容

博士论文

关注 117

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【ETHZ博士论文】有限数据中的元学习先验：从理论到实践

专知会员服务

36+阅读 · 2024年6月4日

【剑桥大学博士论文】深度学习中的元学习、鲁棒性和二阶优化进展

专知会员服务

41+阅读 · 2024年5月5日

【CMU博士论文】高效的深度神经网络终身学习：架构、训练和数据的优化

专知会员服务

41+阅读 · 2024年4月24日

【UIUC博士论文】生成式深度学习：走向更好的视觉表征和多模态

专知会员服务

42+阅读 · 2024年2月2日