【剑桥大学博士论文】计算机系统中的端到端深度强化学习，188页pdf

长期以来，随着数据处理系统的复杂性不断增加，系统设计者一直在想象能够根据环境线索进行自我配置和适应的系统(如数据库、调度程序)。在这种情况下，强化学习(RL)方法从一开始就吸引了系统开发人员。他们承诺从原始反馈信号中获取复杂的决策策略。尽管RL方法在概念上很流行，但在现实世界的数据处理系统中却很少见到。最近，由于利用大型神经网络(深度强化学习)取得了引人注目的成功，RL受到了爆炸性增长的关注。新兴的机器学习框架和强大的硬件加速器催生了大量新的潜在应用。在本文中，我首先提出，为了高效地设计和执行深度RL算法，需要新颖的软件抽象来适应通信密集和快速进化算法的独特计算模式。我提出了一种将逻辑算法构造与本地和分布式执行语义解耦的体系结构。我将进一步介绍RLgraph，这是我对这个体系结构的概念验证实现。在RLgraph中，算法开发人员可以通过组合逻辑组件构建高级数据流图来探索新的设计。此数据流图独立于特定的后端框架或执行概念，只在以后通过分阶段构建过程映射到执行语义。RLgraph支持高性能算法实现，同时保持快速原型的灵活性。

https://www.repository.cam.ac.uk/handle/1810/304385

其次，我研究了系统本身中RL应用程序稀缺的原因。我认为，由于缺乏用于任务模型设计的工具来弥合系统和算法之间的差距，以及缺乏评估模型能力的共同标准，应用RL的进展受到了阻碍。在本文中，我介绍了应用RL中第一个用于增量模型设计的工具——Wield。Wield 提供了一小组原语，将系统接口和特定于部署的配置从表示中分离出来。运用的核心是一种新的指导性实验协议，称为渐进随机化，它帮助从业者逐步评估非确定性的不同维度。我演示了如何使用和渐进的随机化可以用来再现和评估之前的工作，并指导新RL应用程序的实现。

成为VIP会员查看完整内容

相关内容

博士论文

关注 118

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

113+阅读 · 2022年10月6日

【牛津大学博士论文】多模态自监督学习，172页pdf

专知会员服务

136+阅读 · 2022年10月4日

【MIT博士论文】数据高效强化学习，176页pdf

专知会员服务

88+阅读 · 2022年7月11日

【CMU博士论文】通过记忆的元强化学习，118页pdf

专知会员服务

48+阅读 · 2022年6月23日