【剑桥大学博士论文】计算机系统中的端到端深度强化学习，188页pdf

2022 年 10 月 31 日 专知

长期以来，随着数据处理系统的复杂性不断增加，系统设计者一直在想象能够根据环境线索进行自我配置和适应的系统(如数据库、调度程序)。在这种情况下，强化学习(RL)方法从一开始就吸引了系统开发人员。他们承诺从原始反馈信号中获取复杂的决策策略。尽管RL方法在概念上很流行，但在现实世界的数据处理系统中却很少见到。最近，由于利用大型神经网络(深度强化学习)取得了引人注目的成功，RL受到了爆炸性增长的关注。新兴的机器学习框架和强大的硬件加速器催生了大量新的潜在应用。在本文中，我首先提出，为了高效地设计和执行深度RL算法，需要新颖的软件抽象来适应通信密集和快速进化算法的独特计算模式。我提出了一种将逻辑算法构造与本地和分布式执行语义解耦的体系结构。我将进一步介绍RLgraph，这是我对这个体系结构的概念验证实现。在RLgraph中，算法开发人员可以通过组合逻辑组件构建高级数据流图来探索新的设计。此数据流图独立于特定的后端框架或执行概念，只在以后通过分阶段构建过程映射到执行语义。RLgraph支持高性能算法实现，同时保持快速原型的灵活性。

https://www.repository.cam.ac.uk/handle/1810/304385

其次，我研究了系统本身中RL应用程序稀缺的原因。我认为，由于缺乏用于任务模型设计的工具来弥合系统和算法之间的差距，以及缺乏评估模型能力的共同标准，应用RL的进展受到了阻碍。在本文中，我介绍了应用RL中第一个用于增量模型设计的工具——Wield。Wield 提供了一小组原语，将系统接口和特定于部署的配置从表示中分离出来。运用的核心是一种新的指导性实验协议，称为渐进随机化，它帮助从业者逐步评估非确定性的不同维度。我演示了如何使用和渐进的随机化可以用来再现和评估之前的工作，并指导新RL应用程序的实现。