Active screening is a common approach in controlling the spread of recurring infectious diseases such as tuberculosis and influenza. In this approach, health workers periodically select a subset of population for screening. However, given the limited number of health workers, only a small subset of the population can be visited in any given time period. Given the recurrent nature of the disease and rapid spreading, the goal is to minimize the number of infections over a long time horizon. Active screening can be formalized as a sequential combinatorial optimization over the network of people and their connections. The main computational challenges in this formalization arise from i) the combinatorial nature of the problem, ii) the need of sequential planning and iii) the uncertainties in the infectiousness states of the population. Previous works on active screening fail to scale to large time horizon while fully considering the future effect of current interventions. In this paper, we propose a novel reinforcement learning (RL) approach based on Deep Q-Networks (DQN), with several innovative adaptations that are designed to address the above challenges. First, we use graph convolutional networks (GCNs) to represent the Q-function that exploit the node correlations of the underlying contact network. Second, to avoid solving a combinatorial optimization problem in each time period, we decompose the node set selection as a sub-sequence of decisions, and further design a two-level RL framework that solves the problem in a hierarchical way. Finally, to speed-up the slow convergence of RL which arises from reward sparseness, we incorporate ideas from curriculum learning into our hierarchical RL approach. We evaluate our RL algorithm on several real-world networks.


翻译:积极筛查是控制肺结核和流感等经常性传染病传播的共同方法。在这一方法中,卫生工作者定期选择一组人口进行筛查。然而,鉴于保健工作者人数有限,在任何特定时期内只能访问一小部分人口。鉴于该疾病经常发生,而且迅速蔓延,目标是在较长的时间内尽量减少感染病例数量。积极筛查可以正式成为对人们网络及其联系的顺序组合优化。这种正规化的主要计算挑战来自问题组合性质,二)需要顺序规划和人口传染状态的不确定性。以往积极筛查工作在充分考虑当前干预措施的未来效果的同时,未能达到大范围的时间范围。在本文件中,我们提议采用基于深Q网络(DQN)的新型强化学习(RL)方法,以及一些旨在应对上述挑战的创新适应性调整。首先,我们从问题分类变异网络(GCNs)到连续规划和递增速度网络的不确定性。我们用“RL”方法来避免将“RL”系统内部的升级和“RL”方法的升级,我们用“R”方法的“RL”方法的每个升级网络的升级到“L”系统。我们用“R”的“L”方法来避免将“最后的升级网络的升级和“L”的升级决定的升级,我们“L”的升级的“最后的“升级”方法的“升级的“的“升级”方法的“升级”的“的“的“升级”方法”的“升级”的“升级”方法,我们的“的“的“升级”方法”的“的“的“的“的“升级”方法”的“升级的“升级的“的“的“的”方法”方法”的“的“的“的”的“的“的”在”的“的”的“的“的”的“的“的“的“的“的”在”的”的“的”的”的“的”进行的”进行的“的”进行的”进行的”的”进行的“的”进行的”的“的“的“的”进行的”进行的”进行的“升级的“的”进行的“的“的“的“的“的”的”进行的”进行的”的“的“的”的”的“的“的”的“的“的“的”的”的”的“的“的”的“的”的“

0
下载
关闭预览

相关内容

Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
spinningup.openai 强化学习资源完整
CreateAMind
6+阅读 · 2018年12月17日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
24+阅读 · 2021年1月25日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
7+阅读 · 2019年1月8日
Relational Deep Reinforcement Learning
Arxiv
10+阅读 · 2018年6月28日
VIP会员
相关资讯
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
spinningup.openai 强化学习资源完整
CreateAMind
6+阅读 · 2018年12月17日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员