流行病学数据天然呈现为时间序列格式。在许多不同的背景下,这些时间序列由于数据生成过程的性质而有结构化的偏见。识别并纠正这些偏见对于准确的流行病学建模和预测至关重要。然而,偏见校正是一项困难的任务,因为偏见会因数据来源的不同而有所不同,历史数据的获取渠道有限,而且几乎总是没有基准真值标签。在这篇论文中,我们研究了两类流行病学时间序列:预测和实时“指标”疾病活动。对于这两类,我们描述了识别偏见的过程,并根据背景提出了不同的算法来纠正它们。我们提供了在模拟和预测流感和COVID-19方面的应用。
传染病在医学和经济方面都是一个严重的负担。在2019年,下呼吸道感染是全球第四大死因,而前十大死因中有三种是传染病[38]。公共卫生和医学的进展已经减轻了传染病的影响,但它们仍然相当致命。 例如流感和COVID-19这样的传染性疾病的建模能使公共卫生官员更好地了解当前的情况,并实施更有效的措施来控制疾病的传播。准确的预测可以进一步协助公共卫生响应。如果建模和预测准确并得到妥善使用,它们有可能在疫情期间减少感染人数,减轻平均病例的严重性,和减轻卫生保健系统的总负担。 机器学习和统计模型在丰富可靠的数据上表现最好。即使在数据相对丰富的领域,模型师也面临着现实数据中的偏见问题。在流行病学领域,数据相对稀疏,这些挑战会妨碍模型和预测的准确性。美国疾病控制与预防中心(CDC)已经为选定的传染病发起了几个监测计划,包括流感的ILINet。FluSight Challenge征集类似流感病症(ILI)的预测,并将它们与来自ILINet的观察结果进行比较。志愿卫生提供者提交在特定周内看到的患者总数,以及该周内的ILI患者数。这些报告在州级进行汇总并公布。
健康保险索赔为疾病监测提供了辅助数据源。健康保险提供商可以访问与医疗系统互动相关的大量数据。保险索赔数据可以提供类似于ILINet的动机,但规模更大,分辨率更细。尽管有这些优势,它也受到几个偏见的影响。流感(或其他指定病症)就诊的原始信号不仅是流感活动的功能,还受到一周中的哪一天,假期效应,以及一个月内效应的影响。为了使信号对于建模和预测最有用,我们必须纠正这些效应。 其他辅助数据源可以用作疾病活动的指标,并融入实时系统,以了解当前的疾病负担。这些数据源可以包括保险索赔,互联网搜索行为,手机流动性,和调查[44]。这些辅助数据源相对于传统的公共卫生监测数据有几个优势。它们通常具有更大的样本大小,更少的延迟,和不同的严重性级别。这些信号对于预测很有用,因为它们通常引领感兴趣的目标,如门诊或住院就诊。 每个数据源都有不同的优势和劣势。一般来说,数据源的实用性是由地理粒度、时间粒度、覆盖率和延迟来衡量的。粒度由数据聚合或平均的位置和时间段的大小定义。我们更喜欢粒度细的数据集,因为它们比粒度粗的数据集包含更多的信息。覆盖率是指数据中总人口的比例,数据集的实用性随着覆盖率的增加而增加。最后,延迟是指数据可用的延迟。在许多应用中,我们希望实时建模和预测,因此,如果数据集可用并且准确性有较低的延迟,那么它就更有用。 传统的监测系统如ILINet通常在这些指标上表现不佳。ILINet在州和周的粒度上进行汇总,覆盖率较低,因为网络仅由志愿提供者组成。健康保险索赔可以在更细的空间和时间尺度上进行汇总,潜在地达到5位邮政编码和每日水平。取决于提供者,覆盖率也可能更高。然而,这两个来源都受到了显著的延迟。数字监测来源通常以细粒度、高覆盖率和低延迟得到,使它们非常适合融入实时预测和建模系统中。数字监测来源的缺点是它们通常不太特定于给定的疾病或病状。例如,基于互联网搜索查询通常很难区分不同的呼吸道感染(或检测出个体是否被感染)。 无论疾病指标是从传统监测系统还是辅助数据源得到的,它们都衡量的是与实际疾病活动相关的目标。因此,指标和目标之间的关系几乎总是会有偏见。这些偏见会在不同地点和不同时间点之间变化,并且显然会限制使用这些信号的好处。如果我们展示一个由空间异质性影响的指标的地图,地图可能会显示一个指标值比另一个地点高得多的地点,而实际上,另一个地点的疾病活动更高。一个由时间异质性影响的指标也会同样误导,并导致预测的不准确。实时指标对于预测和公共卫生官员可能是有用的,但当它们与感兴趣的目标更直接相关时,将更有用。 偏见或不足的数据可能导致预测不准确。由于错误的模型,预测也可能不准确。FluSight Challenge的预测大多可以分为两组:机械模型和统计模型。机械模型通常使用领域知识来建模疾病传播,并模拟疫情的未来轨迹。机械建模的一种方法是使用区室模型,其中整个人口基于他们的疾病状态分为几个区室。一个常见的区室模型的例子是SIR模型[30],它将人口分为易感、传染和康复的区室,并使用微分方程来描述个体在时间过程中从一个区室移动到另一个区室。基于个体的建模是另一种方法,它常常使用模拟来建模个体行为和疾病传播。统计模型通常避免依赖领域知识,将预测任务视为时间序列预测任务。当基础模型与现实相差过大时,机械模型可能会失败,而统计模型可能会失败,当模型过于依赖现实时。 当发生独特事件,且时间序列模型无法推广至新的测试模式时,模型可能会失败。每个单独的模型都可能以其自己的方式失败,但这些失败通常都是系统性的,可以被视为偏见。识别和纠正这些偏见可以提高预测的准确性和实用性。 在FluSight挑战中,CDC征求分布式预测,其中预测者必须产生目标变量的概率分布,而不仅仅是输出预测者预测的目标的平均值或中位数。产生准确的分布式预测比点预测更为困难。首先,点预测通常是分布式预测的一个函数,意味着分布式预测包含严格更多的信息。另外,由于观测稀缺,模型在建模分布的尾部通常准确性较低。点预测也得到了更多的研究,并有着更长的发展历史。校准是分布式预测的可靠性的一个度量,是分布式预测的一个重要特性。如果预测没有校准,那么使用这些预测的人将根据不准确的信息做出决定。 预测、疾病监测数据和指标中的偏见都阻碍了流行病学建模最优地减轻疾病负担。通过识别和纠正这些偏见,我们可以更有效地使用我们的数据来更好地理解和应对流行病。