浙江工大等《流行病数据可视分析》等综述论文
、
流行病数据的多层面可视分析,可以加快流行病数据分析任务的交互式探索效率和加深对潜在模式的深 刻理解. 本文对流行病数据可视分析的相关工作展开综述,并主要通过四个方面进行总结和归纳:(1)流行病数 据的时空可视分析,帮助用户发现和理解流行病数据在时间、空间以及时空维度中潜在的流行病特征和传播规律 等;(2)流行病数据中涉及非结构化/半结构化文本的语义可视分析,辅助用户快速了解长、短文本内容中的流行 病内容态势、情感走向等;(3)流行病传播模型的可视分析,增强用户对流行病传播过程中的预测、仿真、监测 等任务的交互式理解;(4)流行病数据的静态信息图,直观反映流行病信息的上下文内容和提高公众的理解效率. 在上述基础上,本文阐述了流行病数据可视分析在数据存储和获取,地图可视化形式多元扩展,流行病模拟传播 分析和多学科交融的综合可视分析存在的问题和挑战.
引 言
流行病是指可以感染众多人口的疾病,它能在 人与人、人与动物之间相互传播,且传播途径多样 化. 大多数流行病可以通过直接接触、感染者的飞 沫、食物、水源进行传播,例如流感病毒,H1N1 病毒,COVID-19 病毒等. 目前国内各类流行病发病 率逐年上升[1],其中 COVID-19 疫情是 21 世纪以来 最为严重的公共卫生事件,不同领域、不同学科的 研究者都在紧密关注这一事件. 根据调查,从该疫情暴发至今,相关论文文献已经超过 13000 篇[2]. 因 此对流行病相关的防控工作以及分析总结工作迫在 眉睫.
本文将对流行病数据的可视分析方法进行总 结,首先对不同领域中涉及不同类型的流行病相关 数据进行分析与调研,并将其统称为流行病相关数 据. 例如在医学领域中,从病原体角度出发,数据 包含毒力、数量、变异性、基本传染数(R0)等属 性;从受感染群体角度出发,数据包含发病率、死 亡率、治愈率、病情拐点、感染症状、传播时间、 人为干预措施等属性. 在新闻媒体领域中,数据包 括半结构化的疫情播报的文本数据,非结构化的疫 情新闻数据等. 在传播学领域中,患病者的个人轨 迹数据同样也是流行病传播可视分析的重要数据. 目前传统的流行病数据库[3]已经较为成熟,国内外 流行病数据库内容较为全面,涵盖流行病临床与基 础方面的新动态、新进展、新技术和新方法,包括 流行病的诊断、治疗、预防、护理以及卫生防疫、 流行病学相关的知识和各种感染病诊治经验等[4]. 流行病相关数据涉及医学领域,传播学领域,新闻 媒体领域,计算机领域等,数据在不同领域中所呈 现的形式不尽相同. 因此本文根据流行病数据所涉 及的不同领域,将流行病相关数据分为 4 个方面, 从时空维度(T1)、语义层面(T2)、传播模型(T3)、 相关上下文内容(T4)进行介绍和举例,并阐述了 上述类别数据的表现形式. 表 1 所示为对流行病数 据类型和相关数据集的主要分析任务总结.
(1)时空维度
时空维度中包含了时间属性、空间属性. 例如 移动运营商类、授权非公开数据资源中包含了大量 的位置信息,Monasterio 等人[9]获取了阿根廷和墨西 哥两家移动运营商的匿名交通信息来分析两个拉丁 美洲国家的出行方式和查加斯病的可能危险区. Afzal 等人[19]基于时间维度提出了一种决策空间并用来模拟传染病传播,以减轻疾病影响或防止流行 病进一步传播. 时空数据是目前流行病传播可视分 析方法中较为常见的数据.
(2)语义信息
语义信息中以文本数据为主,例如新闻媒体、 杂志、Twitter 中有关于流行病数据的短文本数据集 合[20]. Lee 和 Kanhabua 等人[21-22]对流行病相关的 Twitter 文本内容进行了可视分析. 中国国家卫生健 康委员会对 2020 年暴发的新型冠状病毒肺炎疫情 以文本形式进行实时通报,同时微博、澎湃网站、 丁香园[16]等对疫情新闻的实时发布也使用了文本的 形式. 社交媒体在现代计算机技术的帮助下,不仅 能为疫情文本信息进行及时可视监测和报道,还能 成为有益数据的获取平台,为不同群体的信息获取 提供重要帮助[23].
(3)流行病传播模型数据
流行病模型数据包括模拟仿真数据,模型相关 参数等. 流行病模型包括传播动力学模型,个体模 型等. 常见的流行病模型按照流行病类型分为 SI、 SIR、SIRS、SEIR 模型等[24],按照传播机理又分为 基于常微分方程、偏微分方程、网络动力学等不同 类型. 这些流行病模型数据可以对不同类型的流行 病进行模拟仿真、预测发展趋势等. (4)流行病相关上下文内容 流行病相关上下文内容中包含了病毒基因、科 普信息[25-26]等数据. 基于流行病信息图的呈现方 式,例如病毒海报图、动态信息内容展示和基因图 谱等,加快公众对流行病上下文的理解. 本文基于流行病数据将流行病可视分析任务分 为以下四类:(1)流行病数据时空可视分析,该分 析任务侧重于流行病的分布、传播情况[27];(2)流 行病数据语义可视分析,该分析任务主要针对流行 病文本数据的内容进行挖掘,分析情感变化等;(3) 流行病模型的可视分析,该分析基于流行病模型数 据,通过数据建模,分析传播走向或预测疫情发展;
(4)信息图可视分析,该分析任务所要分析的内容 较少,基于直观的内容可视展现来解释数据. 因此, 根据不同的分析任务,应用不同的可视化形式,能 对流行病数据有更好地可视展现. 上述四类可视分 析任务中,虽然存在了一定的任务重叠以及可视形 式重叠,但其侧重点不同. 因此本文根据其研究的 主要内容以及所使用的流行病数据来源进行分类.
表 2 所示为本文对流行病数据可视化相关任务和可 视化方法所作总结.
(1)时空演变可视分析 时空演变可视分析主要是对时间、空间的变化 进行分析探索,例如流行病数据集[19]中包含了大量 的时间信息、地理位置信息等. 由于这类流行病数 据有数据总量大、时序信息冗杂、空间位置信息不 直观等特征,因此可视分析技术能帮助这类数据以 一种较为直观的方式进行呈现. 其中基于统计图表 的可视技术、地图可视分析技术为这类数据集的主 要可视分析手段. 在流行病数据可视分析任务中, 由于流行病的暴发往往具有时空性[85],统计图表可 视分析技术能较好地展现流行病总体的发展趋势, 同时地图可视分析技术能更加直观地展示流行病的 传播情况,对比评估防控措施.
(2)语义内容可视分析 语义内容可视分析所要处理的数据主要是基于 流行病相关的文本数据,其中包括非结构化、半结 构化等类型的流行病文本. 例如非结构化的流行病 相关的推特数据集合[20]中,由于该数据集总量庞大、 前期数据清理难度大、有效数据信息提取成本高、 数据源变化更新快等特点,运用可视分析技术能较 好地解决这些问题. 目前 SAS 大数据挖掘软件[86]可 以对大量数据进行评估可视分析,运用文本自动可 视技术[87]进行实时舆情分析,了解大众对当下流行 病的看法和情感状况,对流行病相关的媒体数据实 时获取,在面对突发的舆情热潮,政府机关能及时 进行宏观调控等.
(3)流行病模型的可视分析
流行病模型在传播学中研究广泛,其主要以传 播机理可分为基于常微分方程、偏微分方程、网络 动力学展开. 基于上述方法的流行病模型会造成非 该领域的研究人员较难入手,因此对流行病模型的 可视分析同样重要. 流行病模型可以有效地仿真预 测不同类型流行病的传播过程. 传统仅依靠流行病 数据中的数字对传播过程进行解释的行为耗时耗 力,可视化可以大大减少传统方法带来的弊端,从 视觉角度观察模拟的传播过程,可以增强可信度, 并且可以多角度同时展示流行病数据内容. 例如石 耀霖[88]基于传染病模型构造了 SARS 传播动力学模 型. Jalayer[89]基于 ABM(Agent-based model),对 COVID-19 疫情进行传播模拟.
(4)信息图可视分析
由于流行病数据涉及领域较为广泛,涉及专业 知识内容较多,对于非专业领域人员而言,面对复 杂的专业知识较难快速理解掌握. 信息图可视分析 是将数据用可视手法进行直观展现的可视分析方法,虽然缺少交互信息,但能友好地面向广大群众. 因此信息图可视化成为面向非专业人员进行知识科 普的主要呈现方式. 例如使用信息图可视分析可以 简单展示病原体的基因衍变和基因变异,也可以展 示人体感染病原体的过程.
流行病数据的时空可视化
时空数据包括时间、空间、专题属性三维信息, 具有多源性、数据量大、更新较快等综合特征. 时 空数据可视化在研究时空大数据多维关联描述的表 达、关联关系动态建模与多尺度关联分析时提供了 直观的展现手法[90]. 因此,在包含大量时空数据的 流行病数据中,进行时空可视化是最为直观的可视 化方法之一,目前流行病数据的时空可视化任务是 分析流行病在时空上传播规律. 对流行病数据进行 时空态势分析,可以监控流行病发展态势,及时发 现异常情况[91],处理缺失流行病数据[92],评估流行 病措施优劣等. 本节将流行病数据的时空可视分析 分为基于时间序列可视分析、基于空间维度可视分析和基于时空数据的可视分析.
基于时间序列可视分析
基于空间维度可视分析
基于时空数据的可视分析.
流行病数据语义可视化
流行病数据的语义可视分析主要基于语义结 构、时序文本和多变量文本可视分析,主要任务侧 重于流行病的文本内容可视分析、话题情感可视分 析、舆情可视分析等. 基于语义可视分析的任务将 文本内容以可视分析的方法展现,大大减少了对海 量新闻媒体数据的探索的时间,帮助研究人员更快 识别模式,让用户深入了解细节层次,帮助研究人 员对长篇幅的流行病文本的层次分析和直观认识. 但是对于流行病数据的语义可视分析同样也存在一 些问题和挑战,面对日新月异的数据量更迭,同时 数据集合的复杂度的日渐提高,对于新闻媒体领域 中的媒体数据,需要更好的数据规范化处理. 在实 现文本可视化的同时,如何同时更好地表达数据中不同重要程度的信息内容是一个挑战,在未显示的 信息中,可能也会存在用户或研究人员所需要认识 的相关信息,因此自定义信息粗度的文本可视分析 系统一个较好的解决方案.
流行病模型和可视化
在本节流行病模型的可视化中,介绍了目前流 行的流行病数学模型和基于个体的模型,同时对其 模型输出结果进行了可视分析,其可视化任务主要 为仿真模拟流行病在区域内的感染传播情况和对比 使用不同政策管理调控的模型输出的防控情况. 目 前对于流行病的预测、传播模拟大多都基于传播动 力学模型进行分析,借助可视化的方法对流行病模 型的预测模拟结果进行展现. 流行病往往涉及到较 多领域和学科,因此不同领域的专家和研究人员都 会参与其中,构建针对不同领域任务的可视分析系 统,让研究专家或用户不必了解模型细节的前提下结合自身领域知识来调整模型[104]也是很有价值的 方向.
流行病信息图
很多综述[105-106]并没有针对信息图进行整理 和总结,但信息图是可视化领域中重要的一部分, 信息图虽然无法交互,但是承担了一部分直观的 数据理解任务. 要特殊强调的是,信息图对分析来 说并不是很适合,但是本文认为这些信息图对人 类快速理解流行病传播、衍变等内容承担不可或 缺的作用.
问题和挑战
(1)流行病数据的获取和存储
本文将流行病数据分为病例数据(其中包括患 病情况、个人情况等)、流行病相关文本数据(医学 文本、新闻媒体等)、流行病相关模型数据(模拟仿 真数据、模型参数等). 在早期的流行病可视化研究 中,流行病数据通常是对某个地区进行实地调查进 行数据获取,这样的方法无法获取完整的流行病病 例数据集,造成数据存在偏差,重复,无效,单一, 质量欠佳等问题,从而影响流行病数据可视化的科 学进展. 近年来随着存储条件的高速发展以及获取 数据手段多样化,大部分流行病患者在就医后,个 人病例数据保存于专门的存储管理系统中,并在整 理和清洗后可供科研工作者们使用. 由于并非全部 的患病人员会选择就医,无法获取较为完整的数据 集合,统计的数据容易出现漏洞或错误,因此预测 技术应运而生. 例如 2020 年初,出现的新型冠状病 毒肺炎疫情,我国通过健康码来对国内每一个使用 智能手机的居民进行实时轨迹监控,根据疫情的严 重程度,不同地区显示不同颜色的健康码,从而控 制人口流通率,减少传播患病概率. 利用智能手机 来追踪患者行迹. 虽然这样的方法还是无法较为全 面地了解每一个居民的健康状况,同时“健康码” 技术[109]易产生隐私泄露问题,但是通过展示颜色来 表示自己可能处于的健康状况,较好地降低了各个 区域之间的人口流动,从而减少病毒传播. 在我国 法律的保护下,流行病数据可视化的数据获取问题 将会是可视分析面临的第一个挑战.
(2)地图可视化形式的多元拓展
在流行病时空数据中,可视分析方法基本设定 在基于地图等的形式. 由于位置属性是流行病数据 较重要的数据属性之一,结合地图可视化呈现位置 信息的方法较为普遍和通用. 对于流行病时空数据 而言,如何转变可视化形式,将其他维度的信息融入到时空数据中是目前的一个挑战. 例如目前地图 可视化大多以某一时刻的快照形式展现,当数据集 中包含轨迹数据时,地图可视化较难将其通过地图 进行轨迹复现,除了因为地图比例尺过大,导致移 动不明显外,在地图上散点的移动,极容易造成视 觉杂乱,只能大致感知某区域内交流频率. 如何在 地图上合理运用轨迹信息,并进行可视分析呈现也 是一个挑战. 其次,基于疫情传播速度而言,极容 易造成局部地区疫情极其严重,而其他地区疫情较 轻的情况,导致在对疫情数据的地图可视分析时出 现局部地区患病人口值极其巨大,而其他地区则极 小,常见的地图散点分析、地图热力图分析已经无 法将患病人口极大值处的区域更具有特征性的表 示. 目前对地图形状进行改变,来强调某区域的患 病人口异常大,而这样的方法改变了地图形状,从 而也丧失了对整体疫情的了解. 因此对数据值差异 极大的时空数据的可视分析呈现是一个挑战.
(3)流行病模型模拟传播可视分析
流行病模型的可视化模拟中,首先对流行病模 型的选择是至关重要的. 然而目前我们熟知的流行 病相关模型都无法对任意一个流行病的传播进行真 实的模拟复现,除了因为流行病传播数据的缺失和 难以获取以外,同时我们无法获知病毒是通过什么 途径对被感染者进行侵犯. 目前大多数的模型可视 化,只是对某个病毒传播的模式的抽象复现. 通过 可视分析手段,可以直观地感受不同流行病模型对某种流行病的模拟真实程度,从而进行选择模型或 微调模型参数. 其次,流行病真实传播可视需要极 其庞大的数据支持,同时硬件设备要求较高,目前 的数据获取条件和平均硬件水平难以实现理想的流 行病真实传播轨迹重现. 在流行病模型可视化中, 目前亟待一个可以较好比较相关模型或模拟较为真 实传播的模型和可视分析系统.
(4)面向多学科交融的流行病可视分析方法
目前不同领域如生物医学、网络动力学等对流 行病或流行病数据都展开了不同层面的研究,如何 将各领域研究得到的成果与计算机科学有效结合是 目前的一个挑战. 例如在流行病数据的获取中,自 动综合不同领域或学科的数据并展开融合的交互式 系统目前缺乏. 在突发重大卫生事件时,疫情初期 流行病数据往往难以获取和统计,流行病数据的深 度和广度往往超过人们历来的先验理解. 与此同时,在数据处理过程中,由于流行病数 据来源广泛,其数据类型结构不统一,在对数据进 行规则标准统一过程中,需要涉及到大量医学、传 播学等领域的知识. 例如在面对半结构化的临床病 例数据,非结构化的医学影像信息,数据流结构的 传播轨迹数据等较为繁多的数据信息时,应该以多 角度,多学科进行交融分析. 在针对流行病数据的 可视化方面,交互式新闻所呈现的内容如丁香网、 凤凰新闻等往往适合更适合大众,并不适合专家用 户展开深入探索. 因此,如何在可视分析系统中,体现领域需求和用户意图存在诸多挑战. 例如,针 对新冠病毒不同毒株的差异[110]可视分析及其时空 变迁方面的探索,需要自定义的可视视图以综合生 物信息学算法[111]、网络动力学知识等知识.
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“VAED” 就可以获取《新冠如何可视化分析?「流行病数据可视分析 」最新2022研究综述》专知下载链接