摘要:
利用电子健康档案中时间序列数据建立的预测模型在改善疾病管理方面发挥着重要作用。由于时态数据的序列相关性和特征空间维度大等特点,机器学习和非深度神经网络等传统方法难以提供疾病的准确预测。最新工作表明,长短时记忆(long short term memory, LSTM)神经网络性能优于大多数传统的疾病预测方法。为了进一步提高预测精度,本文提出了一种将卷积神经网络(convolutional neural network, CNN)与LSTM相结合的混合深度学习神经网络框架。使用电子健康档案中真实数据集的研究结果表明,相比传统SVM,CNN和LSTM模型,该算法的预测性能得到显著提高。
概览
通过追踪一段时间内对患者状态的重复测量,电子健康档案(electronic health records, EHRs)数据包含有关疾病演变的重要信息,该信息可用于构建潜在帮助预测疾病进展的模型。然而,仅在医疗保健事件期间或患者前往医院接受常规医疗护理时才记录患者数据,导致数据的不规则采样;同时对患者进行不同周期的追踪。因此,EHR中存储的医学数据对建立预测模型提出了许多技术挑战:异构数据类型的集成和复杂纵向数据的分析。为了解决集成问题,研究者分别对知识层和数据层进行了研究。有些人依靠领域知识,通过定义来自不同数据类型 [1] 的标准来提取联合患者队列,而另一些人则研究在建模之前或建模后集成异构EHR数据的可能性 [2]。本文的研究重点是后者:分析复杂的纵向数据。
传统的疾病预测方法将相似模式的患者聚类到同一子组以减少不规则性。此外,单变量数据预测仍然是机器学习领域最具挑战性的问题之一,因为大多数因变量是未知的。经典的单变量预测方法通常适用于其他特征难以度量或需要度量的变量太多的情况,例如股票市场指数预测问题 [3]。在不需要额外信息的情况下,单变量预测方法十分灵活,只要EHR中有历史数据,所提出的方法就可以应用到其他患者的疾病预测。
近年来,深度学习神经网络(deep learning neural networks, DLNNs)在世界范围内得到了越来越广泛的应用,包括自然语言处理(natural language processing, NLP) [4]、图像目标检测、时间序列分析等领域。对于疾病预测问题,最近的研究工作表明,长短时记忆(long short term memory, LSTM)神经网络在预测 [5] 上提供极高的精度。实验结果表明,由于在循环神经网络(recurrent neural network, RNN)中引入了贮存长久信息的记忆门,仅使用LSTM神经网络,预测精度就超过了大多数传统的统计和机器学习方法,包括自回归综合移动平均(auto-regressive integrated moving average, ARIMA)模型,支持向量机(support vector Machine, SVM) [6],非深度人工神经网络(non-deep artifificial neural networks, ANN) [7] 及其组合。
此外,LSTM神经网络是RNN的一种特殊形式 [8]。还有其他类型的DLNN,例如卷积神经网络(convolution neural networks, CNNs) [9] 和深度信念网络(deep belief nets, DBN)。由特殊的一维卷积运算组成的时态CNN对于时间序列预测问题也是十分有效 [10]。在自然语言处理领域,有学者建议将时态CNN与RNN结合使用以获得更精确的分类结果 [11]。
地址:
https://www.hanspub.org/journal/PaperInformation.aspx?paperID=34067
便捷查看下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“DPMS” 就可以获取《基于混合深度学习算法的疾病预测模型》论文专知下载链接索引