《利用多模态移动传感器数据对健康进行建模的机器学习》剑桥大学博士论文

摘要

智能手机和可穿戴设备的广泛采用导致了丰富数据集的积累，这有助于以从未有的细节理解行为和健康。与此同时，机器学习，特别是深度学习在各种预测任务中取得了令人瞩目的表现，但它们在时间序列数据上的使用似乎具有挑战性。由于噪声、稀疏性、行为的长尾分布、缺乏标签和多模态，现有模型难以从这种独特类型的数据中学习。本论文通过开发新模型来解决这些挑战，这些模型利用多任务学习进行准确预测，多模态融合来改进种群子类型，以及自我监督来学习广义表示。我们将我们提出的方法应用于通过传感器数据预测心理健康和心肺健康的现实世界任务。

首先，我们研究从智能手机（运动和背景音频）收集的被动数据与瞬时情绪水平的关系。我们的新训练管道将不同的传感器数据结合到低维嵌入中，并将纵向用户轨迹聚类为结果，优于仅基于心理学问卷的传统方法。其次，由于情绪不稳定作为心理健康状况不佳的预测因素，我们提出了用于时间序列预测的编码器 - 解码器模型，该模型利用多任务学习的情绪双模态。

接下来，受视觉和语言任务中通用模型成功的推动，我们提出了一种自我监督的神经网络，可用作可穿戴数据的特征提取器。为此，我们将心率响应设置为活动数据的监督信号，利用它们潜在的生理关系，并表明由此产生的与任务无关的嵌入可以泛化通过迁移学习（例如 BMI、年龄、能量）预测结构不同的下游结果支出），优于无监督自动编码器和生物标志物。最后，承认健康状况是整体健康的一个强有力的预测指标，然而，这只能用昂贵的仪器（例如，最大摄氧量测试）来测量，我们开发了能够准确预测当前可穿戴设备的细粒度健康水平的模型，更重要的是，近十年后它的方向和规模。

所有提出的方法都在大型纵向数据集上进行评估，有成千上万的参与者。本论文中开发的模型和得出的见解为更好地理解高维行为和生理数据提供了证据，这些数据对大规模健康和生活方式监测具有重要意义。

第一章引言

1.1 研究动机

计算机和数据已经改变了我们获取信息的方式、我们的交流方式以及我们对科学的思考方式。大型数据集的管理已经彻底改变了许多领域，实现了几十年前无法想象的规模（Aad等人, 2012）。但是孤立的数据是没有意义的；我们的努力应该有针对性地提取影响决策并最终改善生活的可行见解和知识。

健康数据是直接改变生活的最佳选择。我们处理这些数据的方式的进步可以改变我们的社会。尽管绝大多数医学研究都研究临床数据（实验室、影像学、生命体征等），但普通人每年只看医生大约 5 次（Kim 等人，2014 年）。另一方面，可穿戴传感和移动计算的最新进展以及它们的广泛采用，为在实验室和医院环境之外以纵向方式收集健康和福祉数据创造了新途径。除了“填补”传统临床数据的空白外，这些设备还为大规模生活方式监测开辟了新的研究和商业方向。例如，全球数百万人使用此类设备来跟踪他们的身体活动和睡眠，并具有越来越复杂的预测能力（Althoff 等人，2017 年）。

与此同时，看似完全不同的力量，如成熟的开源科学软件库、更容易的数据众包和标签，以及专用硬件（显卡）的再利用，都使预测建模得到了显着改进。许多机器学习 (ML) 任务都取得了令人印象深刻的性能，从图像中的对象识别（He 等人，2016 年）到在围棋、雅达利和国际象棋游戏中赢得最佳玩家（Schrittwieser 等人，2020 年），或在乳腺癌筛查方面表现优于专家（McKinney 等人，2020 年）。在所有这些案例中，共同点是管理高质量的大型数据集，这些数据集允许模型利用潜在模式并随后在现实世界中进行泛化（Hyland 等人，2020 年）。然而，尤其是在错误预测可能产生严重后果的健康领域，此类系统的推出和采用遭到了抵制（Davenport 和 Kalakota，2019 年）。相反，在线服务、社交网络或流媒体服务等低误报成本和高数字化率的领域，不仅接收机器学习，而且积极推动研究界进一步发展计算机视觉和自然语言领域发展。

类似于社交网络如何学习我们的在线行为，可穿戴设备和移动设备监控我们在现实世界中的活动。通过跟踪我们的睡眠、步数、饮食和工作习惯，他们可以全面了解我们日常健康中最重要的组成部分（世界卫生组织，2002 年），然而现在只有通过调查才有可能。尽管我们认识到此类数据集的价值，但机器学习在健康和移动传感方面的进展并没有跟上其他领域的步伐。例如，在过去十年中，Fitbit 或 iPhone 等设备一直在以前所未有的时间分辨率收集多模式传感器数据。然而，有效利用这些数据集带来了许多挑战，导致这些数据在科学和医学研究中经常被忽视。此外，在这个粒度上获得高质量注释和基本事实可能是昂贵的，甚至是不可能的。需要新的计算方法来应对这些挑战，本论文试图弥合其中的一些差距。

1.2 传统身心健康监测的局限性

尽管检测和了解心理和身体健康的波动很重要，但医生和研究人员仍受到一个关键限制的阻碍：缺乏可靠和有意义的数据。大多数已建立的研究和临床实践都是基于纸笔书面的自我报告和调查，虽然在没有替代方案的情况下很有价值，但它们会受到偏见并且经常提供不完整的信息（Brenner 和 DeLamater，2014 年）。

个人可能不准确地回忆起他们的行为，报告他们习惯的理想化版本或它们的某种组合。先前的研究发现，自我报告的身体活动存在报告偏差，这源于社会期望偏差（报告被视为社会期望的行为），以及精确报告身体活动行为的强度、持续时间和频率的认知复杂性（Sallis and Saelens，2000）。此外，对自我报告行为的理解仅限于向研究参与者提供的特定问题集。这些可能不足以反映复杂行为的完整视图。报告错误导致的不准确可能随机分布在所研究的人群中。这些错误也可能是系统性的，不同人群中的参与者系统地低于或过度报告他们的活动水平。这可能导致错误关联的识别。

与身体健康类似，偏见会以更微妙的方式影响心理健康研究。被要求报告他们的情绪水平或测试抑郁症的患者可能会被自我强化循环中的问题内容触发，这可能弊大于利（Labott 等人，2013 年）。为了减少对使用自我报告身心健康测量研究中的偏见担忧，应尽可能根据金标准测量或客观测量对问卷进行验证。来自移动设备的数据可以结合两者：由于推送通知，自我报告总是带有时间戳和上下文，而被动传感器可以不显眼地客观地监控行为。

1.3 多感官机器学习的挑战

在大多数领域，科学家的典型工作流程涉及解释数据集方差的综合变量。直到最近，这个过程的特点是精细的特征工程，以便构建能够区分某些类别的信息特征（在分类的情况下）。现在，深度神经网络可通过学习潜在特征作为优化过程的另一作用以及实现最先进的结果（LeCun等人, 2015）来自动化这项任务。这对于移动传感数据更为重要（图 1.1 展示了移动传感器数据的典型机器学习工作流程示意图）。

图 1.1：机器学习工作流的生命周期。处理来自个人设备的数据时遵循的迭代步骤。本论文对应用于整个生命周期的方法做出了贡献，特别关注新颖的特征提取和表示方法，以及推广到以纵向方式收集的新数据。

来自加速度计、心电图 (ECG)、陀螺仪和麦克风等常见传感器的数据通常表示为高维时间序列 (Lane等人, 2010)。与其他数据类型不同，这些传感器测量是有噪声的，尽管在小规模研究中人工设计的特征已被证明是有效的（Wang等人, 2014），但要为个人用户行为的不同噪声水平选择鲁棒的特征并不简单。移动测量中的噪声很难建模，因为它与时间相关 (Park, 2004) 并呈现非线性结构 (Ang et al., 2007)。除了噪声之外，建模传感器数据的挑战还延伸到不同的稀疏程度（Abedin 等人，2019；Ghassemi 等人，2015）、无法获得高质量注释和标签（Bulling 等人，2014）以及异构数据类型（Radu 等人，2018 年），与已建立的基准任务中使用的类型不同。

描述这些挑战的说明性场景可能是个人在洗澡时摘下智能手表。手表的光传感器可能会从远处的表面反射，从而记录错误的心率（噪音）；非磨损期会产生不规则的采样数据，这些数据必须用预期的传感器值（稀疏性）进行估算；用户不太可能在分钟级别注释此事件或其他事件（标签稀缺性）。此外，当最终佩戴时，运动传感器和心脏传感器对压力等外部刺激（多模态）的反应会有所不同（Bent 等人，2020 年）。

尺度也不同。大型纵向研究，如 UK Biobank (Doherty等人, 2017)、Apple Study (Perez等人, 2019)、Fenland Study (O'Connor等人, 2015)、Utsureko (Suhara等人, 2017) ) 和 EmotionSense (Servia-Rodr´ıguez等人, 2017) 一直在使用可穿戴传感器监测数万名参与者的身心健康。例如，超过 200000 名 Fitbit 用户的静息心率升高被用于预测美国的流感样疾病（Radin 等人，2020 年）。然而，诸如广义线性混合模型之类的统计方法对具有重复测量的纵向数据进行操作（例如，单个用户出现多天），无法扩展到该数量的受试者（Zhang等人, 2016）。此外，鉴于之前的移动健康研究是通过受控实验和有限数量的参与者进行的（Sano，2016；Jaques 等，2017；LiKamWa 等，2013），尚不清楚之前的发现和方法是否可以转移到这些大型数据集。此外，缺乏对参与的严格控制以及促进参与的有限机制，使得收集的数据更难以解释。

可以说，这里的潜在挑战是表示。机器学习试图找到有意义的表示，将数据转换为线性可分的空间并区分语义类。从捕获图像数据集结构的卷积网络的低维嵌入 (LeCun等人, 2015) 到最近通过预测输入数据的失真样本来学习更好特征的自监督网络，它已经走了很长一段路（Devlin等人，2019）。但是了解多感官测量如何跨时间相互关联意味着构建个人健康状态的表示。本论文认为，未来健康机器学习的一些基本组成部分将是多任务处理、迁移学习和预测。我们现在知道，执行多项任务的模型不仅更有用，而且还使每个单独的任务更加鲁棒（Kaiser等人, 2017）。此外，能够推理未来的模型可以更好地跨不同环境迁移（Chen等人, 2021）。因此，我们需要模型来通过改进数据表示来解决这些挑战，该表示利用跨传感器关系并尽可能少地依赖手动注释。

1.4 论文与论证

我们回顾了移动健康机器学习改进带来的一些潜在好处，采用传统方法时会出现哪些限制，以及在处理含噪的传感器数据时会遇到哪些挑战。形式上，总体目标可以表述为：改进机器学习方法，用于由消费者移动和可穿戴设备生成的动态和静态、多任务和有限监督的观察、回顾和纵向数据，用于最终目标是改善健康和福祉，重点是心理和身体健康。我们通过首先评估现有方法在大规模身心健康数据集上的潜力，然后提出优于当前方法或提供新见解的新模型来证实这一说法。我们的方法利用并扩展了多模态融合、多任务学习、时间序列预测、迁移学习和自我监督学习的范式。特别是，本论文解决了以下四个研究问题：

• 研究问题1。我们如何使用机器学习将被动传感器时间序列与传统的用户级元数据相结合，以区分集群用户轨迹？

• 研究问题2。多任务学习和编码器-解码器模型在多步时间序列预测中的效果如何？

• 研究问题3。我们如何训练具有自我监督的通用神经网络来利用大量未标记的时间序列数据？

• 研究问题4。我们如何使用深度学习对自由生活的可穿戴传感器数据进行长期心肺健康预测？

为了解决这些问题，我们开发了可以融合时间序列和表格数据的模型，以及能够准确预测心理健康的序列模型。此外，我们设计了新颖的自我监督任务，利用大量未标记的时间序列数据，并提出了新模型，以使用自由的生活传感器数据来预测健康水平。

1.5 贡献和章节大纲

在方法方面，我们将深度学习模型定制为未标记的时间序列。在应用领域，我们采用机器学习方法来应对身心健康领域的挑战性任务。我们将从第 2 章介绍序列数据深度学习的背景开始，然后介绍延伸到本文其余章节的四个主要贡献，如下所示：

贡献 1：用于大规模情绪预测的多模态机器学习

在第 3 章中，我们展示了心理特征与被动收集的感知数据（加速度计的活动和麦克风的噪声水平）相结合，可以检测出一般情绪偏离普通放松的个体特征。我们使用来自 EmotionSense 研究的数据验证了我们的方法，该研究是在野外收集的一个大型移动应用程序数据集，有 17,251 名参与者，发现这些模式的组合实现了最佳分类性能，并且被动感知的准确性提高了 5%。这项研究背后的主要动机是，经验抽样已被提出作为一种监测心理健康的机制，但它需要用户的关注，因此会导致相当大的保留问题。我们研究是否可以使用被动感知和一次性调查来识别放松和不放松的用户，并通过扩展来不显眼地监测心理健康。

建议的方法包括两个步骤。首先，使用标准算法（如 k-means）对历史情绪轨迹（特征提取后）进行聚类，以找到具有相似轨迹的用户组。其次，将用户分类到找到的集群中。我们的管道采用特征选择、降维和分类算法，例如梯度提升树和深度神经网络。

实验结果表明，通过在个性和人口统计调查中加入被动感知，我们可以更准确地预测个人用户的情绪群体。当使用每周传感器（加速度计和麦克风）和一次性问卷数据作为输入时，我们的模型实现了 75% 的 AUC。我们讨论了这种多模态数据的特征提取技术和适当的分类器，以及在处理静态和动态特征时深度神经网络的过拟合缺点。这些发现可能对移动健康应用程序产生重大影响，这些应用程序可以受益于被动传感的正确建模以及额外的用户元数据。

贡献 2：用于情绪时间序列预测的多任务和序列学习

在第 4 章中，我们提出了一个端到端的编码器-解码器模型，用于从之前的自我报告的情绪中预测未来情绪的序列。我们的结果表明，多任务同时学习情绪的两个维度，这比单个模型或基线更准确。此外，绘制神经激活图有助于我们了解情绪的潜在轨迹，以及事后错误分析确定模型在用户个性、情绪变化或星期几方面的表现存在显着差异。这项研究背后的主要动机是心理学家主要使用笔和纸调查来跟踪心理健康，这与移动应用程序不同，容易产生回忆偏差。在更技术方面，我们表明当前的心理健康机器学习模型不能提供长期预测，也不能从时间序列中学习复杂的模式。

所提出的方法依赖于端到端长短期记忆 (LSTM) 编码器-解码器模型。该序列通过一个 LSTM，被转换为单个向量，并通过另一个预测未来序列的 LSTM 进行解码。此外，在处理健康数据时，模型的可解释性总是很重要，因此我们分析了训练模型各层的作用。随着我们进入更深层次，我们看到网络展示了积极和消极情绪的连续统一体，尽管它已经被训练为仅预测情绪。此外，通过检查解码器的单个神经元，我们观察到一些神经元几乎总是以相同的斜率发射，而另一些则更保守，几乎是平线。这有助于我们识别情绪演变的不同亚型。

在这里，我们再次使用来自 EmotionSense 研究的数据，但是，这次我们只使用了自我报告的情绪序列。我们的结果表明，3 周是情绪报告的最佳窗口，验证了之前关于抑郁症预测的研究。此外，我们的模型优于机器学习回归器和简单基线，而多任务学习似乎有助于预测警觉性（两个情绪维度之一）。我们相信这项工作为心理学家和未来移动心理健康应用程序的开发人员提供了一种即用型且有效的工具，用于大规模早期诊断心理健康问题。

贡献 3：来自自由生活可穿戴数据的生理表征的自监督迁移学习

在第 5 章中，我们开发了一种新颖的自监督通用神经网络，该网络将活动数据映射到心率响应，并可用作特征提取器可穿戴数据。它的功能可用于根据用户独特生理进行个性化的各种实际下游任务，并且该模型在通过消融研究评估的上游和下游任务中优于一组强大的基线。

对于预训练，我们引入了一个联合损失函数，它通过使用模型的预测密度的分位数来作为传统均方误差的正则化器，以逼近 HR 数据的长尾，这是现实中普遍存在的问题-世界（健康）数据。在那里，我们表明，包括单一的静息心率测量具有显着影响，并且结合时间戳的循环建模，在自由生活条件下实现了 ∼9 BPM 的最低误差。

在下游，我们通过将窗口级特征聚合到用户级特征来执行一组下游迁移学习任务，并通过在推断生理上有意义的变量、优于自动编码器和常见生物标志物方面的强大性能展示学习嵌入所捕获的价值。例如，我们的模型实现了体重指数 (BMI) 预测的 AUC 为 0.70，体育活动能量消耗的 AUC 为 0.80。通过检查嵌入，我们还注意到大多数结果随着潜在维度的增加而改善，而有些结果对其大小保持不变。

我们使用最大的多模式可穿戴心电图和腕部加速度测量数据集 Fenland 研究评估该模型，包括跟踪一周的 1,700 多名参与者，以及使用临床实验室设备测量的相关健康结果。我们执行消融测试以显示不同模式和架构组件的性能。总体而言，我们提出了一种用于行为和生理数据的多模态自我监督方法，对大规模健康和生活方式监测具有重要意义。

贡献 4：使用深度学习从自由生活可穿戴设备预测适应性心肺健康

在第 6 章中，我们利用可穿戴数据和常见生物标志物开发深度学习模型，以预测健康的黄金标准（VO2max），并实现与其他产品相比的强大性能传统方法。

心肺健康是代谢疾病和死亡率的公认预测指标。健康状况直接测量为最大耗氧量 (VO2max)，或使用对标准运动测试的心率反应进行间接评估。然而，这种运动测试成本高且繁重，限制了其在医疗保健和大规模人口研究中的实用性。也可以使用 RHR 和自我报告的锻炼习惯来近似健身，但与基于动态数据的估计相比，准确性较低。现代可穿戴设备捕获非标准化动态数据，可以改善健康预测。

在这里，我们使用更大的 Fenland 研究队列，并分析来自一项人口研究的可穿戴传感器在自由生活条件下的运动和心率信号，该研究包括 11,059 名参与者，这些参与者也接受了标准运动测试。我们开发了一个深度神经网络模型，该模型利用传感器信息来预测 VO2max，与保持样本中的基本事实相比，产生 r = 0.82 [CI 0.80-0.83] 的 Pearson 相关性。该模型使用正常日常生活的测量结果优于传统的非运动健身模型和传统的生物标志物，无需进行特定的运动测试。此外，我们展示了这种方法在检测 7 年后重复测量的纵向子样本 (n = 2,675) 中随时间变化的适应度变化的适应性和适用性。我们在当前和未来适应度之间的差异（delta）中评估模型的推理能力。对于最后一项任务，模型产生的结果转化为预测的 delta 和真实 VO2max 的 delta 之间的 0.57 相关性。最后，该模型产生的潜在表征为大规模的健身意识监测和干预铺平了道路。

本论文的最后一章（第 7 章）反映了前几章提出的新见解和结果，并概述了局限性以及潜在的未来研究方向。