摘要

联邦学习是一种机器学习方法，它允许在多个客户端之间分布式训练深度神经网络，同时保护每个客户端的数据隐私。由于医疗数据的隐私性考虑，联邦学习在医学影像方面很有帮助。在医院建立联邦网络有独特的挑战，主要是因为医学影像数据和联邦学习算法都有自己一套独特的特点。本文介绍了医学影像中的联邦学习算法，并讨论了其在现实世界中实施的技术挑战和注意事项。

关键字

联邦学习；医学影像；保护隐私的机器学习

引言

随着机器学习在医疗和计算机辅助诊断领域的快速发展，医疗数据的获取已成为人们关注的问题。临床医生、计算机科学家和医疗技术专家需要获得更多的数据，以实现基于机器学习的项目。然而，要在建立更强大的机器以用于医疗行业和在隐私考虑下访问大量数据的限制之间取得平衡，始终是一项具有挑战性的任务。一般来说，共享数据需要医院解决《通用数据保护条例》的限制，并得到机构审查委员会的批准。机构审查委员会或伦理委员会决定一家医院可以在多大程度上与其他医院共享信息，并确保医院遵守《一般数据保护条例》的限制。因此，医院的数据中心通常不具备训练深度神经网络所需的大型和多样化的数据集。

联邦学习（FL）[1]是由McMahan等人提出的一个机器学习概念，以解决这个问题。在这个概念中，用来自多家医院的数据集训练神经网络，整个训练过程通过一个中央服务器管理。在每一轮中，医院在其本地数据上训练一个神经网络，并与中央服务器共享更新的模型。服务器收集所有更新的模型，并将其汇总为一个更新的全局模型。在下一轮中，更新的全局模型被送回医院。这种训练方式使研究人员能够使用来自多个医院的数据，同时确保敏感数据被保存在本地。

目前存在几种FL算法。McMahan等人[1]提出了联盟平均法（FedAvg），以尽量减少医院之间的参数变化。该算法简单明了。每轮选择一个客户端的子集。训练分布在多个客户端之间。每个客户端将在自己的本地数据集上计算一个更新的模型。客户端上的所有模型实例应该从相同的随机初始化开始，以实现收敛。一旦他们的本地训练完成，客户端就会与中央服务器通信。最后，中央服务器收集各客户端的更新。在这个阶段，可以看到本地训练的直接效果。更新后的全局模型可以针对测试数据集进行测试，将其与上一轮的性能进行比较，可以了解在上一轮训练中取得了多少改进。这个步骤的图示见图1。基于区块链的技术也可以用在聚合阶段。在区块链网络中，本地客户（矿工）取代了中央服务器，并在他们之间分配集成过程。在这种情况下，整个过程将是去中心化的。区块链网络可以很有价值，因为它们可以防止中央服务器或客户端失败[2]。

图1.云服务器从客户端收集本地更新的模型。

另一种方法是对在客户上单独训练的本地模型的输出进行平均化（合集单一客户模型）。集成学习的一般定义是不同的机器学习算法在做同样的任务时合并成一个算法。每个算法都从输入数据中提取信息或特征，然后使用各种机制，如平均法和投票法，将所得信息进行集成。一般来说，合集的表现一直优于其单独构成的每个算法。在集合学习的联盟设置中，模型和数据都不会在训练周期中的客户之间共享。所有的客户都将被分配到一个类似的模型，其初始值是随机的。每个客户都将训练自己的模型。在部署阶段，他们对同一任务的输出将被平均化，从而形成一个来自多个模型的累积知识。

第三种算法是单一权重迁移（SWT）。在这种算法中，一个深度学习模型在单个客户端训练到某一特定时间，然后转移到下一个客户端。有许多选项可以决定何时完成局部训练并将其模型传递给下一个客户端。标准是每个客户端的历时数和验证损失或准确性，这取决于问题。循环权重转移（CWT）是另一种算法，在这种算法中，模型在每个客户端被训练了预定的历时数，然后转移到下一个客户端。在这种算法中，模型对每个客户端的访问多于一次。

在FL场景中，模型和任务的功能因FL算法的不同而不同。迁移模型的算法比其他算法的功能更全面，适应性更强。深度学习模型在联邦环境中的表现也会因模型而异。模型的适应性可以决定一个FL网络的整体性能。例如，研究表明，一些深度神经网络组件（如批量归一化层）会导致性能问题，在联邦环境中更难调整。相反，像卷积层这样的组件可以很容易地被平均化，在一个适当的全局模型中平均化它们的结果。因此，拥有更多合适组件的深度学习模型是FL的更好选择。研究正在进行中，以开发在联邦环境中表现更好的特定模型[4]。

FL算法的比较

我们可以根据服务器和客户端之间交换的内容对算法进行分类，以比较联邦算法。FedAvg、SWT和CWT等技术在服务器和客户端之间传输模型。像分割学习[5]这样的方法，可以转移神经网络的中间层输出。中间层的输出可以被看作是输入数据的一种扭曲形式。换句话说，当神经网络处理输入数据时，它经历了大量的修改，扭曲了输入。集成合方法等共享其模型的最终输出，并将其传播到中央服务器。

在模型被移到中央服务器的方法中，传输的数据量相对很小，而且与每个站点的训练数据量无关。它完全由深度学习模型的大小决定。大多数流行的深度学习算法的大小为几十兆字节。然而，一个传输模型的FL算法不一定有很低的整体通信开销。交换的总体数据量也取决于客户端和服务器之间的通信回合数。超参数可以决定通信回合的数量，如果客户端之间的交换量过大，通信开销可能会很高。

相反，在传输某种类型的实际数据的算法中，无论是扭曲的输入数据（例如，分割学习[5]）还是输出数据（例如，集成模型），发送的数据大小可能会有很大的变化。然而，由于医学影像数据是巨大的，所传达的信息量通常比传输模型的方法更重要。CDS也属于这一类，因为它需要实际的数据传输到一个中央服务器。这两组在通信负担以及隐私水平方面有很大的不同。因为输入和输出数据没有以任何格式发送，迁移模型的方法更安全，因为从深度学习模型中检索病人数据是很困难的。

在集成模型中，集成过程在本地完成，模型的输出（而不是模型参数）被发送到全局服务器。因此，避免了繁重的服务器端计算，并且可以很容易地建立一个联邦网络。因为集成模型被证明在医学影像的各个领域表现良好，使用集成模型可以帮助提高联邦网络的准确性、通用性和稳定性。然而，集成方法也带来了一些挑战。首先，在这种情况下，数据泄漏的风险很严重。某种输出数据，如分割掩码，很可能会暴露患者的身份。第二，与模型的大小相反，输出的大小可以有很大的不同。图像格式的输出需要太多的通信负荷。此外，集成模型的设计依赖性很强。不一定具有相同目标函数的模型可以被组合成一个集合体。这导致了一个复杂的多目标模型具有不同的优化目标。这不一定是有害的，但缺乏对集成理论分析的研究，集成的结果几乎总是不明确的，使得集成方法不可靠。

此外，在训练时间、模型复杂度、性能和通用性之间总是存在一个折中。尽管这些措施在单个机器学习模型中已经被彻底研究过了，但关于它们在复杂的集合体中的关系的文献仍然没有太多的探讨。

比较FL模型的另一个方面是，FL算法，其中的模型被迁移，可以一致地被中央服务器平均化，无论他们执行的是什么任务。只要有一个合适的深度学习模型，执行分类、分割、回归或其他任务的深度神经网络就可以被平均化。所有提到的任务都已经被证明是以联邦的方式进行的。然而，对于其他联邦的算法来说，平均化许多来源的输出并不总是可行的。例如，如果任务是多类分类，集成方法不能简单地平均不同客户的类输出。因此，集成方法在它能处理的工作中是有限的。

一些研究出版物已经发表，对FL的实现进行了比较。Nilsson等人[6]在实践中比较了各种FL方法。他们证明FedAvg是最好的FL算法。尽管它的性能比CDS略低，但在他们的比较性能分析中，它实际上与非联盟结构相当。FedAvg算法和其他FL方法有许多变种。然而，原始的FedAvg方法仍然是比较研究中的顶级方法之一。Chang等人[3]在治疗学领域调查了几种FL算法。根据这项研究，FedAvg与其他算法相比没有任何偏见，因为它平等地考虑所有的客户，并且不按任何特定的顺序排列。如图2所示，在SWT和CWT等算法中，客户被放在一个序列中，一个接一个地进行训练。作为灾难性遗忘的结果，模型更多的是代表它所观察到的最近的客户，而较少代表早期的客户[7]。因此，在有顺序训练的模型中，存在着偏向于最近的机构的偏见。尽管CWT可以通过在机构中多次循环运行模型来减轻这种影响，但偏见仍然存在。表1显示了FL算法的基本特征。表1显示了FL算法的基本特征，还有一个这些算法在医疗领域的使用案例的样本。

图2.不同分布式学习方法的示意图。(a) 集成方法。客户端在自己的数据集上训练本地模型；不同客户端的模型输出被平均化。(b) 联邦平均法。一个初始模型被发送到客户端；每个客户端在自己的数据上训练模型，得到的本地模型在一个中央服务器上进行平均化。(c) 单一权重迁移。一个初始模型依次通过客户端，对每个客户端访问一次。最终模型是在最新的客户端上训练的模型。(d) 循环权重迁移：类似于单次权重迁移，但模型在机构中迁移多次。

表1.FL方法的比较

CDS=集中数据共享；COVID-19=2019年冠状病毒病；CWT=循环权重迁移；EHR=电子健康记录；FedAvg=联邦平均；FL=联邦学习；SWAT=单一权重迁移。

Pan等人[8]研究了基于影像数据的自动骨龄估计的模型集成的影响。结果显示，结合异质的、不相关的模型可以得到更稳健的集成。相反，集成顶级模型并不一定能确保一流的性能。研究人员能够证明FL数据如何帮助识别可比较的病人，同时保护他们的隐私。

挑战和考虑因素

在放射学方面，FL仍有很长的路要走。在理论表述和实际执行方面都有许多挑战。FL算法可以分为完全去中心化的、需要可信中央服务器的点对点方法。每一类都会有其挑战。一般来说，有中央服务器的方法提供更多的灵活性和更好的性能，而分布式方法则更可靠和安全。

然而，FL基础设施仍然存在一些风险[9]。对手可以从本地模型更新中重建私人数据[10]。医院可以做额外的安全措施来防止对手访问服务器和客户之间的交换数据。

数据的异质性

FedAvg算法的作者声称，他们提出的方法可以处理异质性数据。然而，数据的分散结构使得数据处理具有挑战性，无法验证其结论的完整性和质量。进一步的调查显示，这种说法并不总是有效[11]。几乎在所有情况下，异质数据都会恶化FL模型的准确性。分歧的程度取决于数据的异质性程度。局部模型在具有不同患者特征的数据上进行训练，导致全局模型不能代表所有的特征。在某些情况下，异质数据阻碍了模型的收敛。

数据的同质性极大地影响了要选择的联邦模型的版本来训练模型。CDS和FL之间的差异可能从相似到CDS更好，这取决于数据的情况。一个经验法则是，如果数据在不同的数据中心其分布差异较大，在每一轮中简单地平均每个客户的数据可能会对性能产生负面影响。

Zhao等人[12]研究了数据分布对FL算法的最终性能的影响。根据他们的研究，数据分布的差异会对模型的准确性产生高达55%的负面影响。另一个困难是，数据的异质性可能会导致这样一种情况：一个最佳的全局模型对某些客户来说可能是一个糟糕的模型，或者一个最佳的全局模型对某些客户来说效果很好，而对其他客户来说表现很差。因此，所有参与者应在培训前就最佳模型训练的概念达成一致。应该进行进一步的技术研究，找到用异质数据更新中心模型的最佳技术。FedAvg是积累客户数据的标准方法。尽管如此，其他能够解决分布差异的分布式优化方法也是一个研究课题。

偏见

偏见是分布式网络中一个普遍存在的问题。偏见是一种状态，即神经网络比其他客户更倾向于某个客户的分布。它导致模型在该客户上表现良好，而在其他客户上的表现则受到影响。偏见的原因可能是客户数据的大小或分布的不同。另外，FL算法本身也可能是一个偏见的来源。

Sheller等人[7]表明，CWT是一种比SWT偏见小的算法。偏见的程度可能不同，取决于哪个客户最后被训练。相比SWT和CWT，他们更倾向于FedAvg。FedAvg更公平地进行FL。对于像SWT和CWT这样的算法，总是偏向于它们所训练的最新客户。然而，在FedAvg中，本地训练的结果每一轮都被汇总，避免了偏见。在SWT中，全局模型在访问每个客户后都会发生变化，后续的客户会减轻模型对前一个机构的偏见。然而，对于模型所训练的最新机构来说，并没有缓解。

全局汇总方法（即服务器算法）应该被设计为最小化偏见。它还应该对局部变化以及安全措施所增加的扰动具有鲁棒性。通过计算每个客户产生的偏见水平，然后修改算法以解决分布中的差异，可以减少偏见并设计捕捉多样性的模型。

然而，如果适当考虑到分布差异，在训练后期仍可能出现偏见。一些特征以及一般的数据分布，可能会随着时间的推移而变化。例如，某家医院的某一疾病患者的数量可能会因为一些原因而改变。这可能会导致领域转移：客户的数据分布发生变化。在数据域转移方面可以有更多的工作，并以某种方式明确解决不同机构或一个机构之间的性别、病人情况、年龄和疾病的改变。模型也可以进一步发展，将经济或种族状况考虑到模型训练中，并修改模型以处理图像的多样性[13]。

缺少标准数据

标准化的数据可以防止不相关的信息在神经网络中被认为是有意义的。它消除了机构之间的差异性。电子数据管理是医学影像和医学通信的规范，DICOM是全球公认的图像数据格式，也是电子文件存储的近乎全球的护理标准。然而，在医学影像领域，并非所有可用的数据都是标准化的。许多机构仍然缺乏基础设施，无法按照目前的管理标准处理其影像数据。其中一个因素是缺乏一种通用的方法来组织和管理病人记录。数据管理的成本很高[14]。并非所有医院都有先进的数据管理设施。这个问题导致参与研究的医院被预选，这也是偏见的一个来源。

由于模式、维度和特征的多样性，以及在特定协议内的收购、医疗设备品牌或当地人口统计学的差异等变量，医疗数据非常多样化。目前还没有统一的数据标准化方法。因此，医疗联邦网络很可能会有数据质量和分布不一的客户。在这种情况下，像FedAvg这样的方法一般可能会失败。避免偏见的一个方法是协调数据，使每个客户的数据类型相似，遵循相似的预处理。这也可能需要在机构间分享元数据，以找到适合所有机构的数据协调的一般方法。然而，考虑到各个机构的限制，这可能是很棘手的。因此，FL系统进一步发展的一个途径是，临床医生和计算机科学家合作，在多个机构之间对隐私限制和考虑进行标准化处理。

隐私和安全

数据泄露是一个重要的问题，医疗数据必须按照公认的保密程序加以保护。事实证明，FL通过将数据保存在本地，有效地保护了病人的隐私和匿名性。然而，FL也有一些与隐私相关的挑战。尽管许多人试图从DICOM图像中去除个人数据，但病人信息仍然可以被重新识别[15,16]。最近的研究已经成功地从MRI数据中重建了一个病人的脸。此外，对手可以窃取数据或访问非加密网络的算法。

此外，深度学习模型在其携带的权重中仍有一些敏感信息。在一个去中心化的网络上，只用一个客户端的本地模型来重建病人的部分信息是可行的[17,18,19]。敌方可以解密深度学习模型，并以非常高的精度揭示患者的信息[20]。恶意的一方可以歪曲深度学习模型。如果在实践中使用，这种模型产生的错误输出会产生严重后果。因此，应该确保模型是安全的，对手不能破坏模型，以在现实世界中使用[21]。

有一些具体的措施来改善隐私。可以采取特定的对策，如模型加密、差分隐私（DP）[22]、针对恶意客户的对抗性防御[19]，以及增加通信安全。DP指的是保持数据集的全局统计分布，同时尽量减少个人可识别信息的做法。DP可以通过向每个样本添加扰动来完成。向数据集添加噪音以减少私人数据被泄露的机会，是基于这样的论点：通过随机改变数据集，人们可以保留一般的数据分布，而单个样本则被改变。添加系统噪音有助于机器模型学习训练数据的整体分布，同时保持每个样本的匿名性。

然而，这种对策使训练算法复杂化，并会影响训练性能。有时需要更长的训练时间，或者准确率会急剧下降。这可能会给整个网络带来额外的成本。因此，考虑部署反措施是否有必要是非常重要的。实施这些措施的成本效益主要取决于参与各方的信任程度和项目规模。如果客户不互相信任，那么DP是必须的。这是因为联合的客户有定期的沟通，关键信息可以在互动中交换。所以每个客户的数据都应该受到保护，不被其他客户发现。这表明澄清客户之间的信任程度是多么重要。这个论点在完全去中心化的算法中是成立的，在这种算法中没有中心节点参与，在包括中心服务器的算法中也是如此，在这种算法中，客户端-服务器的信任也是至关重要的。完全的图像匿名化仍然是一个问题。在没有加密的情况下，攻击者可能会从本地数据中心获得私人信息，或者拦截通信途径，抢夺传递的数据。

系统架构

联邦网络中的医疗数据需要在内部或基于云的数据存储。医院可能需要私人或基于云的计算能力，以及用于数据预处理和标准化的软件，如PACS。为了让本地的模型训练硬件（图形处理单元），应在本地中心建立连接和数据中心。这些都带来了它们的挑战，如高计算能力，以确保与其他客户的和谐，以及不同中心之间的高性能带宽和连接，这在医疗中心并不总是可行的。许多医院仍然缺乏计算资源和强大的互联网连接[23]。此外，为了使整个网络正常工作，应该设计出冗余的计算设施和数据中心，以防止数据丢失。如果一个计算客户端出现故障，网络可以继续其训练，这就带来了额外的挑战。网络的稳健性也很关键；联邦模型的结构应该是：增加或删除客户端以及增加或减少中心的数据量不会对病人数据或模型隐私产生负面影响。

总结

本文介绍了用于放射学的主要FL算法，并比较了它们的特点。一个联邦环境面临着无数的挑战；设计算法来解决这些问题的结果是各种具有不同优化目标的算法。一般来说，发展的重点是隐私、通信负载、数据异质性和模型性能作为他们的目标。本文讨论并比较了基于这些目标的FL算法。我们首先介绍了FL和它在医学影像研究中的重要作用。然后，我们介绍了最流行的FL算法，并讨论了它们的挑战和注意事项。这些挑战是目前的研究方向，在实现FL网络时需要格外注意。

收获要点

对医学影像实施FL管线可以在很大程度上减轻隐私问题。然而，医学图像和医疗机构的独特特征会造成特定的障碍，与其他数据类型遇到的障碍有很大不同。
医疗机构通常缺乏基于云的或内部的计算设施，这对建立联邦网络至关重要。他们可能还需要准备数据管理和标准化管道，并拥有强大的网络连接。
主要的功能挑战包括偏向一家医院、数据异质性、本地模型性能和安全问题。
为解决这些问题，设计了几种FL算法。一些有希望的结果增强了隐私、通信负载、数据异质性和模型性能。研究还在进行中，通用的解决方案还没有出现。

鸣谢

这项研究得到了KWF Kankerbestrijding和荷兰科学研究组织DomainAES的支持，项目编号为17924，AI in Medical Imaging for novel Cancer User Support，作为他们联合战略研究计划的一部分。肿瘤学技术IL。该合作项目是由荷兰卫生署提供的PPP津贴共同资助的，以刺激公私伙伴关系。

成为VIP会员查看完整内容