人工智能 (AI) 是计算机科学的一个领域,旨在复制或模拟人类学习的认知能力。 AI 由运行在功能强大的计算机上的机器和深度学习算法提供支持,旨在提供快速准确的输出 [1]。
机器学习是人工智能的一个子领域,可以检测和优化数据中的重要特征,以表征预定义的结果。在医疗保健领域,数据来源于多种来源:
• 临床数据:源自常规临床工作流程的特征(例如,年龄、身高、体重等)。
• 定量成像数据,也称为放射组学:源自医学图像,例如 CT、MR、PET 和超声。放射组学特征可以分为四种特征类型:强度、形状、纹理和小波。
• 基因组数据:来源于生物体的DNA/RNA 信息,主要用于确定基因的功能。
机器学习可以单独研究这些数据类型中的每一种,也可以将它们全部或部分耦合起来[2,3]。在医疗保健研究中,机器学习通过促进临床决策 [4,5] 极大地促进了诊断和预后过程的改善。
深度学习是机器学习的一个子领域,其功能受到人脑的启发。它使用具有多个嵌入层的神经网络,这些层封装了大量可以从数据中提取有用特征的神经元。已经提出了不同的架构来执行不同的任务并提高性能[6]。深度学习在医疗保健研究中引起了极大的兴趣。在放射学领域,人们的兴趣主要是使大量手动过程自动化,例如图像分类、分割以及异常检测和分类[7]。
数据是推动科研领域和工业领域人工智能发展的关键要素。在这种情况下,可用于训练和验证 AI 模型的优质数据越多,从中得出的结果就越准确。出于这个原因,数据收集和共享是每个人工智能项目的重要组成部分。然而,最近保护个人数据的法律和道德考虑因素,例如欧洲通用数据保护条例 (GDPR) 和美国的健康保险可移植性和责任法案 (HIPAA),使得数据收集过程具有挑战性、耗时且成本高昂 [8, 9]。从分布式数据中学习的多中心人工智能研究有可能应对这些挑战。这种方法被称为分布式学习,其中以机器学习或深度学习模型为特征的 AI 模型,从分布在合作伙伴网络中的孤立数据中迭代或同时学习 [10-13]。分布式学习可以在保护隐私的同时实现大规模数据访问。文献中报道的传统分布式学习框架(在本论文之前)都依赖于一个中央服务器来协调网络中的学习。这种设计存在1)信任问题,因为所有合作伙伴都需要盲目信任管理服务器的实体,2)源于模型中心化的可追溯性问题,因此合作伙伴没有透明的监控系统来评估其余网络合作伙伴的参与。
为了克服与传统分布式学习设计相关的问题,我们提出了一个完全去中心化的分布式学习框架。我们通过集成公共区块链 (Ethereum) 来实现完全去中心化,这是一种点对点 (P2P) 框架,可在网络上实施信任、不变性、透明度、可追溯性和安全性。在本论文中,我们:
图 1.1:A.传统分布式学习:所有伙伴都连接到一个服务器,该服务器 1)初始化学习,2)每个伙伴在本地数据上训练模型的一部分,3)每个伙伴向服务器提供模型参数, 4)服务器聚合参数,5)与合作伙伴共享更新的参数,6)每个合作伙伴使用更新的参数重新训练本地模型并将它们发送回服务器进行更新,7)重复此过程直到满足收敛标准。B.去中心化顺序分布式学习:每个合作伙伴都持有区块链的副本,这使得学习历史可供所有人使用,1) 训练由连接到系统的第一个合作伙伴发起,2) 一旦本地模型训练完成结束后,下一个合作伙伴可以开始更新之前的模型,4) 重复此过程,直到所有合作伙伴完成更新模型。
这项工作的贡献是在保护数据隐私的同时实现大规模数据访问,并提供一个分布式学习框架,在网络上实施信任、不变性、透明性、可追溯性和安全性。
本论文包括以下主题:
1.集中式学习 - 放射组学:在标准集中式学习方案中详细介绍放射组学,并分析其改进临床决策过程的能力(第 2 章)。
2.分布式学习:评估传统分布式学习框架的现有实现并讨论未来可能的路径(第 3 章)。
3.顺序学习和区块链:概述区块链技术和传统分布式学习框架的重要技术方面,必须调整这些框架以实现与区块链的成功集成以实现完全去中心化(第 4 章)。
4.评估:致力于首先评估以顺序分布式学习为代表的传统分布式学习框架在小批量数据上的根本变化(第 5 章),其次评估跨国环境中的 C-DistriM(第 6 章)。图 1.2 显示了本文的结构概要。
本论文共分为六章。
第 1 章对论文进行了一般性介绍。
第 2 章描述了集中式放射组学的过程,强调了其在改进临床决策方面的缺陷、挑战和机遇。
第 3 章研究了分布式学习在医疗保健中的集成,确定了传统分布式学习框架的局限性,并提出了解决这些局限性的前景。
第 4 章重点介绍完全去中心化、不可变和透明的分布式学习原型 (C-DistriM) 的实现。提议的分布式学习原型由公共以太坊区块链提供支持。通过使用两个开源数据集模拟两个分布式学习网络来评估原型。
第 5 章致力于研究顺序分布式学习在应用于非常小的、孤立的临床和影像数据集时的潜力。使用五个开源数据集,我们评估了三个机器学习模型:支持向量机、逻辑回归和感知器。此外,我们评估了一种由卷积神经网络组成的更复杂的算法。
第 6 章介绍了在分布式学习网络中评估 C-DistriM 的结果。该模型由一个卷积神经网络组成,用于使用磁共振成像估计前列腺癌患者的癌症等级。
第 7 章讨论了本文提出的工作并提出了进一步的观点。
图 1.2:论文结构总结。