The application of Machine Learning (ML) to the diagnosis of rare diseases, such as collagen VI-related dystrophies (COL6-RD), is fundamentally limited by the scarcity and fragmentation of available data. Attempts to expand sampling across hospitals, institutions, or countries with differing regulations face severe privacy, regulatory, and logistical obstacles that are often difficult to overcome. The Federated Learning (FL) provides a promising solution by enabling collaborative model training across decentralized datasets while keeping patient data local and private. Here, we report a novel global FL initiative using the Sherpa.ai FL platform, which leverages FL across distributed datasets in two international organizations for the diagnosis of COL6-RD, using collagen VI immunofluorescence microscopy images from patient-derived fibroblast cultures. Our solution resulted in an ML model capable of classifying collagen VI patient images into the three primary pathogenic mechanism groups associated with COL6-RD: exon skipping, glycine substitution, and pseudoexon insertion. This new approach achieved an F1-score of 0.82, outperforming single-organization models (0.57-0.75). These results demonstrate that FL substantially improves diagnostic utility and generalizability compared to isolated institutional models. Beyond enabling more accurate diagnosis, we anticipate that this approach will support the interpretation of variants of uncertain significance and guide the prioritization of sequencing strategies to identify novel pathogenic variants.


翻译:机器学习(ML)在罕见病(如胶原蛋白VI相关肌营养不良,COL6-RD)诊断中的应用,从根本上受到数据稀缺性和分散性的限制。试图跨越医院、机构或国家扩展样本采集时,常面临因法规差异导致的严重隐私、监管和物流障碍,这些障碍往往难以克服。联邦学习(FL)通过支持在分散数据集上进行协同模型训练,同时保持患者数据本地化和隐私性,提供了一种前景广阔的解决方案。本文报告了一项基于Sherpa.ai FL平台的新型全球FL计划,该计划利用来自患者来源成纤维细胞培养物的胶原蛋白VI免疫荧光显微镜图像,在两个国际组织的分布式数据集上实施FL,用于COL6-RD的诊断。我们的方案构建了一个能够将胶原蛋白VI患者图像分类为与COL6-RD相关的三种主要致病机制组(外显子跳跃、甘氨酸替代和伪外显子插入)的ML模型。这一新方法实现了0.82的F1分数,优于单一机构模型(0.57-0.75)。这些结果表明,与孤立机构模型相比,FL显著提升了诊断效用和泛化能力。除了实现更精确的诊断外,我们预期该方法将支持对意义未明变异的解读,并指导测序策略的优先排序,以识别新的致病变异。

0
下载
关闭预览

相关内容

视觉识别系统出自“头脑风暴”一词。所谓头脑风暴(Brain-storming)系统是运用系统的、统一的视觉符号系统。视觉识别是静态的识别符号具体化、视觉化的传达形式,项目最多,层面最广,效果更直接。视觉识别系统属于CIS中的VI,用完整、体系的视觉传达体系,将企业理念、文化特质、服务内容、企业规范等抽象语意转换为具体符号的概念,塑造出独特的企业形象。视觉识别系统分为基本要素系统和应用要素系统两方面。基本要素系统主要包括:企业名称、企业标志、标准字、标准色、象征图案、宣传口语、市场行销报告书等。应用系统主要包括:办公事务用品、生产设备、建筑环境、产品包装、广告媒体、交通工具、衣着制服、旗帜、招牌、标识牌、橱窗、陈列展示等。视觉识别(VI)在CI系统大众所接受,据有主导的地位。
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员