由于医疗数据的多样性和数据收集和注释的费用高昂,数据不足和异质性是表示学习在医学机器学习中的挑战。为了从如此有限和异构的医疗数据中学习可泛化的表示,我们的目标是利用各种学习范式来克服这个问题。在本文中,我们系统地探索了有限数据、数据不平衡和异构数据的机器学习框架,使用跨领域学习、自我监督学习、对比学习、元学习、多任务学习和鲁棒学习。我们提出了不同医疗应用的研究,如临床语言翻译、超声图像分类和分割、医学图像检索、皮肤诊断分类、病理元数据预测和肺部病理预测。
https://dspace.mit.edu/handle/1721.1/144745
我们首先关注有限的数据问题,这在医学领域很常见。我们利用具有相同锚点的无监督嵌入空间对齐方法,在有限且不配对的医学语料库中学习临床语言翻译的跨领域表示,并使用统计语言建模进行句子翻译。使用临床正确性和可读性的指标,开发的方法在单词和句子级别的翻译中优于基于词典的算法。为了更好地学习有限数量的超声图像的数据表示,我们随后采用了自我监督学习技术,并将相应的元数据作为多模态资源集成,以引入归纳偏差。我们发现,与标准迁移学习方法相比,通过开发的方法学习的表示可以获得更好的下游任务性能,如超声图像质量分类和器官分割。
接下来,我们放大数据不平衡问题。本文探索了对比学习的用途,特别是孪生网络,从不平衡的眼底成像数据集中学习表示,用于糖尿病视网膜病变图像检索。与标准的监督学习设置相比,我们使用从Siamese网络学习的表示获得了可比较但可解释的结果。我们还利用极不平衡的长尾皮肤图像数据集进行皮肤病分类的元学习。我们发现,使用元学习模型和使用常规类不平衡技术训练的模型集成可以产生更好的预测性能,特别是对于罕见的皮肤病。
最后,针对异构医疗数据,我们开发了一个多模态多任务学习框架来学习病理元数据预测的共享表示。我们利用多模态融合技术集成幻灯片图像、自由文本和结构化元数据,并采用多任务目标损失来引入学习时的归纳偏差。这比标准的单模态单任务训练设置产生更好的预测能力。我们还应用鲁棒训练技术来学习可以解决两个胸部x射线数据集分布转移的表示。与标准训练相比,我们发现当存在偏移时,鲁棒训练提供了更好的容忍度,并学习了肺病理预测的鲁棒表示。本文的研究并不详尽,但对在有限和异构的医疗数据设置下利用机器学习帮助临床决策进行了广泛的了解。我们还提供了见解和警告,以激发利用低资源和高维医疗数据的机器学习的未来研究方向,并希望对现实世界的临床产生积极的影响。