用于健康和生物医学领域的机器学习的数据集通常是有噪声的,采样不规律,只有稀疏的标记,相对于数据和任务的维度都很小。这些问题推动了表示学习在这个领域的应用,它包含了各种技术,旨在产生适合下游建模任务的数据集表示。该领域的表示学习还可以利用生物医学领域的重要外部知识。在本文中,我将探索新的生物医学数据预训练和表示学习策略,这些策略利用外部结构或知识来为局部和全局尺度的学习提供信息。这些技术将在四章中进行探讨: (1)利用未标记数据来推断半监督学习环境中的分布约束; (2)在基因-基因共同调控网络上使用图卷积神经网络改进基因表达数据的建模; (3)将自然语言处理的预训练前技术应用于电子健康记录数据,并表明电子健康记录时序数据需要新的方法; (4)通过结构诱导的预训练前应用来断言预训练前应用的全局结构。
https://dspace.mit.edu/handle/1721.1/144655
我的论文集中在解决这些挑战,在设计预训练和表示学习算法,利用结构和知识的临床和生物医学领域。特别是,在这篇论文中,我将讨论四个具体的研究努力,每一个都将结构和知识纳入表征学习的不同方式。我描述了下面的每一章,并在每一章的描述中引用了驱动这一章的基础工作,以及其他我与他人合著的相关工作,这些工作虽然不在这一章中,但与主题相关。在这一节的最后,我还列出了我在研究生学习期间完成的其他出版物,这些出版物没有在这篇论文中出现。
首先,在第2章中,我将探索如何利用循环Wasserstein回归生成对抗网络(CWR-GAN)从无标签数据中学习到的分布式知识来解决临床和生物医学回归问题。我们表明,这种方法在预测重症监护患者的个别治疗反应估计方面明显优于传统的监督学习。这项工作进一步推动了更大规模的自监督或半监督预训练系统,它们同样利用了未标记数据,特别是对神经网络潜在空间施加全局结构约束的预训练方法。主要工作[134],其他相关文献[11]。
第二,在第3章中,我展示了使用遗传共同调控信息固有的图结构可以显著提高基因表达数据的建模。这表明,局部结构的使用可以在非传统结构化的生物医学领域提供更高质量的表示,并进一步推动我后来的分析如何在更大的规模将结构纳入训练前系统。第三,在第4章中,我讨论了传统训练前算法对电子健康记录数据的适应性,特别关注结构化的生理临床时间序列。这项工作突出了传统算法对这种新模式的限制。特别是,我们表明,多类预训练算法的性能显著优于基于填补的方法,这突出表明,对自然语言处理方法的naïve适应在这种模式下并不能提供成功。因此,这一失败激发了生物医学模式训练前新方法的开发。最后,第四章,在第5章中,我探索了一个新的预训练算法的理论框架,强调了预训练算法中样本间归纳偏差的重要性。我们引入了结构诱导预训练(SIPT)框架,并提供了理论和经验证明,将全局结构诱导到预训练潜在空间可以提供显著的好处,这为开发专门针对生物医学数据的新预训练方法提供了重要的机会。主要工作[132],其他相关出版物[164,131]。
总的来说,在这篇论文中,我们将证明整合结构,无论是直接从数据中学习还是通过外部知识,都可以显著提高临床和生物医学机器学习的性能。