机器学习有潜力革新生物学和医疗保健领域,为科学家和临床医生提供新工具进行研究,并决定对患者的正确治疗。然而,尽管最近的表示学习方法给人一种普遍的黑箱解决所有问题的印象,但研究表明这并非一般情况。尽管模型可以以黑箱方式表现良好,但它们往往存在泛化能力低和对分布偏移敏感的问题。这凸显了需要开发出考虑到下游应用的方法,并定制以将问题的对称性纳入模型架构的需求。这些归纳偏差对于新数据的性能以及当数据分布发生变化时模型保持稳健至关重要。然而,构建好的模型只是解决方案的一半。为确保模型能够很好地转化为临床应用,他们也需要以这个目标为出发点进行适当的评估。https://www.research-collection.ethz.ch/handle/20.500.11850/602440在这篇论文中,我在深入研究生物学、医学和机器学习交叉处的结构化数据类型的同时,解决了上述问题。在算法贡献方面,我首先提出了一种新的非线性降维算法,旨在保留多尺度关系。基因组测序的成本降低和测序单个细胞的能力导致生命科学中高维数据呈指数级增长。这样的数据不能被直观地理解,因此降维方法,能够捕捉到生物学中存在的嵌套关系,成为必要工具。其次,我开发了适用于存在不规则采样数据的临床应用的方法。传统的机器学习模型需要将此类数据转换为固定大小的表示,或者在应用之前对缺失值进行插值。我提出了两种适用于不规则采样数据的方法,不需要进行此类预处理步骤。第一种是一种新的从MALDI-TOF光谱中提取峰值的核函数,而第二种是一种可以通过将它们描述为观察集合应用于不规则采样时间序列的深度学习模型。第三,我提出了一种扩展图神经网络的方法,允许模型考虑全局信息,而不是只要求节点与它们的邻居交换信息。图是药理学的一个重要数据结构,因为它们经常用于表示小分子。第三,我展示了对图神经网络的扩展,允许模型考虑全局信息,而不是仅仅要求节点仅与它们的邻居交换信息。图是药理学的一个重要数据结构,因为它们经常用来表示小分子。为了解决对这类模型的适当评估,我进行了一项关于医疗时间序列模型的详细研究,重点在于它们在严重感染早期预测任务中转移到其他数据集的能力。此外,我展示了传统的评估图生成模型的方法对超参数的选择高度敏感,这可能导致性能估计偏差。总结来说,我的论文解决了许多在机器学习、医疗保健和生物学交叉点的问题。它演示了如何通过引入更多(领域特定)知识来改进模型,以及在评估这些模型时应关注的地方。