【ETH博士论文】为降维、不规则采样序列和图的表示学习,199页pdf

机器学习有潜力革新生物学和医疗保健领域，为科学家和临床医生提供新工具进行研究，并决定对患者的正确治疗。然而，尽管最近的表示学习方法给人一种普遍的黑箱解决所有问题的印象，但研究表明这并非一般情况。尽管模型可以以黑箱方式表现良好，但它们往往存在泛化能力低和对分布偏移敏感的问题。这凸显了需要开发出考虑到下游应用的方法，并定制以将问题的对称性纳入模型架构的需求。这些归纳偏差对于新数据的性能以及当数据分布发生变化时模型保持稳健至关重要。然而，构建好的模型只是解决方案的一半。为确保模型能够很好地转化为临床应用，他们也需要以这个目标为出发点进行适当的评估。https://www.research-collection.ethz.ch/handle/20.500.11850/602440在这篇论文中，我在深入研究生物学、医学和机器学习交叉处的结构化数据类型的同时，解决了上述问题。在算法贡献方面，我首先提出了一种新的非线性降维算法，旨在保留多尺度关系。基因组测序的成本降低和测序单个细胞的能力导致生命科学中高维数据呈指数级增长。这样的数据不能被直观地理解，因此降维方法，能够捕捉到生物学中存在的嵌套关系，成为必要工具。其次，我开发了适用于存在不规则采样数据的临床应用的方法。传统的机器学习模型需要将此类数据转换为固定大小的表示，或者在应用之前对缺失值进行插值。我提出了两种适用于不规则采样数据的方法，不需要进行此类预处理步骤。第一种是一种新的从MALDI-TOF光谱中提取峰值的核函数，而第二种是一种可以通过将它们描述为观察集合应用于不规则采样时间序列的深度学习模型。第三，我提出了一种扩展图神经网络的方法，允许模型考虑全局信息，而不是只要求节点与它们的邻居交换信息。图是药理学的一个重要数据结构，因为它们经常用于表示小分子。第三，我展示了对图神经网络的扩展，允许模型考虑全局信息，而不是仅仅要求节点仅与它们的邻居交换信息。图是药理学的一个重要数据结构，因为它们经常用来表示小分子。为了解决对这类模型的适当评估，我进行了一项关于医疗时间序列模型的详细研究，重点在于它们在严重感染早期预测任务中转移到其他数据集的能力。此外，我展示了传统的评估图生成模型的方法对超参数的选择高度敏感，这可能导致性能估计偏差。总结来说，我的论文解决了许多在机器学习、医疗保健和生物学交叉点的问题。它演示了如何通过引入更多（领域特定）知识来改进模型，以及在评估这些模型时应关注的地方。

成为VIP会员查看完整内容

相关内容

博士论文

关注 126

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【CMU博士论文】图结构和神经网络学习，94页pdf

专知会员服务

51+阅读 · 2023年7月4日

【ETH博士论文】利用图上的全局信息进行机器学习，217页pdf

专知会员服务

56+阅读 · 2023年5月26日

【牛津大学博士论文】基于变分自编码改进表示学习,170页pdf

专知会员服务

39+阅读 · 2023年5月7日

【MIT博士论文】机器学习中的稀疏性:理论与应用，122页pdf

专知会员服务

56+阅读 · 2022年11月21日