在所有科学领域中,研究都是基于观察和实验进行的,需要运用明智的判断并发展假设来指导实验设计和消除理论上的模糊性。人工智能(AI)通过帮助科学家形成假设,设计实验以测试它们,以及收集和解释数据,极大地改善了最先进的科学研究。过去十年的基本进步包括自监督的学习方法,这些方法在没有预定义标签的情况下对大规模数据进行模型训练;几何深度学习,这利用了科学知识所提供的结构和几何信息;以及生成性AI方法,这些方法根据从实验中获得的各种数据(包括图像和序列)制定实验的行动计划并生成新的设计,例如小分子药物和蛋白质。在这些进步中,最常见的共享特征之一是利用弱形式的监督来学习AI/ML模型。
为了实现这些目标,我们在一系列结构化数据表示上开发了各种学习方法。我们首先从点云开始;我们开发了一个名为“OcCo”的通用自监督预训练方法,用于神经特征编码器,并设计了一个名为“qKC”的基于量子计算的方法用于配准。这两种方法在训练中都不需要标签,并能在面对数据噪声时提高模型的鲁棒性。接下来,我们关注医学CT和CXR图像,这些数据通常分布在多个中心,因此我们开发了一个联邦学习框架,共同利用分散的数据以提高临床模型的性能。随后,我们开发了“GraphMVP”和“MolGraphEval”,以推进分子自监督图形学习的SOTA,并理解这些方法中捕获了哪些结构信息。
科学方法指导科学家们系统化和逻辑化地解释自然世界。在任何研究项目的不同阶段,科学家们制定假设,设计模拟和实验,并收集数据来分析和理解自然现象。如何收集、转换和理解数据,为形成理论和科学洞察提供了基础。然而,我们进行大规模实验和测量的能力,以及2010年代初深度学习的兴起[4],使得数据驱动的科学研究的范围和野心发生了范式转变。因此,基于机器学习(ML)的人工智能(AI)越来越多地被用于整合大规模的科学数据集,帮助精细化测量,指导实验,探索与数据兼容的理论空间,并提供考虑了多种解释存在的可操作和可靠预测(见图1.1)。
在历史长河中,新的科技,包括如显微镜这样的物理仪器,或如前瞻性随机化这样的研究技术,都重塑了科学的发现。数据收集和分析是科学发现的核心要素,科学家们长期以来一直利用定量方法来辅助他们的工作。例如,在20世纪60年代,希尔因果关系标准的发展给了研究人员一个新工具,用于在公共卫生研究中建立假定原因和观察效应之间的因果关系,以检验假设的真实性[5]。这样的定量方法在尽可能多地从常常需要大量时间和金钱生成和收集的数据中提取信息方面至关重要。在历史上,我们可以看到定量方法和新兴技术被应用于科学挑战的例子[6],这常常导致了对核心科学进步至关重要的发现。例如,1950年代数字化的引入,随后在调查固态物理中的多体系统的电子结构[7]和分析原子和分子的运动[8]等方面普遍使用了计算机。同样地,数据科学的引入提供了AI作为一种方法,通过从大数据集中识别出科学上相关的模式来为领域专家提供额外的指导。基于ML的AI已经崭露头角,成为有望重塑科学发现的技术。尽管科学实践和程序随着科学研究的阶段变化而变化,但ML算法的开发却跨越了传统的孤立学科(Figure 1.1)。这些算法可以显著提高科学研究的设计和执行,并通过优化参数和功能[9],自动化收集、可视化和处理数据的程序[10],形成新的理论来探索大量的候选假设空间[11],以及生成假设和估计其不确定性以建议相关实验[12],对研究人员来说变得无比珍贵。
自2010年代初以来,由于大数据集的可用性,以及快速且大规模并行的计算和存储硬件(GPU和超级计算机)的帮助,再加上新的算法,AI方法的威力已大大增强。这些新算法包括深度表征学习,特别是能够识别解决科学问题所需的关键、紧凑特征的多层神经网络。其中,几何深度学习已证明有助于整合科学知识,如问题的结构或几何性。自监督学习使得训练有素的神经网络能够通过预训练大型基础模型[13]等方式,将在标记或未标记数据上学习的表征转移到具有少量标记例子的不同领域。此外,生成模型可以估计复杂系统的基础数据分布,并支持实验或系统的数据驱动设计。与ML的其他用途不同,使用强化学习方法的系统通过探索许多可能的场景,并根据诸如从所考虑的实验中期望得到的信息增益等度量标准,为不同的行动分配奖励,从而找到环境的最优策略。
在AI驱动的科学发现中,科学领域的知识可以通过形成适当的归纳偏差(即,在由自然科学基本定律给出的问题的函数或解决方案空间中的偏好)被纳入到ML方法中,尤其在物理和化学中。难点在于,应用这些定律会导致过于复杂的方程,即使有传统数值方法的帮助,人类也无法解决[14],因为这可能在计算上过于昂贵。一种新兴的方法是将这样的已有科学知识以影响所研究现象的基本方程的信息形式,纳入到ML方法中,比如物理定律或者蛋白质折叠中的分子结构和结合原则。使用适当的归纳偏差可以通过降低样本复杂性[15](即,达到某种精度所需的训练样本数)来提高机器学习的统计效率,并可以通过将分析扩展到大规模假设空间[16]来增强ML的输出。在解决诸如推进五十年来的蛋白质折叠问题[15],以及用AI驱动的模拟模拟数百万粒子[17]等具有挑战性的科学问题上取得的有希望的结果,凸显了机器学习(ML)在新兴领域"科学的AI"(AI4Science)中的潜力。AI4Science中的一个关键需求是开发能够处理前所未有规模的数据的新型学习算法。由于精确注释的成本随着数据规模线性甚至二次增长,利用数据背后的结构来训练AI/ML模型是一个有前途的方向。然而,由于监督的自然稀疏性,这种方法通常涉及弱监督训练。科学数据中的结构提供了关于塑造我们世界的复杂和互联系统的有价值的洞察。这些结构可以立即显现,如在医学图像中,或者更抽象,如在社交媒体数据集中。通过识别和分析这些结构,研究人员可以解锁新的知识,并做出有益于社会的明智决策。可以采用各种技术,如网络分析、聚类算法和自然语言处理,来揭示这些结构。
弱监督技术近年来因其利用大量未标注数据改善模型性能的能力而受到欢迎。尽管强监督可以导致高度精确的模型,但它通常受到标注数据的可用性和成本的限制。通过使用部分或噪声标签,弱监督减少了手动注释的负担,并增强了AI/ML模型的可扩展性。弱监督适用于广泛的任务,包括图像和文本分类、自然语言处理和计算机视觉,它使AI/ML模型能够有效地从科学数据中存在的结构中学习,从而为AI4Science倡议的成功做出贡献。在这篇论文中,我们主要关注不同环境中的各种形式的弱监督:
• 标签噪声:这种情况发生在由于人为错误或数据质量差等因素,训练数据标签错误或不可靠的情况。在后续的章节中,我们展示了如何处理标签噪声的方法,例如在未注释数据上的自我监督模型(第2章)和混合量子-机器学习系统(第3章)。 • 部分标签:在这种情况下,只提供了一些数据标签,对某些类或数据子集的标签缺失。我们探讨了解决方案,如提高预训练模型中的标签效率(第2章)或利用特权信息(第5章)。 • 数据隔离:这涉及使用来自相关但不同数据集的标签进行模型训练,在医学科学中很常见,因为数据中心的数据有限且有分享限制。我们使用联邦机器学习系统开发了解决方案,该系统支持协同AI/ML模型训练(第4章)。每种弱监督方法都有其自身的优点和局限性,方法的选择取决于机器学习项目的具体上下文和目标。