受益于大规模并行计算硬件的进步,训练于海量数据之上的机器学习模型已具备完成复杂任务的能力,例如生成逼真的图像或进行自然语言对话。然而,这些模型往往无法意识到自身的无知,从而导致过度自信和“幻觉”现象。
高斯过程是一种功能强大的不确定性感知函数逼近与序贯决策框架。然而,其经典形式在处理大规模数据以及适配现代并行计算硬件方面表现不佳,因此促使众多研究者致力于提升其可扩展性的技术研究。 本论文聚焦于迭代方法与路径条件(pathwise conditioning)的强大组合,通过方法论上的贡献,推动高斯过程在现代大规模场景中的应用。通过协同结合这两类技术,昂贵的计算被转化为线性方程组的求解问题,并借助迭代线性求解器完成。这一策略显著降低了内存需求,使得高斯过程能够应用于更大规模的数据集,同时将矩阵乘法作为主要计算操作,极大地契合了现代硬件的计算优势。 具体而言,本论文引入了随机梯度算法作为一种高效的迭代线性系统求解方法。为此,论文设计并分析了定制的优化目标函数、随机梯度估计器以及方差降低技术。从实证角度看,所提出的方法在大规模回归、贝叶斯优化与分子结合亲和力预测任务中实现了最先进的性能表现。 此外,论文还提出了一系列通用改进方法,适用于高斯过程背景下任意迭代线性系统求解器,在计算效率方面相比既有方法可实现最高达 72 倍 的加速。进一步地,论文将迭代方法与路径条件结合结构化线性代数技术,以获得更高程度的可扩展性,并在包括机器人、自动化机器学习与气候建模在内的真实数据集上(样本数高达 五百万)验证了其效果。