核方法多年来一直是机器学习中的重要工具,因为它们能够有效地将数据映射到高维空间。如今,尤其是在机器学习中,数据的多模态性是一种常见现象,因此开发能够捕获这些结构的工具至关重要。能够可靠地表示这些数据集而不需要做很多分布假设,是本论文所使用的主要方法——即核均值嵌入的核心。当我们只有少量的数据时,寻找数据集的好的表示就更具挑战性。本论文旨在利用核均值嵌入对机器学习的两个特定领域做出贡献,这两个领域是1)元学习和2)因果性。
元学习由于其能够利用被称为任务的相似数据集之间的统计依赖性的能力,已经成为机器学习研究中广受欢迎的领域。通过利用任务的相似性,元学习能够快速学习并适应新的未见过的问题。这可以在许多应用中使用,其中数据收集或标记是昂贵的,例如在计算化学或医疗保健中。在本论文中,我们将利用核均值嵌入来解决当前元学习方法对多模态数据的限制,并提出了不明确假设数据分布的高效算法。在第二章中,我们考虑了条件密度估计的问题,并提出了MetaCDE。MetaCDE能够在多模态设置中准确地确定密度,而标准方法则失败。此外,在第三章中,我们还提出了用于因果发现的MetaCGNN。MetaCGNN是一种元学习算法,它利用了核均值嵌入在少量数据设置中的力量,并允许我们在双变量情况下确定因果方向,即确定是X→Y还是反之。在这里,我们再次展示了我们能够显著改善现有方法。这使我们提出了因果性问题。因果性是机器学习中的一个基本问题,因为它使我们能够推理我们行动的原因和效果。在第三章通过因果发现深入探讨了因果性领域后,第四章将利用核均值嵌入来解决因果推理的问题。具体来说,我们介绍了BayesIMP,并演示了如何在考虑数据和模型的不确定性的同时得出因果结论。我们通过结合关于核方法、高斯过程和因果推理的几种文献来实现这一点。本论文提出了几种旨在借助核均值嵌入解决机器学习中一些核心问题的算法。鉴于小型数据集问题和缺乏因果意识可能仍然是该领域的一个问题,我们相信这项工作可以为未来的研究和开发提供指南。