如何将先验知识嵌入机器学习？首篇《知信机器学习Informed ML》综述论文全面概述IML概念、分类、方法等，19页pdf

【导读】前不久发表在 Nature Review Physics 杂志上的一篇综述论文「Physics-informed machine learning」提出了「教机器学习物理知识以解决物理问题」的观点。并引出“基于物理信息的机器学习”概念。近日，来自德国Fraunhofer机器学习中心发布了首篇引入先验知识机器学习的综述论文《知信机器学习》，非常值得关注！

摘要

尽管机器学习取得了巨大的成功，但在处理不足的训练数据时也有其局限性。一个潜在的解决方案是将先验知识额外集成到训练过程中，这导致了知信机器学习（Informed Machine Learning ）的概念。在本文中，我们提出了一个结构化的概述，各种方法在这一领域。我们为知信机器学习提供了一个定义并提出了一个概念，说明了其构建模块，并将其与传统机器学习区分开来。我们引入了一种分类法，作为知信机器学习方法的分类框架。它考虑了知识的来源，它的表示，以及它与机器学习管道的集成。基于这种分类法，我们综述了相关的研究，并描述了不同的知识表示(如代数方程、逻辑规则或模拟结果)如何在学习系统中使用。在我们的分类基础上对众多论文进行评估，揭示了知信机器学习领域的关键方法。

https://www.zhuanzhi.ai/paper/bcb3bf457735e5f7fe89e40e4a914cf6

引言

从计算机视觉[1]到语音识别[2]，从文本理解[3]到游戏AI[4]，机器学习在构建模式识别模型方面取得了巨大成功。除了这些经典领域，机器学习，特别是深度学习，在工程和科学领域越来越重要，越来越成功。这些成功的例子是建立在从大量样本中学习的数据驱动方法。

然而，在许多情况下，纯数据驱动的方法可能达到其极限或导致不令人满意的结果。最明显的情况是没有足够的数据来训练性能良好和足够一般化的模型。另一个重要的方面是，纯数据驱动的模型可能不满足自然法则或监管或安全准则等约束，而这些约束对于值得信赖的AI[8]很重要。随着机器学习模型变得越来越复杂，对模型的可解释性和可解释性的需求也越来越大。

这些问题导致了更多关于如何通过在学习过程中加入先验知识来改进机器学习模型的研究。虽然将知识集成到机器学习中很常见，例如通过标签或特征工程，但我们注意到，人们对更多知识的集成越来越感兴趣，特别是对进一步的正式知识表示。例如，逻辑规则[10]、[11]或代数方程[12]、[13]被添加为损失函数的约束。知识图谱可以利用实例[14]之间的关系信息增强神经网络，这在图像分类[15]，[16]中很有意义。此外，物理模拟已经被用来丰富训练数据[17]，[18]，[19]。这种方法上的异质性导致了一些命名上的冗余; 例如，我们发现了一些术语，如基于物理信息的深度学习[20]，物理引导的神经网络[12]，或基于语义的正则化[21]。最近研究活动的增长表明，数据和知识驱动方法的结合在越来越多的领域变得相关。然而，越来越多的研究论文在这一领域激发了一个系统的综述。

最近的一项综述将此作为理论指导的数据科学的新范式，并指出了在机器学习[22]中加强科学一致性的重要性。甚至对于支持向量机，也有一个关于将知识整合到这种形式的[23]中的综述。符号化人工智能和连接主义人工智能的融合似乎越来越容易实现。在这方面，我们参考了最近一项关于图神经网络的综述和一个研究方向，即关系归纳偏差[24]。通过提供集成到机器学习中的知识表示的系统分类，我们的工作补充了上述综述。我们提供了一个结构化的概述，基于如何将额外的先验知识集成到机器学习管道的大量研究论文的综述。作为这类方法的总称，我们今后将使用知信机器学习。

我们的贡献有三个方面: 我们提出了一个关于知信机器学习的抽象概念，阐明了其构建模块以及与传统机器学习的关系。它指出，知信学习使用由数据和先验知识组成的混合信息源，该信息源来自一个独立的信息源，并由形式化表示给出。我们的主要贡献是引入了一种分类知信机器学习方法的分类法，这是一种新颖的，也是同类中第一个。它包含了知识来源的维度，它的表示，以及它与机器学习管道的集成。我们特别强调对各种知识表示进行分类，因为这可能使从业者能够将他们的领域知识整合到机器学习过程中。此外，我们给出了可用方法的描述，并解释了不同的知识表示，例如代数方程、逻辑规则或模拟结果，如何可以用于知信机器学习。