美国空军研究实验室《概率标签高效的深度生成结构(PLEDGES)》71页重点项目技术报告

1.0 总结

机器学习在商业领域的巨大成功未能转化为高性能的军事应用。尽管深度学习开始在一些特定的军事任务中显示出令人印象深刻的结果，但由于它们需要极其庞大的、有标签的训练集，目前的能力不能充分地发挥。军方需要一支由人工智能和机器学习专家组成的世界级团队，在标签高效半监督学习、模型转移和主动学习方面的进行必要创新，来解决实际的军事学习问题。为了满足这一需求，Charles River Analytics公司组建了一支由概率建模和机器学习相关领域的研究人员以及从业人员组成的优秀团队，提供概率标签高效的深度生成结构（PLEDGES）。

我们在概率建模和深度学习的结合点上进行了开创性的研究。概率模型有利于少标签学习，因为与需要基于标签的误差函数的神经网络不同，它们可以使用任何种类的观察，其中可以包括标签，但不依赖于标签。因此，概率模型对半监督学习很有用，因为它们可以从无标签的数据中学习尽可能多的知识，并使用少量的有标签的数据对其进行扩充。它们对模型转移也很有用，因为它们是用有语义的组件来构造的，这些组件可以被组合和重新应用，以便将模型有效地转移到新领域。概率模型还通过提供精心校准的不确定性估计来直接支持主动学习，这些估计是对哪些实例进行标记的重要基础。

为了确保概率模型的高性能，它们必须与深度学习表征相结合。我们研究了三个主要方向。首先，我们开发了结构化深层概率模型（SDPMs），它在无标签的数据观察上定义了结构化和无关联的联合概率分布。SDPMs提供了类似于神经的表征，在从少数标签中学习的同时，具有与最先进的神经方法相媲美的性能。第二，我们致力于在大容量的概率模型实现高效和准确的算法，完成了对传统概率模型的数量级改进，使我们能够使用反映最先进神经网络结构的模型。第三，我们开发了用于半监督和弱监督学习的深度学习模型的概率模型变体，包括用于少数镜头视觉分类和目标检测的元学习方法，以及用于零镜头目标检测的弱监督方法。

特别地，在PLEDGES项目中我们：

开发了概率模型和模型组件，以支持用较少的标签学习。这些模型包括变异SDPMs和可操作的大容量模型
开发了从大量未标记的训练数据和少量标记的训练数据中学习模型的方法。
开发了将从通用数据集学习到的模型转移到特定应用程序的方法，在新应用程序中使用很少的标签。
开发了推荐专家标记实例的方法。

我们使用这些概率模型和方法来支持LwLL的关键成分：半监督学习、模型转移和主动学习。我们能够在SDPM和可操作的高容量模型上取得更大的进展，我们的工作表明，这两种方法都有很好的前景，比以前的概率模型有更高的准确性和可扩展性。我们还发现，神经模型的概率公式可以带来重大进展。我们的简单CNAPS方法在几张照片的视觉分类上取得了比最先进的方法（包括CNAPS）更大的进步。简单的CNAP也构成了各种扩展的基础，包括一个显示出进一步改进的transductive版本。对于主动学习，我们的基础工作产生了一套基于数据重要性的新方法，并且我们能够展示对基于不确定性采样的现有方法的改进。

关键词：概率模型、Scruff、结构化深度概率模型、半监督学习、模型转移、主动学习、变异方法、可分离信念传播

2 引言

2.1 问题描述

机器学习的在商业领域的巨大成功未能转化为高性能的军事应用。尽管深度学习开始在一些特定的军事任务中展现出令人印象深刻的成果，但目前由于需要极其庞大的、有标签的训练集，深度学习能力还未能充分发挥。与商业应用不同，大多数重要的军事应用都有目标对象、事件或未翻译的单词，而这些目标对象、事件或单词往往是新颖的，没有大规模的真实标签。另外，标签的专业知识是有限的，这就禁止了从人群中创建标签数据集。基于军事学习的应用需要新的无监督和半监督学习方法，以实现深度学习系统的性能，但只需要10到100个标签。此外，学习算法必须有效地利用有限的军事专家和训练数据，例如，通过主动识别最具代表性和最不自信的学习实例。最后，用于识别军事目标和活动的学习模型必须具有新的组件重用级别，以通过模型重组进行适应。机器学习应用程序因其庞大的机制而臭名昭著，这些机制很难扩展，并且无法在任务和应用程序之间推广。解决这些挑战需要基本的新思维来超越当前机器学习的局限性，需要在标签高效半监督学习、模型转移和主动学习方面进行必要的创新，以解决现实世界中的军事学习问题。

今天，基于深度神经网络的方法在机器学习的研究中占主导地位。尽管取得了许多成功，但神经网络有几个关键的局限性，包括数据需求量大，渴望数据，需要大量的标记数据。两相对比，这使得概率方法非常有吸引力，它需要的标记数据要少得多。概率模型有利于标签效率的学习，因为与需要基于标签的误差函数的神经网络不同，它们可以使用任何种类的观察，其中可以包括标签，但不依赖于标签。因此，概率模型对半监督学习很有用，因为它们可以从无标签的数据中学习尽可能多的知识，并使用少量的有标签的数据对其进行扩充。它们对模型转移也很有用，因为它们是用有语义的组件来构造的，这些组件可以被组合和重新应用，以便将模型有效地转移到新领域。概率模型还通过提供精心校准的不确定性估计来直接支持主动学习，这是对哪些要进行标记的实例所做知情决策的基础。

事实上，概率模型一直是无监督和半监督学习的主要方法之一，像k-means聚类这样的方法使用得非常广泛。然而，正如这个例子所示，用于无监督学习和半监督学习的概率模型往往很简单；k-means本质上是就是高斯方法的混合物。过去，概率方法的性能落后于神经网络，主要原因是难以将推理和学习的规模扩大到海量的模型中。因此，为了达到美国防部重大应用所需的实际效果，概率模型必须与深度学习方法相结合。

我们预计，我们的努力成果将在有效推断和学习丰富概率模型的能力方面取得革命性进展，使深度概率方法最终成为在非概率深度学习在现实问题中的可行替代方法。这些进步将带来比当前基于神经网络的方法更好的半监督学习、模型转移和主动学习方法。

2.2 技术方法

我们在团队最近将概率模型与深度表示相结合的工作基础上进行了改进。我们沿着三个平行的方向前进。

首先，我们为半监督和弱监督的学习开发了深度学习模型的概率模型变体。我们称这些模型为结构化深度概率模型（SDPMs）。这项工作建立在最近的语言创新上，如Edward、Pyro和Probabilistic Torch，后者是由联合创始人JanWillem van de Meent领导。这些框架使用变异方法来训练概率模型，其中神经网络定义了条件分布，将深度学习的灵活性与概率模型的数据效率相结合。使用这些方法的初步工作被证明是非常有效的。在每个类别只有10个标签的情况下，我们使用概率Torch在数据集上取得了超过90%的分类准确率，例如使用美国国家标准与技术研究所（MNIST）的修改数据集进行测试。在此工程中，我们以各种方式扩展了这些方法，以获得明显高于其他概率变异方法的准确性。

对于第二个方向，我们为高容量概率模型寻求高效准确的算法，这些模型反映了最先进的神经网络的结构，同时保持完全概率。该方法基于PI-Avi-Pfeffer最近的工作，该工作表明，通过使用称为可分离信念传播（SBP）的方法编码有关联合分布的信息，任何有向概率模型都可以转换为二级模型，在该模型中，推理是按线性时间进行且准确的。深度学习的成功依赖于这样一个事实，即大多数观察到的数据都存在于一个可以稀疏表示的低维流形上，这为我们提供了强有力的理由，让我们相信，对于现实世界的军事应用来说，二级模型是很小的。因此，使用SBP的高容量概率模型可以实现与神经网络方法类似的可操作性，同时在低标签真实美国防部问题上拥有更好的性能。

对于第三个方向，我们对现有的非概率深度学习方法进行了概率性的重新解释和变体。特别是，我们开发了简单CNAPS算法，这是一种用于少数镜头视觉分类的元学习算法，该算法具有神经特征提取器和概率分类器，并且从具有有限标签的数据中学习。我们还开发了一个简单CNAPS的归纳版本，以及一个用于0-shot/any-shot物体检测的弱监督学习方法。

我们使用在这两个线程下开发的概率模型来提供LwLL的关键组成部分：半监督学习、模型转移和主动学习。半监督学习的成功依赖于在没有标签的情况下学习有关领域的大部分知识，只剩下少量参数需要从标签数据中学习。概率模型自然适合于半监督学习，因为丰富、高度结构化的模型可以单独从未标记的数据中学习。该模型可以是一个具有多个参数的复杂网络，这些参数可以从大量未标记数据中精确拟合，然后通过具有少量参数的薄标记层进行扩展，以从少数实例中学习。我们通过成对学习来增强这一洞察力，在这种学习中，我们比较和对比不同的数据实例，以了解它们的比较标签，即使它们本身没有标签。与类标签相比，成对比较噪音更小，信息更丰富，因此可以更好地利用稀疏标签。在最初的工作中，我们确定，通过合并比较，我们可以在只有80个样本的数据集上训练和优化具有5974577个参数的神经网络。

对于模型传输，概率方法允许我们组合语义上有意义的模型组件，并将其重新应用于新情况。我们在这一见解的基础上提出了一些切实可行的想法。非参数方法通过识别不属于任何已知类的相似实例簇，使我们能够识别新的对象类，即使该类的标记实例为零。概率零点学习方法还使我们能够使用辅助信息来识别没有标记实例的类的实例。重新编程方法使我们能够通过在应用程序之间映射概念，例如输入、输出和概念的内部表示，将原始模型转移到新的应用程序。

对于主动学习，我们使用了一种基于概率模型的决策理论方法。现有的大多数主动学习工作有两个目标：挑选最不自信的实例，以及挑选最有代表性的实例。虽然对于可以直接定义相似性度量的简单任务，已经实现了将这些目标结合在一起，但对于大多数实际应用来说，相似性度量并不容易获得。我们基于数据重要性的概念开发了一种新的主动学习方法，并将这些方法与SDPM相结合。

2.3 技术目标

查尔斯河分析公司（Charles River Analytics）与东北大学、不列颠哥伦比亚大学（UBC）和加利福尼亚大学欧文分校（UCI）的合作者一起，开发了概率标签高效深度生成结构（PLEDGES），用于少标签学习（LwLL）。我们在概率建模和深度学习的结合点上进行了开创性的研究。与需要使用基于标签的误差函数的神经网络不同，概率模型可以使用任何种类的观察，它可以包括标签，但不依赖于标签。我们开发了结构化深度概率模型（SDPMs），它在无标签的数据观测上定义了结构化和无联系的联合概率分布；开发了可操作的大容量概率模型，它能在大型网络上进行快速和准确的推理；开发了概率的重新解释和神经算法的变体。

我们对SDPMs的研究目标有三条线。首先，对于半监督学习来说，SDPM提供了类似于神经的表征，能够在从少数标签中学习的同时拥有与最先进的神经方法相媲美的性能。因此，SDPM是半监督学习的理想选择，因为它们可以从未标记的数据中学习尽可能多的知识，并使用少量的标记数据来增强这些知识。第二，要把学到的知识从一个模型转移到一个有少量标签的新模型，SDPM也是模型转移的理想选择，因为它们的结构是使用有语义的组件，这些组件可以被组合和重新应用，把模型有效地转移到新领域。第三，对于学习系统可以对数据提出问题的主动学习来说，概率模型也直接支持主动学习，因为它提供了经过良好校准的不确定性估计，这是决定对哪些实例进行标记的基础。

2.4 相关工作

为了开发适用于大规模应用的实用概率模型，我们以最近的变异推理发展为基础。在这一工作中，我们开发了新的摊销变分推理方法，它训练神经网络使用随机梯度下降进行推理。摊销变分方法已经在Edward、Pyro和Probabilistic Torch等语言中得到了应用。Probabilistic Torch的设计从一开始就考虑到了半监督学习策略，并且已经被证明是非常有效的；每个类别只有10个标签，我们在MNIST等数据集上的分类准确率已经超过90%。概率Torch还提供了一个高质量的组件库，可以从组件中组装出复杂的模型。例如，这使我们能够将一个物体检测模型嵌入到第二个识别图像中感兴趣区域的模型中，从而形成一个可以以端到端、半监督方式训练的多目标检测模型。我们在现有Probabilistic Torch工作的基础上，取得了一些创新的进展，包括针对活动识别和机器翻译等顺序性问题的摊销式顺序推理，以及适应概率程序推理的技术来估计全局变量。

我们对高容量、完全概率模型的研究受到Wood开发的一种叫做推理编译的方法的启发，这种方法学习一个神经网络来回答一个由概率程序定义的查询。虽然有效，但学习的网络不是一个声明性的概率模型，只能回答单一种类的查询，而不是为推理提供一个数据结构。我们的关键见解是，我们可以将原始的概率模型编译成一个替代的概率模型，该模型支持原始模型的所有功能，但其中的推理是按照线性时间进行的。这使得概率模型的所有优势都能被用于具有数百万个参数的模型，如最先进的神经网络。还有其他方法将概率模型编译成支持线性时间推理的数据结构，如算术电路和和积网络，但这些电路一般是指数级大小。相比之下，我们的数据结构在紧凑型网络中捕捉潜在的复杂信息，类似于紧凑型神经网络，后者代表了丰富的实际应用功能。使概率模型具有如同神经网络一般的灵活性和性能将产生深远的影响，这不仅关系到较少标签的学习，同时也还包括其他很多方面。概率模型解决了神经网络的一些基本局限，例如难以纳入先验知识，需要大量数据，以及因果关系建模困难。