我们在团队最近将概率模型与深度表示相结合的工作基础上进行了改进。我们沿着三个平行的方向前进。首先,我们为半监督和弱监督的学习开发了深度学习模型的概率模型变体。我们称这些模型为结构化深度概率模型(SDPMs)。这项工作建立在最近的语言创新上,如Edward、Pyro和Probabilistic Torch,后者是由联合创始人JanWillem van de Meent领导。这些框架使用变异方法来训练概率模型,其中神经网络定义了条件分布,将深度学习的灵活性与概率模型的数据效率相结合。使用这些方法的初步工作被证明是非常有效的。在每个类别只有10个标签的情况下,我们使用概率Torch在数据集上取得了超过90%的分类准确率,例如使用美国国家标准与技术研究所(MNIST)的修改数据集进行测试。在此工程中,我们以各种方式扩展了这些方法,以获得明显高于其他概率变异方法的准确性。对于第二个方向,我们为高容量概率模型寻求高效准确的算法,这些模型反映了最先进的神经网络的结构,同时保持完全概率。该方法基于PI-Avi-Pfeffer最近的工作,该工作表明,通过使用称为可分离信念传播(SBP)的方法编码有关联合分布的信息,任何有向概率模型都可以转换为二级模型,在该模型中,推理是按线性时间进行且准确的。深度学习的成功依赖于这样一个事实,即大多数观察到的数据都存在于一个可以稀疏表示的低维流形上,这为我们提供了强有力的理由,让我们相信,对于现实世界的军事应用来说,二级模型是很小的。因此,使用SBP的高容量概率模型可以实现与神经网络方法类似的可操作性,同时在低标签真实美国防部问题上拥有更好的性能。对于第三个方向,我们对现有的非概率深度学习方法进行了概率性的重新解释和变体。特别是,我们开发了简单CNAPS算法,这是一种用于少数镜头视觉分类的元学习算法,该算法具有神经特征提取器和概率分类器,并且从具有有限标签的数据中学习。我们还开发了一个简单CNAPS的归纳版本,以及一个用于0-shot/any-shot物体检测的弱监督学习方法。我们使用在这两个线程下开发的概率模型来提供LwLL的关键组成部分:半监督学习、模型转移和主动学习。半监督学习的成功依赖于在没有标签的情况下学习有关领域的大部分知识,只剩下少量参数需要从标签数据中学习。概率模型自然适合于半监督学习,因为丰富、高度结构化的模型可以单独从未标记的数据中学习。该模型可以是一个具有多个参数的复杂网络,这些参数可以从大量未标记数据中精确拟合,然后通过具有少量参数的薄标记层进行扩展,以从少数实例中学习。我们通过成对学习来增强这一洞察力,在这种学习中,我们比较和对比不同的数据实例,以了解它们的比较标签,即使它们本身没有标签。与类标签相比,成对比较噪音更小,信息更丰富,因此可以更好地利用稀疏标签。在最初的工作中,我们确定,通过合并比较,我们可以在只有80个样本的数据集上训练和优化具有5974577个参数的神经网络。对于模型传输,概率方法允许我们组合语义上有意义的模型组件,并将其重新应用于新情况。我们在这一见解的基础上提出了一些切实可行的想法。非参数方法通过识别不属于任何已知类的相似实例簇,使我们能够识别新的对象类,即使该类的标记实例为零。概率零点学习方法还使我们能够使用辅助信息来识别没有标记实例的类的实例。重新编程方法使我们能够通过在应用程序之间映射概念,例如输入、输出和概念的内部表示,将原始模型转移到新的应用程序。对于主动学习,我们使用了一种基于概率模型的决策理论方法。现有的大多数主动学习工作有两个目标:挑选最不自信的实例,以及挑选最有代表性的实例。虽然对于可以直接定义相似性度量的简单任务,已经实现了将这些目标结合在一起,但对于大多数实际应用来说,相似性度量并不容易获得。我们基于数据重要性的概念开发了一种新的主动学习方法,并将这些方法与SDPM相结合。
技术目标
查尔斯河分析公司(Charles River Analytics)与东北大学、不列颠哥伦比亚大学(UBC)和加利福尼亚大学欧文分校(UCI)的合作者一起,开发了概率标签高效深度生成结构(PLEDGES),用于少标签学习(LwLL)。我们在概率建模和深度学习的结合点上进行了开创性的研究。与需要使用基于标签的误差函数的神经网络不同,概率模型可以使用任何种类的观察,它可以包括标签,但不依赖于标签。我们开发了结构化深度概率模型(SDPMs),它在无标签的数据观测上定义了结构化和无联系的联合概率分布;开发了可操作的大容量概率模型,它能在大型网络上进行快速和准确的推理;开发了概率的重新解释和神经算法的变体。我们对SDPMs的研究目标有三条线。首先,对于半监督学习来说,SDPM提供了类似于神经的表征,能够在从少数标签中学习的同时拥有与最先进的神经方法相媲美的性能。因此,SDPM是半监督学习的理想选择,因为它们可以从未标记的数据中学习尽可能多的知识,并使用少量的标记数据来增强这些知识。第二,要把学到的知识从一个模型转移到一个有少量标签的新模型,SDPM也是模型转移的理想选择,因为它们的结构是使用有语义的组件,这些组件可以被组合和重新应用,把模型有效地转移到新领域。第三,对于学习系统可以对数据提出问题的主动学习来说,概率模型也直接支持主动学习,因为它提供了经过良好校准的不确定性估计,这是决定对哪些实例进行标记的基础。