【博士论文】面向物体语义理解的视觉表示学习

2020 年 12 月 4 日 专知

来自中科院计算所刘昊淼的博士论文，入选2020年度“CCF优秀博士学位论文奖”初评名单！

https://www.ccf.org.cn/Focus/2020-12-03/717578.shtml

面向物体语义理解的视觉表示学习

在对真实世界中的物体进行描述时，人们通常使用大量抽象的语义概念，如物体的颜色、形状、类别等。一方面，这些抽象的语义概念在不同的物体间是可以共享的，因此语义概念天然地可以将不同的物体联系在一起，从而快速、准确地建立真实世界中身边的物体与已知的物体之间的关联，方便人们理解周围的世界。另一方面，不同抽象程度的语义概念之间也并非完全相互独立，而是存在一定的关联关系，因此语义概念也是人在进行推理过程中的重要线索之一。综上所述，语义概念在感知和认知任务中都有重要的作用，因此对于计算机视觉算法来说，掌握和理解语义概念具有巨大的潜在价值。具体来说，算法对于语义概念的理解可以分为以下四个层次：第一，识别物体具有的语义概念，如物体属性预测、物体识别等；第二，挖掘物体间由语义概念组成的关联，如统计出多个物体具有相同的属性；第三，建立多维度的语义关联知识网络，如建立起尐马少这类物体基本都具有尐四足少属性这样的知识；第四，利用语义关联知识进行逻辑推理。近年来，尽管计算机视觉技术取得了长足的发展，但是由于物体语义的高度复杂，上述感知问题仍然没有被完全解决。而在更高的层面上，只有很少的工作涉及到了挖掘不同抽象程度的语义概念之间的联系。针对上述物体间及语义概念间的关联学习，本文利用表示学习的方法，着手解决其中的三个关键问题：（就）快速、准确地识别物体间的语义关联；（尲）在不同的语义抽象程度上挖掘物体间的关联关系；（尳）使用尽可能少的人工标注，建立不同抽象程度的语义概念之间的关联。在理论方面，本文提出的方法可以实现对图像、场景的深层次理解，在一定程度上解决计算机视觉问题中的知其然而不知其所以然的问题。在应用方面，本文提出的方法在多个不同抽象程度的语义概念上建立了物体之间的关联，并且通过学习的方式建立了不同抽象程度的语义概念之间的关联，因此本文提出的方法在个性化图像检索、知识推理等任务上具有潜在的应用价值。具体地，本文以最常见的语义概念——类别作为出发点，逐渐深入地展开研究工作，围绕物体间语义关联及语义概念间的关联学习开展以下四个主要工作：

（1）提出了一种端到端的有监督二值码深度学习算法，用来解决大规模依据类别的图像检索任务。该任务中，给定一张查询图像，系统的目标是检索属于同类的数据库中图像。为了引入判别性，该方法对图像对或图像三元组之间。的距离进行约束，要求相似的图像具有相似的二值码，反之亦然。此外，针对哈希编码学习中的二值量化导致的损失函数不可导问题，该方法提出了一种全新的量化损失约束，在保持判别性约束的同时，通过施加量化损失约束，减少量化损失带来的检索精度损失。

（2）提出了一种基于离散优化的两阶段有监督二值码深度学习方法，主要针对上一个工作中，由于判别性损失与量化损失的优化目标不同而导致的判别性损失难以收敛到最优的问题。其中，在第一阶段，通过设计一种离散优化算法，直接在汉明空间中迭代优化，得到具有强判别性的二值码；在第二阶段，通过训练模型拟合优化得到的二值码，从而避免判别性损失与量化损失之间的冲突，得到检索精度更高的二值码。

（3）提出了一种可以在多个维度的语义概念上建立物体间关联的二值码学习方法，从而相比于前两个工作，可以更好地建模物体间丰富的语义关联。该方法通过同时使用多个损失函数对模型进行训练，将多种不同抽象程度的语义概念编码到同一组二值码中。因此，该方法可以根据不同用户的特定需求，按照不同的方式使用学习到的二值编码，进行相应的图像检索任务，找到在特定语义标准下相似的数据库图像。另外，考虑到目前公开的数据集中，只有极少数的数据同时具有多种不同抽象程度的语义概念的标注，为了使模型具有更强的泛化性能，该方法被设计为可以使用大量存在的部分标注数据进行训练。

（4）设计了一种算法来自动地挖掘语义概念间天然存在的关联，包括物体的类别之间的关联，以及物体类别与视觉属性之间的关联。在前三个方法中，并没有很好地利用不同语义概念之间的关联进行模型的学习。其中一个重要原因是语义概念间关联数据的匮乏。由于目前的公开数据集上几乎没有这类标注，该方法基于表示学习技术，自动地从大量图像中学习视觉属性的概念，并基于学习到的视觉属性，建立类别层级结构中不同语义概念之间的关联，从而构建起语义关联知识。在应用层面上，该方法可以对物体识别模型的预测结果给出人类可理解的解释。此外，该方法学习到的语义关联知识，对于需要进行知识推理的计算机视觉认知任务具有巨大的潜在应用价值。