「合并」样本和标签? IBM 为多标签小样本图像分类带来新进展！| CVPR 2019

2019 年 7 月 21 日 AI科技评论

编译：xyhncepu

编辑：丛末、Pita

AI 科技评论按：目前大多数关于图像小样本分类的研究工作都是研究单标签场景，每个训练图像只包含一个对象，然而现实中的场景中以多对象多标签居多，因此对于多标签小样本的图像分类研究更具现实意义。IBM 的研究人员对多标签小样本的图像分类进行了研究，并在 CVPR 2019 大会上进行了论文分享，相关成果发表在 IBM 官网博客上，AI 科技评论编译如下。

当我们将人工智能和机器学习扩展到面向企业和工业界应用的更广泛的任务集时，从更少的数据集中学到更多是必要的。数据增强是一个重要的工具，特别是在没有足够的训练数据的情况下，它通过自动合成新的训练样本来改进学习。小样本学习就是这样的一个例子，其每个类别只有一个或很少的样本可用。之前大多数关于图像小样本分类的研究工作都是研究「单标签」场景，其中每个训练图像只包含一个对象，因此只有一个类别标签。然而，更具有挑战性和现实意义的场景是多标签、小样本的图像分类，其训练数据样本较少，图像具有多个标签，而之前的研究工作尚未对该场景进行广泛的研究探索。

为了研究上述课题，我们在 2019 年 6 月举行的 IEEE 计算机视觉与模式识别（CVPR 2019）大会上发表了相关论文，对多标签、小样本图像分类进行了研究。本论文题目为《LaSO：面向多标签小样本学习的标签设置操作网络》（「LaSO：Label-Set Operations networks for multi-label few-shot learning」，论文地址：https://www.research.ibm.com/artificial-intelligence/publications/paper/?id=LaSO:-Label-Set-Operations-Networks-for-Multi-label-Few-shot-Learning），提出了一种训练深度神经网络的新方法，即将图像样本对与一定的标签集相结合，合成具有「合并」标签的新样本。例如，考虑图 1 中的两幅图像，一幅描绘的是「一个人遛羊和狗」，另一幅描绘的是「一个人抱着一只狗和一只猫」。第一张图片的标签是「人」、「羊」和「狗」，第二张是「人」、「狗」和「猫」。通过给定的这两幅图像，LaSO 网络合成了新的训练样本，这些样本通过对标签执行联合、交叉和减法操作而产生。「联合」生成了一个标有「人」、「狗」、「猫」和「羊」的样本，「交叉」和「减法」生成了分别标有「人」、「狗」和「羊」的多个样本。LaSO 网络直接在深度神经网络学习的特征空间进行操作。

图 1：在两幅图像上进行 LaSO 网络操作的案例

作为一个单一的多任务网络，LaSO 网络通过使用特定的损失函数共同训练，以使其操作适应相应的标签集操作任务（图 2）。

图 2：支持交叉、联合和减法操作标签集的 LaSO 网络体系结构

多任务网络是在一个大规模的多标签数据集上进行训练的，每个图像的多个标签与出现在图像上的目标相对应。我们通过使用不同的方法对产生的 LaSO 网络进行了测试，以评估它们在操作多标签内容方面的潜力。这些测试包括使用在真实、留存的多标签数据上经过预训练的分类器对生成的示例进行分类，以及使用 LaSO 网络合成的特征向量来测试源自留存的测试集的检索（图 3）。

图 3：基于合成 LaSO 向量进行的图像检索的定性结果

LaSO 网络被设计成直接在图像表征进行操作，而不需要任何额外的输入来控制操作。换句话说，就是不需要人工干预来指示它们要操作哪些标签。因此，在训练过程中，它们可以潜在地泛化到包含尚未见过的新类别的图像上。在这方面，LaSO 网络可以用来挑战多标签小样本的分类任务。在这种情况下，LaSO 网络从所提供的训练样本随机对中合成新的训练样本。在本文中，我们将 LaSO 网络的这种能力应用到一个新的多标签小样本分类基准中，希望能引起对这一重要问题的更多研究。通过使用 LaSO 网络在所给出的基准上进行数据增强的结果表明，将其推广到新的类别具有很强的潜力（图 4）。