学界 | 精细识别现实世界图像：李飞飞团队提出半监督适应性模型

2017 年 10 月 1 日 机器之心

选自 arXiv

机器之心编译

参与：李泽南

图像识别技术的发展速度很快，我们开发的机器学习模型已经可以识别越来越多的物体种类了。然而，大多数图像识别算法都非常依赖于有标签的数据集，同时对于图片中物体的精细分类能力也非常有限。近日，斯坦福大学李飞飞团队提交的论文在减少数据依赖和提高识别细粒度程度等问题上向前迈进了一步。该论文已被 ICCV 2017 大会接收。

图像识别的终极目标是识别真实世界中的所有物体。更加艰巨的任务则是精细识别——细分同一类别的物体（如不同种类的鸟、不同品牌的汽车）。目前的业内最佳细粒度分类方法专注于全监督学习方式：由人类注释图像，对所有感兴趣的类别进行监督训练。针对这些方法，研究人员已经提出了一系列数据集用于训练模型识别所有类别与场景，或专注于细粒度识别任务。

图 1. 研究人员的目标是在真实世界中进行细粒度识别，同时不需要大量昂贵的已标注图片数据。取而代之的是，他们提出了使用更加易于获得的数据来解决这一问题（如商业网站中的带标注图片）。研究人员在任务中只使用了一些来自现实世界的稀疏标记数据。

在这些数据集上训练过的模型可以在一些基准任务中达到超越人类的表现。然而，这种范式忽略了现实世界物体识别模型所面临的核心挑战。诸如 ImageNet 或 Birds 这样的数据集虽然庞大，但它们仅仅是现实世界具有偏见的稀疏样本。因此，为了实现在现实世界中相对可行的性能，全监督模型需要每一个新类型图片的训练。然而，收集现实世界中所有的数据类型是不可能完成的任务。大量的可能性让标记图片变成了一件非常昂贵的事，而在我们考虑细粒度分类任务的时候，这样的负担还将加剧。在这种要求下，只有专家才能够为我们的算法提供相应的细化标签数据。

幸运的是，我们在很多有需求的领域里都能找到足够的有标签数据。例如，来自实地考察指南中的图片可以为我们的模型在野外识别不同种类的鸟提供训练数据。同样的，在电商网站里有标签的汽车图片也可以用于训练出在非结构环境下区分不同种类汽车的模型。然而，这些来源中的图像或许和现实世界中遇到的不同，这会导致模型表现显著降低。

在斯坦福大学的论文《Fine-grained Recognition in the Wild: A Multi-Task Domain Adaptation Approach》中，研究人员探讨了如何使用易于获取的数据对现实世界中的图像进行细粒度识别。研究者认为，在以往的探索中，适应性一直不被重视，因而导致图片标记非常昂贵。在这种情况下，许多类别相关的知识以分层形式互相关联。例如：很多不同型号的汽车可以是相同的车型，或有相同的品牌。

新研究主要着重于两点：首先，提出了一种新的多任务适应方法，它可以从已知的跨类别关系中受益。斯坦福提出的模型包括一个多任务适应目标，同时在属性和类别级别上学习和调整识别。研究人员证明了模型制定的目标有效地规范了源训练，从而改进了源模型到目标域的泛化。对于半监督的适应性任务（即当类别标签只适用于目标域的子集时），我们可以使用所有属性通常都具有标签的事实。例如，虽然面对的细分属性：1998 款本田雅阁轿车在训练集中是不存在的，但数据集中很可能会存在其他本田轿车。这样的话，我们就可以在类和属性级别中使用不同的适应技术。

第二个重要贡献在于研究人员表征了用于域适应的大规模细粒度车辆数据集。这一数据集是被细粒度探测文本引入的，但它并未被用于适应。研究人员在 2657 个子集（共 71,030 张图片）中选取了 170 个，并展示了新方法对于性能的提升程度。虽然人们在视觉域适应问题上已经有了很多详细的研究，但大多数方法倾向于集中在适应数十个对象类别和数百个图片组成的相对较小的数据源之间。在开发适应算法时使用小数据集会使我们难以可靠地对这些算法进行基准测试。斯坦福大学的新研究是第一个在现实世界级别的数据集中进行细粒度识别的尝试。

图 2. 斯坦福大学提出的无监督和半监督适应域方法。两个共享权重的卷积神经网络（CNN）会对源图片和目标图进行处理。标记源/目标图像的 fc7 特征图被输入进独立的 softmax 分类器，区分出图片细节的所有属性。任何无监督适应损失函数，如域混淆（表示为 UA）都可以被用于进一步提升适应性。当被标记的图片可用时，我们可以使用半监督适应损失函数（表示为 SSA），如软标签损失可以表现为特质以及细粒度级别的分类。属性一致性损失（表示为 ACL）鼓励细粒度和属性分类期预测具有一致性的标签。

图 9. 多任务模型、近邻图和目标图。最似近邻由 L2 距离在特征激活空间上计算。第一列为示例，第二列为特征激活计算结果，最后一列是新模型的结果。

论文：Fine-grained Recognition in the Wild: A Multi-Task Domain Adaptation Approach

论文链接：https://arxiv.org/abs/1709.02476

细粒度物体识别是计算机视觉中的一个重要问题，然而，目前业内的模型无法准确分类随机物体。这些全监督模型需要注释图片训练才可以识别每个新类别物体——这是一个几乎不可能完成的任务。不过，很多电子商务网站和导游网站可以为我们提供很多类型的带注释图片。

在本论文中，我们研究了如何突破有标签图片的数据集，让真实世界的图像能被计算机精细地识别出来。由于图片标注的广泛使用，用于提升识别表现的适应性并没有被研究者们深入研究。我们基于属性的所任务适应性损失函数在半监督适应条件下可将准确率从基准的 4.1% 提升到 19.1%。此前，域适应工作已在小数据集（如 795 个各种领域的数据集），和一些简单的数据集（如数字组成的数据集）上展示了自己的能力。而在本研究中，我们使用了极具挑战性的细粒度数据子集，其中包含来自商业网站和谷歌街景的约 110 万张张图片，其中包含 2657 种汽车车型。