文 / 吴建龙
摘 要:
图像分类、动作识别等视觉理解任务通常依赖于大量的标注数据,而在实际场景中,获取足够的标注数据往往成本很高且具有挑战性。本文主要探讨标注受限场景下的视觉表征学习与理解任务。首先聚焦于图像与视频两种数据,提出一系列无监督表征学习算法,使模型能够从大量未标注数据中捕获高层次、具有判别 性的语义表征;其次,将半监督学习应用于具的视觉理解任务上,以实现标注受限场景下高性能、低成本视觉模型的构建。通过对无监督和半监督学习算法的深入探索与应用,为解决实际场景中标注数据不足的问题提供了有效的解决方案。
关键词:
无监督学习;半监督学习;表征学习;视觉理解;图像分类;视频动作识别
0 引言
近年来,随着计算机视觉和人工智能技术的迅猛发展,视觉理解任务成为了学术界和工业界的热点之一。视觉理解旨在赋予计算机对图像和视频进行高层次的理解和推理能力,使其能够像人类一样感知、分析和理解视觉信息在自动驾驶、智能监控、医学影像诊断等不同领域都有广泛的应用,具有重要的研究意义。
在大多数的视觉理解任务中,传统的方法通常依赖于大量的标注数据进行监督学习。然而,获取大规模的标注数据却是一项极具挑战性的任务,一方面,人工标注数据的过程需要大量的时间、精力和资源投入,成本高昂;另一方面,随着目前深度学习模型复杂性的增加,需要标注的数据量也呈指数级增长,导致数据获取成本进一步上升。
为了降低现有视觉理解任务对标注数据的依赖性,本文基于图像和视频数据,深入探究了无监督表征学习和半监督学习两种范式。无监督表征学习能够在不需要任何标注的情况下发现数据中的潜在模式和规律,从而为后续的视觉理解任务提供有价值的特征表示;而半监督学习则结合有限的标注数据和大量未标注数据来提高视觉模型的性能和泛化能力,能够有效减少标注投入。本文全面分析了现有相关方法的局限性,并针对性提出了一系列创新性算法,以在标注受限的场景下实现高效的视觉表征学习与理解分析。
1 主要研究成果
本文以标注受限场景下的视觉表征和理解为主题,以学习判别性表征和构建高性能、低成本的视觉模型为两条主线。对于第一条主线,创新性提出了基于图对比聚类的表征学习算法(成果一);特别地,针对视频数据的表征学习,提出了一种基于记忆增强预测器的自监督预训练方法(成果二)。对于第二条主线,依次提出了基于对比层次匹配和鲁棒自适应阈值的半监督图像分类算法(成果三)和基于近邻一致性和对比学习的半监督动作识别算法(成果四)。下面将对上述成果进行简要介绍。
成果一 基于图对比聚类的表征学习算法
传统的无监督学习方法主要通过对数据的统计分析或者降维等手段来提取特征,但这些方法往往难以充分挖掘数据之间的潜在关系和结构信息。而对比学习作为一种新兴范式,为无监督特征学习领域带来了全新的思路和方法。相比传统方法,对比学习通过比较样本之间的差异性来学习特征,在一定程度上提高了表征的可区分度和泛化性。
与对比学习的核心思想相契合,聚类任务的目标是将数据分成若干个不同的组,每个组内的数据点具有相似的特征,而组间的数据点则有较大的差异性。因此,近期出现了一系列研究将对比学习算法与聚类任务相结合,希望实现两种任务的相互促进。尽管这些研究取得了一定成效,但它们都仍然遵循对比学习的基本框架,仅假设样本及其经过随机增强后的样本在特征空间中应该相似,而忽视了潜在的类别信息。
为此,提出了一种基于图对比聚类的表征学习算法。该算法结合了样本的潜在类别信息,假设一个集群中的样本及其增强应该共享相似的表示和聚类分配,将传统的实例级一致性提升到集群级一致性,从而能够更好地减少类内方差并增加类间方差。如图1所示,首先基于当前特征构建一个相似度图,相似度较高的样本间的边将在图中保留。基于此相似度图所提供的样本关系,设计了表示图对比模块和分配图对比模块来分别学习样本表征和聚类分配。在表示图对比模块中,提出了一种基于图拉普拉斯的对比损失,该损失通过拉近样本与其邻居样本间(相似度图中存在边连接的样本)的加权距离来学习更具区分性和聚类友好的特征。而针对分配图对比模块,传统的基于对比学习的聚类假设样本及其增强样本应该具有相似的聚类分配分布,这虽然是合理的,但是并没有利用到相似样本的信息。因此提出了一种新的对比策略来学习更紧凑的聚类分配,即利用相似度图随机挑选一个邻居,并约束样本与随机挑选的邻居所对应的聚类分配分布越接近越好。实验结果表明,我们提出的基于图对比聚类的表征学习方法能在学习到高质量判别性表征的同时,获得当前最好的聚类分配结果。
图 1 基于图对比聚类的表征学习算法框架
成果二 基于记忆增强预测机制的无监督视频表****征学习算法
针对视频数据,基于预测的方法在时空表示学习领域取得了显著成果。这些方法通常使用基于多层感知机的预测器,来对齐同一视频的不同时间段提取的特征。然而,这样的预测器存在三个限制。
(1)缺乏全面利用训练过程中学到的知识的能力
理想情况下,模型应该能够累积并整合数据集中的时空关联信息以提高预测的准确性。然而,现有方法通常只根据特定片段的局部特征进行同一视频的另一时间段的特征,从而导致模型无法充分利用整个数据集中蕴含的知识进行精确预测。
(2)忽视了不同编码器之间的特征分布差距
现有方法的训练目标通常是最小化在线编码器和动量更新编码器输出特征之间的差异。然而,基于多层感知机的预测器对来自不同参数的编码器产生的特征分布进行对齐时,未能充分考虑编码器间的特征分布差异,从而导致对齐效果受限。
(3)缺乏对细节视觉概念跨片段对齐的能力
现有方法主要关注全局特征的对齐,忽视了对不同时间段视频蕴含的细粒度视觉概念的对齐。
针对以上限制,提出了记忆增强预测器来增强视频表征模型的预测能力,模型架构如图2所示。记忆增强预测器利用了记忆网络架构的特性,通过引入可以被动态更新和查询的外部记忆槽作为存储机制,以在整个训练过程捕获和保留所有训练视频中的关键信息,并在预测时利用存储的相关知识来提升预测精度。记忆槽通常以矩阵的形式实现,其中每一行代表一个记忆单元。在模型训练时,这个矩阵会作为可训练的参数,通过反向传播算法进行更新。这样的预测器主要具有四种能力。
图 2 基于记忆增强预测机制的无监督视频表征学习框架
(1)存储能力
我们采用了分离的键和值存储机制,其中键用于存储来自在线编码器的特征表示,而值则存储目标编码器的特征表示。键部分充当信息的索引,而值部分则包含了与键相对应的具体知识内容。通过这种键值对的形式,模型能够独立地处理来自不同编码器的信息,将视频数据中的丰富信息和知识以结构化的方式存储起来,从而更有效地管理和利用这些信息。
(2)查询检索能力
在预测时,我们基于当前输入或情境查询键记忆,从而生成一个知识相关性向量。该向量反映了输入特征与存储在键记忆中特征的相关度。
(3)总结能力
预测特征通过使用加权求和的方式组合值记忆中存储的记忆单元得到,并根据相关性向量的权重赋予各个记忆单元的贡献度。
(4)更新能力
在训练过程中,如果预测特征与目标特征之间存在偏差,损失函数将引导记忆网络调整存储的特征,从而减少预测误差。这种更新机制确保了预测器不仅能回忆过去的信息,还能从每次迭代的反馈中学习。当模型在预测过程中犯错时,它可以利用这些错误来调整其记忆内容。
基于上述四种能力,所提出的键值记忆预测器能够有效地利用整个训练过程中学习到的视频数据集的知识,提高模型预测的准确性,并弥合不同编码器之间特征分布的差距。
此外,为了实现不同视频片段间细粒度视觉细节的语义对齐,引入了细粒度视觉概念对齐模块。通过为在线和动量更新编码器创建视觉概念字典,为不同的视频片段编码视觉概念代码。通过最小化不同编码器编码的视觉概念代码之间的KL散度,促进相同视频的不同视图之间包含的细粒度共享视觉概念。在各类基准数据集上的广泛实验表明,该方法在动作识别和检索任务上相比于其他算法取得了显著的提升,展示了其在学习泛化视频表示方面的先进性和有效性。
成果三 基于对比层次匹配和鲁棒自适应阈值的半监督图像分类方法
在标注受限场景下,半监督学习是一种很好的选择。通过挖掘大量未标注数据中的信息,半监督只需简单结合少量的标注数据即可学习到与全监督学习模式下性能接近的模型,大大降低了数据收集和标记的成本。
目前主流的半监督学习算法主要基于伪标签技术,即利用未标注样本的预测分布构造伪标签作为自身的监督信号指导模型训练。能否生成伪标签的准则是预测分布中的最大概率是否超过设定的阈值,若超过则该最大概率所对应的类别将作为伪标签。因此,阈值对于基于伪标签技术的半监督学习来说直观重要。根据阈值的设计思路,主要可以分为两类方法,一类基于固定阈值;另一类基于动态阈值。基于固定阈值的方法对所有样本、所有类别“一视同仁”,训练全程阈值唯一且保持不变。而基于动态阈值的方法结合了课程学习的思想,根据样本和不同类别学习的难易程度动态调节,因此性能一般好于固定阈值的方案。但是目前这两类方法仍然存在一定局限性,一方面,基于固定阈值的方法样本利用率很低,而基于动态阈值的方法样本利用率不稳定,因此导致产生的结果都很不稳定且方差很大,特别是在只有少量标记样本参与训练的情况下;另一方面,这些方法仅研究了实例层级的一致性,忽略了类间关系,因此会使学习到的特征难以区分;此外,现有方法还忽略了类别间的层次结构,例如不同细粒度类别的狗和猫都属于动物这个粗粒度类别。
为了解决上述问题,提出了基于对比层次匹配和鲁棒自适应阈值的半监督图像分类方法。该方法设计了一种更加稳定的动态阈值策略,并结合标签的层次化信息充分考虑了实例层级的预测匹配和基于图的相似度匹配。算法框架如图3所示,与常规只有一个分类层的半监督分类算法不同,该算法共包含粗粒度分类层、细粒度分类层和投影层三层。细粒度和粗粒度分类层分别用来进行实例层级的预测匹配,即粗、细粒度伪标签学习;而投影层则用来进行基于图的相似度匹配,即特征对比学习。
在进行粗、细粒度伪标签学习之前,首先提出了一种基于动态比例的鲁棒自适应阈值学习策略。该策略维护了一个从小到大排序的分数队列来存储历史样本的最大概率,这个分数队列近似模拟了目前样本的学习状态。若我们期望选择一定比例的样本进行伪标签学习,则只需要在队列中找到该比例位置(从右往左)所对应的最大概率作为阈值即可,这样高于该阈值的样本都将参与到伪标签学习中。在训练过程中逐渐增加比例即可实现样本的稳定利用。
此外,提出了一种基于粗、细伪标签图的对比损失来学习判别性表征。粗/细伪标签图的构造准则为:若样本生成的粗/细伪标签一致,那么在图中有边连接;反之无边。在一般情况下,如果两个样本属于同一个细粒度类,那么它们应该具有相同的粗粒度伪标签,然而,在真正的训练过程中并不总是满足这种关系,尤其是在训练早期阶段。因此,我们利用粗伪标签图来纠正细伪标签图,从而得到更加准确的伪标签图。新的伪标签图中仍然保留相连关系的样本将作为正样本对,非相连关系的作为负样本对,以此进行特征对比学习。在各种主流的数据集上,该方法均获得了最好的分类性能,并且极大地提升了结果的稳定性。
图 3 基于对比层次匹配和鲁棒自适应阈值的半监督学习算法框架
成果四 基于近邻一致性学习和近邻对比学习的半监督动作识别方法
目前,半监督学习在图像分类领域已经非常成熟,有些方法的性能甚至超越了全监督学习方法,但是在基于视频的动作识别(视频分类)领域却表现欠佳。相对于图像分类任务,动作识别任务更为复杂。动作识别所处理的数据是视频,视频中不仅包含图像的外貌信息,还包含了帧与帧之间运动关系,这种时空信息的综合进一步加大了动作识别任务的难度。
实现半监督动作识别最直接的方式就是将目前主流的基于伪标签技术的半监督图像分类学习方法迁移到视频数据上,然而得到的效果并不好。这种现象主要由以下三个原因导致,首先,这些方法只能关注到RGB图像中的外貌信息,忽略了视频中的运动信息,而运动信息恰恰是视频正确分类的关键;其次,这些方法利用阈值构造监督信息,只对超过阈值的样本进行伪标签学习,而对于无法产生伪标签的样本将会采取丢弃策略,这会导致监督信号不足、训练效率低下等问题;最后,正如上文所述,这些方法仅关注了实例层级的一致性,忽略了类别层级的一致性。
因此,提出一种基于近邻一致性学习和近邻对比学习的半监督动作识别方法。如图4所示,该方法将关注外貌信息的RGB模态和反映运动信息的TG模态相结合,并基于更加稳定的教师 - 学生架构构建模型。教师网络集成RGB和TG模态间的互补信息生成高置信度的伪标签,以指导学生网络学习。
然而仅依赖伪标签学习对于更有难度的动作识别任务来说监督信息仍显不足。为此,提出了近邻一致性学习,即对于那些未达到阈值的样本,“求助”其近邻来辅助生成额外的监督信息——近邻标签。为了得到高置信度的近邻,设计了一种提纯策略,以过滤掉噪声近邻。该策略统筹不同模态间的意见,将在不同模态下所找到的样本的近邻的交集作为该样本的真正近邻。其近邻中心将作为近邻标签引导样本向其靠近。
另外,考虑到样本特征对所生成的监督信息质量有着重要影响,为此基于提纯后的近邻信息进一步提出了近邻对比损失,即在不同视角和不同模态间缩小样本与近邻之间的距离,同时确保样本与非其近邻样本之间的距离尽可能远。该损失充分探究了样本间的相互关系,将原本基于实例层级的对比拓展到了类别层级。
我们在多个动作识别数据集上对所提方法进行了验证,其性能要明显优于现有的半监督学习算法。
图 4 基于近邻一致性学习和近邻对比学习的半监督动作识别算法框架
2 结束语
目前,视觉理解任务在很大程度上依赖于大量的标注数据,然而这种依赖性往往使得这些任务需要花费大量的成本,并且难以应用到实际的工业场景中。因此,本文从实际角度出发,深入探讨标注受限场景下的视觉表征学习和理解分析。针对无监督表征学习和半监督学习在视觉数据(包括图像和视频)上的已有工作,系统地分析了其目前存在的不足之处,并针对性地提出了一系列解决方案,为相关领域的研究提供更多的技术支持与经验。未来工作中,我们将借助当前流行的大模型作为辅助知识,进一步提升受限场景下的视觉任务的性能;同时关注知识蒸馏与量化等模型压缩技术,以实现受限场景下的轻量化视觉模型构建。
(参考文献略)
吴建龙
哈尔滨工业大学(深圳)副教授。主要研究兴趣包括多模态学习、计算机视觉和机器学习等。主持国家自然科学基金面上和青年项目等3项国家级项目,近五年在TPAMI、TIP、ICML、CVPR和ICCV等顶级期刊和会议上发表论文40余篇。入选中国科协青年人才托举工程、哈尔滨工业大学青年拔尖人才计划和鹏城孔雀计划特聘岗位;荣获CCF A类会议SIGIR 2021最佳学生论文奖、2021年山东省科学技术进步一等奖和2023年山东省技术发明一等奖等。
选自《中国人工智能学会通讯》 2024年第14卷第5期 青托专栏