以人为中心的感知在视觉和图形学中起着至关重要的作用。但是他们的数据注释非常昂贵。因此,希望有一个通用的预训练模型,作为数据高效的下游任务转移的基础。为此,我们提出了以人为中心的多模态对比学习框架HCMoCo,该框架利用人类数据的多模态特性(如RGB、深度、2D关键点)来进行有效的表示学习。该目标面临两个主要挑战: 多模态数据的密集预训练,稀疏人类先验的有效利用。**为了解决这一问题,我们设计了一种新型的密集样本内对比学习和稀疏结构感知对比学习目标,通过层次化学习具有连续和有序特征分布和结构感知语义一致性的模态不变潜空间。**HCMoCo通过组合异构数据集为不同的模态提供预训练,这允许有效地使用现有的特定于任务的人类数据。在四个不同模式的下游任务上的大量实验证明了HCMoCo的有效性,特别是在数据效率设置下(DensePose Estimation和Human Parsing提高了7.16%和12%)。此外,通过探索跨模态监督和缺失模态推理,我们证明了HCMoCo的多功能性,验证了它在跨模态联想和推理方面的强大能力。
https://www.zhuanzhi.ai/paper/3e8a73c1d485a5e417b1e659558792c0