基于深度学习的人工感知模型的出现彻底改变了计算机视觉领域。这些方法利用了机器不断增长的计算能力和丰富的人工注释数据,为广泛的视觉任务构建有监督的学习者。然而,对人工标注的依赖也是这些方法可扩展性和通用性的瓶颈。我们认为,为了构建更通用的学习者(类似于婴儿),开发在没有人类监督的情况下学习的方法至关重要。在本文中,我们针对两个关键问题:表征和识别,对最小化人类监督的作用进行了研究。最近的自监督表示学习(SSL)方法已经在许多下游任务上展示了令人印象深刻的泛化能力。在这篇论文中,我们研究了这些方法,并证明它们仍然严重依赖于干净、策划和结构化数据集的可用性。我们通过实验证明,这些学习能力无法扩展到“野外”收集的数据,因此,在自监督学习中需要更好的基准。我们还提出了新的SSL方法,以最大限度地减少对托管数据的依赖。由于详尽地收集所有视觉概念的注释是不可行的,因此泛化超出现有监督范围的方法对于构建可扩展的识别模型至关重要。我们提出了一种新颖的神经网络架构,利用视觉概念的组成性质来构造未见概念的图像分类器。对于收集密集注释是不可行的领域,我们提出了一种“通过关联理解”的范式,该范式将识别问题重新表述为对应的识别。我们将此应用于视频,并表明我们可以通过识别与其他类似视频的密集时空对应来密集地描述视频。最后,为了探索人类超越语义范畴的泛化能力,我们引入了“功能对应问题”,并证明编码对象功能属性的表示可以用于更有效地识别新对象。