当前计算机视觉的焦点在于从监督数据学习视觉表示,并使用这些表示/模型权重作为初始化其他缺乏标记数据的任务。标签数据可能是昂贵的,例如,Imagenet数据集有大约1400万张图片和22000个类别,需要大约22年的人类年来进行标签。
自监督方法的分类: 相似性最大化目标 减少冗余目标
Chapters 00:00 – Welcome to class 01:05 – Self-supervised learning in computer vision 15:20– Pretext-invariant representation learning (PIRL) 27:08 – Swapping assignments between views (SwAV) 48:39 – Audiovisual instance discrimination with cross model agreement (AVID + CMA) 58:24 – Barlow Twins: self-supervised learning via redundancy reduction