实现人工通用智能(Artificial General Intelligence, AGI)需要开发能够跨越多种感知模态——不仅限于语言——去感知、理解并与世界交互的模型。尽管自监督学习(self-supervised learning)已在大型语言模型(LLMs)中取得了显著突破,但在视觉领域复刻这一成功仍面临重大挑战,其主要原因在于当前仍高度依赖人工标注数据。本文探讨了自监督学习如何突破人类监督的限制,释放视觉智能的潜力,使模型能够直接从视觉世界固有的结构与规律中学习。 本论文围绕这一愿景,展开了多项探索与实践。首先,我们研究了自监督的视觉世界理解,证明了模型无需依赖如 Segment Anything Model(SAM)等监督方法所需的数十亿标注掩膜,也能实现强大的图像分割性能。相反,我们的工作表明,模型可以通过利用未标注数据中丰富的语义信息,实现“分割任何物体”的能力。其次,论文提出了基于自监督与合成数据的方法,将生成式与判别式视觉模型进行统一,使二者能够互补,从而同时提升视觉理解与生成能力。再次,论文探讨了如何通过自监督去偏学习(debiased learning)构建鲁棒的视觉模型,提出了在数据条件不完美的情况下,缓解偏差并增强泛化性的技术方案,并将其置于数据中心(data-centric)的表征学习框架中进行系统化设计。 总体而言,这些工作服务于一个共同目标:构建可扩展的、多模态的视觉智能系统,使其学习方式不再是模仿人工标注,而是主动发现世界的潜在结构! 大型语言模型(Large Language Models,LLMs)[1]–[5],以 GPT 系列为代表,已经从根本上改变了人类处理和交互信息的方式。这些突破由两个关键因素驱动:互联网规模数据的广泛可得性,以及无需显式人类监督的自监督下一词预测范式。然而,语言只是人类智能的一个狭窄投影。要实现真正的人工通用智能(Artificial General Intelligence,AGI),模型必须整合更丰富的感知模态——涵盖视觉、物理交互、空间导航与社会动态——远远超越仅限于文本的范畴。其中,视觉智能至关重要:它是系统直接从原始像素中解析场景、定位目标、建模组合结构的能力,使其能够以最少的人类干预感知并推理视觉世界。 遗憾的是,尽管大型语言模型已能通过利用语言的组合性与结构性实现令人印象深刻的泛化,将这些成果扩展到视觉领域仍是一个重大未解难题。与文本不同,视觉数据是连续且高维的,缺乏天然的离散化单元或语义语法。此外,视觉领域的监督学习高度依赖大规模标注数据集,而这些数据集的采集成本高昂,且内容与分布往往存在偏差。 本论文试图回答:我们能否构建一种通用视觉系统,使其能从视觉数据的自然结构中学习——以极少甚至无需人类监督?我的目标是建立理论基础与实用的自监督学习(Self-Supervised Learning,SSL)方法,以处理多样化的真实世界视觉数据,并将其应用于复杂的下游任务。通过增强面向多模态模型的 SSL 技术、最大限度地减少对人工标注数据集的依赖,我力图开发能够理解并与环境交互的智能系统,使其在感知、认知与反应方面与人类相媲美,甚至超越人类。 为实现这一目标,我探索了一系列基于自监督学习的技术,从未标注的图像与视频中直接获取以物体为中心的、语义化的、可组合的表征。我着重利用视觉归纳偏置(visual inductive bias)、借助合成信号进行监督,并在统一的 SSL 框架下闭合判别式模型与生成式模型之间的回路。所有这些工作共同体现了一个更宏大的愿景:视觉智能应当从数据的结构中涌现,而非源于标签的结构。这一观点挑战了传统的监督学习范式,并倡导构建一种无需标签、数据驱动且可扩展的视觉系统。