实现人工通用智能(Artificial General Intelligence, AGI)需要开发能够跨越多种感知模态——不仅限于语言——去感知、理解并与世界交互的模型。尽管自监督学习(self-supervised learning)已在大型语言模型(LLMs)中取得了显著突破,但在视觉领域复刻这一成功仍面临重大挑战,其主要原因在于当前仍高度依赖人工标注数据。本文探讨了自监督学习如何突破人类监督的限制,释放视觉智能的潜力,使模型能够直接从视觉世界固有的结构与规律中学习。 本论文围绕这一愿景,展开了多项探索与实践。首先,我们研究了自监督的视觉世界理解,证明了模型无需依赖如 Segment Anything Model(SAM)等监督方法所需的数十亿标注掩膜,也能实现强大的图像分割性能。相反,我们的工作表明,模型可以通过利用未标注数据中丰富的语义信息,实现“分割任何物体”的能力。其次,论文提出了基于自监督与合成数据的方法,将生成式与判别式视觉模型进行统一,使二者能够互补,从而同时提升视觉理解与生成能力。再次,论文探讨了如何通过自监督去偏学习(debiased learning)构建鲁棒的视觉模型,提出了在数据条件不完美的情况下,缓解偏差并增强泛化性的技术方案,并将其置于数据中心(data-centric)的表征学习框架中进行系统化设计。 总体而言,这些工作服务于一个共同目标:构建可扩展的、多模态的视觉智能系统,使其学习方式不再是模仿人工标注,而是主动发现世界的潜在结构! 大型语言模型(Large Language Models,LLMs)[1]–[5],以 GPT 系列为代表,已经从根本上改变了人类处理和交互信息的方式。这些突破由两个关键因素驱动:互联网规模数据的广泛可得性,以及无需显式人类监督的自监督下一词预测范式。然而,语言只是人类智能的一个狭窄投影。要实现真正的人工通用智能(Artificial General Intelligence,AGI),模型必须整合更丰富的感知模态——涵盖视觉、物理交互、空间导航与社会动态——远远超越仅限于文本的范畴。其中,视觉智能至关重要:它是系统直接从原始像素中解析场景、定位目标、建模组合结构的能力,使其能够以最少的人类干预感知并推理视觉世界。 遗憾的是,尽管大型语言模型已能通过利用语言的组合性与结构性实现令人印象深刻的泛化,将这些成果扩展到视觉领域仍是一个重大未解难题。与文本不同,视觉数据是连续且高维的,缺乏天然的离散化单元或语义语法。此外,视觉领域的监督学习高度依赖大规模标注数据集,而这些数据集的采集成本高昂,且内容与分布往往存在偏差。 本论文试图回答:我们能否构建一种通用视觉系统,使其能从视觉数据的自然结构中学习——以极少甚至无需人类监督?我的目标是建立理论基础与实用的自监督学习(Self-Supervised Learning,SSL)方法,以处理多样化的真实世界视觉数据,并将其应用于复杂的下游任务。通过增强面向多模态模型的 SSL 技术、最大限度地减少对人工标注数据集的依赖,我力图开发能够理解并与环境交互的智能系统,使其在感知、认知与反应方面与人类相媲美,甚至超越人类。 为实现这一目标,我探索了一系列基于自监督学习的技术,从未标注的图像与视频中直接获取以物体为中心的、语义化的、可组合的表征。我着重利用视觉归纳偏置(visual inductive bias)、借助合成信号进行监督,并在统一的 SSL 框架下闭合判别式模型与生成式模型之间的回路。所有这些工作共同体现了一个更宏大的愿景:视觉智能应当从数据的结构中涌现,而非源于标签的结构。这一观点挑战了传统的监督学习范式,并倡导构建一种无需标签、数据驱动且可扩展的视觉系统。

成为VIP会员查看完整内容
0

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【CMU博士论文】多感官人工智能的基础
专知会员服务
40+阅读 · 2024年5月3日
【迪肯大学博士论文】深度神经网络视觉推理
专知会员服务
47+阅读 · 2022年10月3日
【CMU博士论文】通过记忆的元强化学习
专知会员服务
57+阅读 · 2021年10月16日
综述| 当图神经网络遇上强化学习
图与推荐
34+阅读 · 2022年7月1日
【AI与医学】多模态机器学习精准医疗健康
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
A Survey of Large Language Models
Arxiv
475+阅读 · 2023年3月31日
Arxiv
24+阅读 · 2023年3月17日
Arxiv
18+阅读 · 2021年3月16日
Recent advances in deep learning theory
Arxiv
50+阅读 · 2020年12月20日
Arxiv
10+阅读 · 2020年11月26日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
相关论文
A Survey of Large Language Models
Arxiv
475+阅读 · 2023年3月31日
Arxiv
24+阅读 · 2023年3月17日
Arxiv
18+阅读 · 2021年3月16日
Recent advances in deep learning theory
Arxiv
50+阅读 · 2020年12月20日
Arxiv
10+阅读 · 2020年11月26日
微信扫码咨询专知VIP会员