自回归模型(Autoregressive Models)在自然语言处理(NLP)领域中展现了卓越的性能,具有令人印象深刻的可扩展性、适应性和泛化能力。受其在NLP领域显著成功的启发,自回归模型近年来在计算机视觉领域得到了广泛研究。这些模型通过将视觉数据表示为视觉标记并执行下一个标记预测,为图像生成、视觉理解以及最近将视觉生成与理解统一为单一自回归模型的多模态生成等多种视觉任务提供了支持。 本文对视觉自回归模型进行了系统综述,包括对现有方法的发展分类,并突出了它们的主要贡献、优势与局限性,涵盖了图像生成、视频生成、图像编辑、动作生成、医学图像分析、三维生成、机器人操作、统一多模态生成等多种视觉任务。此外,我们调查并分析了自回归模型的最新进展,包括在各种评估数据集上的方法基准测试和深入讨论。最后,我们总结了关键挑战和未来研究的潜在方向,为视觉自回归模型的进一步发展提供了路线图。

1 引言

自回归(AR)模型近年来在人工智能领域取得了显著进展,尤其是在像GPT系列 [1][2][3][4][5] 及其他大语言模型(LLMs) [6][7][8] 中表现突出,这些模型在解决各种自然语言处理任务上表现出色。它们采用简单而强大的“下一个词预测”策略,通过预测序列中的下一个单词生成连贯且上下文相关的文本。AR模型的成功主要归因于两个关键特性:(1)可扩展性,扩展法则 [9][10] 使研究人员能够基于小模型预测大模型的性能,从而优化资源分配并指导模型开发;(2)泛化能力,AR模型无需任务特定的训练即可适应新任务和未见任务 [1][3]。这些特点使AR模型在语言任务中表现出前所未有的效果,并展现出朝着通用人工智能(AGI)系统发展的潜力。

受AR模型在自然语言处理领域成功的启发,近年来的研究将AR模型扩展到了视觉生成任务。典型示例包括VQVAE [11]、VQGAN [12]、DALL-E [13] 和Parti [14] 等模型,这些模型通过图像标记器将连续图像转换为离散标记,从而使AR模型能够像处理语言一样,通过“下一个标记预测”方法生成图像。视觉标记化通过将文本和图像都视为离散标记序列,统一了它们的表示方式,使其适配序列到序列(sequence-to-sequence)建模技术。因此,这些模型能够利用类似于GPT系列 [1][2][3] 的架构,从大规模文本-图像对中高效学习。

除了视觉生成,AR模型还推动了视觉理解的发展,尤其是在多模态理解领域 [15][16][17][18][19],它们可以感知并整合多种模态信息。在多模态任务中,AR模型通过训练解读视觉输入并生成连贯的文本序列,成为在视觉和文本信息结合方面极具潜力的工具。例如,多模态大语言模型(MLLM)如LLaVA [15],利用LLMs同时解读视觉和文本输入,从而实现对图像的问答、生成描述性字幕以及在详细视觉上下文中进行对话。通过这一设计,基于AR的MLLM在推动AI应用中的多样化视觉理解能力方面表现出色。

鉴于AR模型在视觉生成和理解方面的成就,近期的研究尝试将这两种能力整合到一个统一的AR模型中,使其能够同时处理视觉生成和理解任务。例如,Transfusion [20] 通过结合语言建模中常用的“下一个标记预测”目标与图像生成中的扩散过程,实现了这一整合。通过对文本和图像数据进行联合训练,Transfusion [20] 在单一Transformer架构中处理离散文本标记和连续图像数据,从而能够执行广泛的多模态任务,并弥合视觉理解与生成之间的差距。此外,AR模型在视频等其他领域也表现出强大的理解与生成能力 [21],如视频字幕生成、视频生成及场景解读等任务。

尽管AR模型在视觉研究中取得了显著进展并吸引了越来越多的关注,但目前缺乏系统的综述来全面概述现有方法、挑战以及未来可能的研究方向。本文旨在填补这一空白,全面综述AR模型在各种视觉任务中的应用,并按任务类型进行分类,包括图像生成、图像理解及其他领域。我们从多个角度展开综述,包括AR模型的背景、相关数据集、方法论、基准测试,以及当前的研究挑战与未解难题。我们的目标是为学术界和工业界提供清晰的现状概览,展示已经取得的成果、面临的挑战以及未来研究的潜力方向。

主要贡献

本文的主要贡献总结如下:

  1. 系统全面地回顾了AR模型在视觉领域的应用,建立了现有方法的分类体系,突出了它们的主要贡献、优势和局限性。
  2. 深入分析了AR模型的最新进展,包括跨各种评估数据集的方法性能基准测试和讨论。
  3. 阐明了AR模型领域的若干挑战和未来研究的潜力方向,旨在帮助学术界解决开放性问题并推动该领域的发展。

成为VIP会员查看完整内容
31

相关内容

《视频任意分割Segment Anything》系统性综述
专知会员服务
22+阅读 · 8月19日
【ICML2024】上下文感知标记化的高效世界模型
专知会员服务
26+阅读 · 7月2日
知识图谱与大模型融合综述
专知会员服务
99+阅读 · 6月30日
《面向视觉语言地理基础模型》综述
专知会员服务
38+阅读 · 6月15日
视觉提示学习综述
专知会员服务
51+阅读 · 3月23日
结构保持图transformer综述
专知会员服务
40+阅读 · 2月19日
《Transformer压缩》综述
专知会员服务
47+阅读 · 2月14日
《多模态大模型少样本自适应》综述
专知会员服务
93+阅读 · 1月4日
视觉的有效扩散模型综述
专知会员服务
92+阅读 · 2022年10月20日
注意力机制模型最新综述
专知会员服务
266+阅读 · 2019年10月20日
时空数据挖掘:综述
专知
24+阅读 · 2022年6月30日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【CVPR 2020 Oral】小样本类增量学习
专知
16+阅读 · 2020年6月26日
综述:基于GAN的图像翻译模型盘点
GAN生成式对抗网络
21+阅读 · 2019年9月2日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
图注意力网络
科技创新与创业
35+阅读 · 2017年11月22日
基于注意力机制的图卷积网络
科技创新与创业
73+阅读 · 2017年11月8日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Arxiv
0+阅读 · 12月13日
A Survey of Large Language Models
Arxiv
407+阅读 · 2023年3月31日
VIP会员
相关VIP内容
《视频任意分割Segment Anything》系统性综述
专知会员服务
22+阅读 · 8月19日
【ICML2024】上下文感知标记化的高效世界模型
专知会员服务
26+阅读 · 7月2日
知识图谱与大模型融合综述
专知会员服务
99+阅读 · 6月30日
《面向视觉语言地理基础模型》综述
专知会员服务
38+阅读 · 6月15日
视觉提示学习综述
专知会员服务
51+阅读 · 3月23日
结构保持图transformer综述
专知会员服务
40+阅读 · 2月19日
《Transformer压缩》综述
专知会员服务
47+阅读 · 2月14日
《多模态大模型少样本自适应》综述
专知会员服务
93+阅读 · 1月4日
视觉的有效扩散模型综述
专知会员服务
92+阅读 · 2022年10月20日
注意力机制模型最新综述
专知会员服务
266+阅读 · 2019年10月20日
相关资讯
时空数据挖掘:综述
专知
24+阅读 · 2022年6月30日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【CVPR 2020 Oral】小样本类增量学习
专知
16+阅读 · 2020年6月26日
综述:基于GAN的图像翻译模型盘点
GAN生成式对抗网络
21+阅读 · 2019年9月2日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
图注意力网络
科技创新与创业
35+阅读 · 2017年11月22日
基于注意力机制的图卷积网络
科技创新与创业
73+阅读 · 2017年11月8日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员