视觉自回归模型综述

自回归模型（Autoregressive Models）在自然语言处理（NLP）领域中展现了卓越的性能，具有令人印象深刻的可扩展性、适应性和泛化能力。受其在NLP领域显著成功的启发，自回归模型近年来在计算机视觉领域得到了广泛研究。这些模型通过将视觉数据表示为视觉标记并执行下一个标记预测，为图像生成、视觉理解以及最近将视觉生成与理解统一为单一自回归模型的多模态生成等多种视觉任务提供了支持。本文对视觉自回归模型进行了系统综述，包括对现有方法的发展分类，并突出了它们的主要贡献、优势与局限性，涵盖了图像生成、视频生成、图像编辑、动作生成、医学图像分析、三维生成、机器人操作、统一多模态生成等多种视觉任务。此外，我们调查并分析了自回归模型的最新进展，包括在各种评估数据集上的方法基准测试和深入讨论。最后，我们总结了关键挑战和未来研究的潜在方向，为视觉自回归模型的进一步发展提供了路线图。

1 引言

自回归（AR）模型近年来在人工智能领域取得了显著进展，尤其是在像GPT系列 [1][2][3][4][5] 及其他大语言模型（LLMs） [6][7][8] 中表现突出，这些模型在解决各种自然语言处理任务上表现出色。它们采用简单而强大的“下一个词预测”策略，通过预测序列中的下一个单词生成连贯且上下文相关的文本。AR模型的成功主要归因于两个关键特性：（1）可扩展性，扩展法则 [9][10] 使研究人员能够基于小模型预测大模型的性能，从而优化资源分配并指导模型开发；（2）泛化能力，AR模型无需任务特定的训练即可适应新任务和未见任务 [1][3]。这些特点使AR模型在语言任务中表现出前所未有的效果，并展现出朝着通用人工智能（AGI）系统发展的潜力。

受AR模型在自然语言处理领域成功的启发，近年来的研究将AR模型扩展到了视觉生成任务。典型示例包括VQVAE [11]、VQGAN [12]、DALL-E [13] 和Parti [14] 等模型，这些模型通过图像标记器将连续图像转换为离散标记，从而使AR模型能够像处理语言一样，通过“下一个标记预测”方法生成图像。视觉标记化通过将文本和图像都视为离散标记序列，统一了它们的表示方式，使其适配序列到序列（sequence-to-sequence）建模技术。因此，这些模型能够利用类似于GPT系列 [1][2][3] 的架构，从大规模文本-图像对中高效学习。

除了视觉生成，AR模型还推动了视觉理解的发展，尤其是在多模态理解领域 [15][16][17][18][19]，它们可以感知并整合多种模态信息。在多模态任务中，AR模型通过训练解读视觉输入并生成连贯的文本序列，成为在视觉和文本信息结合方面极具潜力的工具。例如，多模态大语言模型（MLLM）如LLaVA [15]，利用LLMs同时解读视觉和文本输入，从而实现对图像的问答、生成描述性字幕以及在详细视觉上下文中进行对话。通过这一设计，基于AR的MLLM在推动AI应用中的多样化视觉理解能力方面表现出色。

鉴于AR模型在视觉生成和理解方面的成就，近期的研究尝试将这两种能力整合到一个统一的AR模型中，使其能够同时处理视觉生成和理解任务。例如，Transfusion [20] 通过结合语言建模中常用的“下一个标记预测”目标与图像生成中的扩散过程，实现了这一整合。通过对文本和图像数据进行联合训练，Transfusion [20] 在单一Transformer架构中处理离散文本标记和连续图像数据，从而能够执行广泛的多模态任务，并弥合视觉理解与生成之间的差距。此外，AR模型在视频等其他领域也表现出强大的理解与生成能力 [21]，如视频字幕生成、视频生成及场景解读等任务。

尽管AR模型在视觉研究中取得了显著进展并吸引了越来越多的关注，但目前缺乏系统的综述来全面概述现有方法、挑战以及未来可能的研究方向。本文旨在填补这一空白，全面综述AR模型在各种视觉任务中的应用，并按任务类型进行分类，包括图像生成、图像理解及其他领域。我们从多个角度展开综述，包括AR模型的背景、相关数据集、方法论、基准测试，以及当前的研究挑战与未解难题。我们的目标是为学术界和工业界提供清晰的现状概览，展示已经取得的成果、面临的挑战以及未来研究的潜力方向。