如何构建CV中的AGI？华为最新《计算机视觉中的人工通用智能：从GPT和大型语言模型中学到的经验教训》

如何探索CV中的AGI？华为这篇论文进行了论述

人工智能社区一直在追求被称为通用人工智能（AGI）的算法，这些算法可以应用于任何类型的现实世界问题。最近，由大型语言模型（LLMs）驱动的聊天系统崭露头角，并迅速成为在自然语言处理（NLP）中实现AGI的有力候选，但是在计算机视觉（CV）中实现AGI的道路仍然不明朗。这种困境可能归因于视觉信号比语言信号更复杂，但我们对寻找具体原因以及吸取来自GPT和LLMs的经验以解决问题充满了兴趣。在这篇论文中，我们从AGI的概念定义开始，简要回顾了NLP如何通过聊天系统解决各种任务。这个分析启示我们，统一性是CV的下一个重要目标。但是，尽管在这个方向上做出了各种努力，CV仍然远离像GPT那样自然集成所有任务的系统。我们指出，CV的根本弱点在于缺乏从环境中学习的范式，然而NLP已经在文本世界中完成了这项任务。然后，我们设想了一个流程，将一个CV算法（即，一个代理）放置在世界级的、可交互的环境中，预先训练它根据其行动预测未来的帧，然后对其进行细化训练以完成各种任务。我们期望通过大量的研究和工程努力推动这个想法向前发展并进行扩大，对此，我们分享了我们对未来研究方向的观点。

1. 引言

世界正在见证向人工通用智能（AGI）的史诗般的奥德赛，我们按照惯例将AGI定义为可以复制人类或其他动物可以做的任何智能任务的计算机算法。特别是，在自然语言处理（NLP）中，已经开发出了一些可以通过与人类聊天来解决各种任务的计算机算法。一些研究人员认为，这样的系统可以被看作是AGI的早期火花。这些系统大多是基于大型语言模型（LLMs）建立的，并通过指令调优进行增强。它们配备了外部知识库和专门设计的模块，可以完成诸如解决数学问题、生成视觉内容等复杂任务，反映了它强大的理解用户意图和进行初步思维链的能力。尽管在某些方面（例如，讲述科学事实和命名人物之间的关系）存在已知的弱点，但这些开创性的研究已经显示出一个明确的趋势，即将NLP中的大多数任务统一到一个系统中，这反映了对AGI的追求。与自然语言处理（NLP）中统一化的快速进展相比，计算机视觉（CV）领域离统一所有任务的目标还很远。常规的CV任务，如视觉识别、追踪、字幕、生成等，大多使用大不相同的网络架构和/或特别设计的流程进行处理。研究人员期待有一个像GPT那样的系统，可以用统一的提示机制处理各种CV任务，但在实现个别任务的良好实践与在多种任务中实现泛化之间存在着权衡。例如，为了在物体检测和语义分割中报告高识别准确率，最好的策略是在强大的骨干网络上设计特定的头部模块，但这种设计一般不适用于图像字幕或视觉内容生成等其他问题。显然，统一化是CV的趋势。近年来，这个方向有许多努力，我们大致将它们分为五个研究主题，即(i) 基于视觉-语言对齐的开放世界视觉识别，(ii) 用于通用视觉识别的“分割任何物体”任务，(iii) 统一视觉任务的通用视觉编码，(iv) LLM引导的视觉理解，以增强CV中的逻辑，以及(v) 多模态对话，以促进视觉-语言交互。这些工作都显示出统一化的希望，但是，它们还不能组成一个像GPT那样可以解决现实世界中通用CV任务的系统。

因此，产生了两个问题：（1）为什么在CV中实现统一如此困难？（2）我们可以从GPT和LLMs中学到什么来实现这个目标？为了回答这些问题，我们重新审视GPT，将其理解为在文本世界中建立一个环境，并允许一个算法（或代理）通过交互学习。计算机视觉研究缺乏这样的环境。因此，算法无法模拟世界，所以它们只能采样世界，并学习在所谓的代理任务中实现良好的性能。在深度学习的史诗般的十年之后，代理任务不再能够表示CV算法的能力；越来越明显的是，继续追求它们的高精度可能会使我们远离AGI。基于上述分析，我们提出了一个朝向CV中的AGI的想象流程。它涉及三个阶段。第一阶段是建立一组忠实的、丰富的、可交互的环境。第二阶段的目标是通过迫使代理探索环境并预测未来帧来训练代理：这对应于NLP中的自回归预训练阶段。第三阶段涉及教代理完成各种任务：在这个阶段，可能需要引入人类的指令，这对应于NLP中的指令微调阶段。可选地，可以通过简单和统一的提示来调整代理以执行代理任务。这个想法与一些现有的研究主题有关，包括3D环境建立、视觉预训练、强化学习和具身CV。但是，现有的工作大多是初步的，我们预期需要大量的努力，才能使它成为解决现实世界问题的有效范式。

本文的其余部分组织如下。首先，在第2部分，我们简要介绍了AGI的历史和思想，并继承了AGI是一种最大化奖励的算法的定义。接着是第3部分，我们展示了GPT的能力，这是一种最先进的NLP算法，被认为是AGI的火花。然后，在第4部分，我们根据CV研究的当前状态，分析了在计算机视觉中实现AGI为什么困难，并指出了基本的困难在于过时的学习范式。这个分析引导我们到了第5部分，我们在那里设想了一种将CV推向AGI的流程，并基于此对未来的研究方向进行了一些评论。最后，在第6部分，我们对本文进行了总结并分享了我们的思考。

2. CV：AGI的下一个战场

人类基于多种数据模式感知世界。我们都知道，我们学到的大约85%的东西是通过我们的视觉系统。因此，鉴于NLP社区已经展现了AGI的前景，自然而然地将计算机视觉（CV）或多模态（至少包括视觉和语言领域）视为AGI的下一个战场。在此，我们提供两个额外的评论来补充上述陈述。首先，显然，CV是NLP的超集，因为人们阅读文章是首先通过识别捕获图像中的字符，然后理解内容。换句话说，CV（或多模态）的AGI应该覆盖NLP的所有AGI能力。其次，我们认为在许多情况下，仅依靠语言是不够的。例如，当人们试图找到关于一个未知对象（例如，动物、时尚等）的详细信息时，最好的方式是拍摄一张图片并用它进行在线搜索；纯粹依赖文本描述可能会引入不确定性和不准确性。另一个例子，如我们将在第4.3节中看到，不总是容易指出场景中的细粒度语义（用于识别或图像编辑），并且以视觉友好的方式思考更有效，例如，使用一个点或框来定位一个对象，而不是说一些像“穿着黑色夹克，在黄色汽车前站着和另一个人交谈”的人这样的话。

我们期望有一个CV算法能解决一般性任务，可能通过与环境的交互。注意，这个要求不仅限于识别所有事物或者基于图像或视频片段进行对话。它应该是一个全面的系统，接收来自人类的通用命令并产生所需的结果。但是，当前的CV状态还很初级。如图7所示，CV社区一直在为不同的视觉任务使用不同的模块甚至系统。

**统一化是趋势 **

下面，我们将朝向计算机视觉统一化的最近研究主题总结为五个类别。

**开放世界视觉识别 **

在很长一段时间里，大多数CV算法只能识别出现在训练数据中的概念，导致了一个“封闭世界”的视觉概念。相反，“开放世界”的概念指的是CV算法能够识别或理解任何概念，无论它是否以前出现过。开放世界的能力往往通过自然语言引入，因为这是人类理解新概念的自然方式。这解释了为什么与语言相关的任务，如图像字幕 [73]，[74] 和视觉问题回答 [91]，[92]，[93] 对视觉识别的开放世界设定做出了最早的贡献。最近，随着视觉语言预训练（例如 CLIP [13] 和 ALIGN [94]）的出现，将视觉和语言领域的特征对齐变得更容易。统一的特征空间不仅为图像字幕 [75]，[76]，[77] 和视觉问题回答 [11]，[76]，[95] 提供了更简单的管道，而且创造了一种新的方法 [13] 用于传统的视觉识别任务。例如，图像分类可以通过简单地将查询图像与一组模板（也被称为“提示”）匹配来完成，说一张{某物}的照片，其中某物可以是任何（因此是开放世界的）概念，比如猫或西伯利亚雪橇犬，并将结果设置为匹配得分最高的候选者。除了原始版本之外，研究人员开发了名为“学习提示”的算法 [96]，[97] 来提高分类准确性。后来，该方法从图像分类继承到物体检测 [87]，[98]，语义分割 [88]，[99]，实例分割 [100]，全景分割 [101]，[102]，并进一步扩展到视觉接地 [103] 和复合视觉识别 [90] 任务。这些任务可以从视觉语言模型中受益，这些模型经过增强的定位预训练 [103]，[104]。开放世界视觉识别与零样本视觉识别密切相关，因为它们都试图将识别能力泛化到训练集中未出现的概念。

"分割任何事物"任务

"分割任何事物"任务 [14] 最近被引入作为一个通用模块，将原始图像像素聚类为多个组，其中许多对应于图像中的基本视觉单元。该任务支持包括点、轮廓、文本等在内的多种提示，并为每个提示或每个提示的组合产生一些掩码和分数。该模型，SAM，在一个包含约1000万图像的大规模数据集上进行了训练，能够转移到广泛的分割任务，包括医学图像分析 [111]，[112]，[113]，伪装对象分割 [110]，[114]，3D对象分割 [108]，对象跟踪 [115]，以及应用场景如图像修复 [109]。SAM也可以与最先进的视觉识别算法一起使用，例如将视觉接地 [116] 算法产生的边界框精炼为掩码，并将分割的单元输入到开放集分类算法中进行图像标记 [107]，[117]。

技术上，SAM的关键在于提示机制和数据闭合，即通过标注者的少量反馈来闭合分割任务。提示的统一形式使SAM看起来像是视觉基础模型或管道的一部分，但仍然存在许多未解决的问题。例如，关于SAM的上游和下游模块（如果SAM确实是管道的一部分）仍然不清楚，而且SAM可能会严重受到像素级外观的影响，例如，手臂可以精确地在衣服的边界处从躯干上分割出来，这意味着颜色是分割的主导因素。总的来说，SAM可能已经过度适应了"分割任何事物"任务本身，从而削弱了其分类能力。

通用视觉编码

另一种统一计算机视觉任务的方式是为它们提供一个通用的视觉编码。有几种方法可以实现这个目标。一个关键的困难在于视觉任务之间的巨大差异，例如，对象检测需要一组边界框，而语义分割需要对整个图像进行密集预测，这两者都与图像分类所需的单个标签非常不同。正如我们都能理解的，自然语言提供了一种统一的形式来表示所有事物。一个名为 pix2seq [15] 的早期工作显示，对象检测结果（即边界框）可以被形式化为自然语言和坐标，然后转换为视觉模型的输出标记。在稍后的版本，pix2seq-v2 中，他们将表示形式一般化，以统一对象检测、实例分割、关键点检测和图像字幕的输出。类似的想法也被用于其他的图像识别 [120]、视频识别 [121] 和多模态理解 [16]，[122]，[123] 任务。

LLM指导的视觉理解

视觉识别可以非常复杂，尤其是当涉及到组合概念和/或视觉实例之间的关系时。对于端到端模型（视觉-语言预训练模型用于视觉问题回答[11]，[76]，[95]）来说，按照人类容易理解的程序生成答案是困难的。为了缓解这个问题，一个实际的方法是生成可解释的逻辑来协助视觉识别。这个想法并不新鲜。几年前，在Transformer架构出现之前，研究人员提出使用长短期记忆模型（LSTM）[72]生成程序，以便将视觉模块作为复杂问题回答的模块[126]。在那个时候，LSTM的能力在很大程度上将这个想法限制在相对简单和模板化的问题范围内。最近，大型语言模型（尤其是GPT系列）的出现使得任意问题的转换成为可能。具体来说，GPT可以以不同的方式与人类交互。例如，它可以将基本识别结果总结为最终答案[125]，或者生成代码[18]，[124]或自然语言脚本[19]来调用基本视觉模块。因此，视觉问题可以被分解为基本模块。这对于逻辑问题特别有效，例如，询问对象之间的空间关系或依赖于对象数量的问题。LLMs可能理解这种逻辑，但它们尚未展示出协助基本视觉识别模块的能力。也就是说，一旦基本的识别结果错误（例如，检测算法错过了一些小的和/或部分遮挡的对象），答案仍然会是错误的。我们期望在未来形成一种基本的视觉逻辑（例如，算法可以按照顺序算法来检测每个对象，或者被常识[127]指导来解决难题），可能是在LLMs的帮助下，从而提升基本的视觉识别。

多模态对话

多模态对话将基于文本的对话扩展到视觉领域。早期的工作涉及到视觉问题回答，其中构建了各种简单问题的数据集 [128]，[129]，[130]。随着LLMs的快速发展，通过对预训练的视觉和语言模型进行微调，实现了多轮问答 [11]，[95]。还展示了在多模态中可以通过上下文学习 [76] 或使用GPT作为逻辑控制器 [131] 来回答各种问题。最近，在GPT系列中开发的一种新的范式，称为指导学习 [4]，已被继承用于提高多模态对话的质量 [20]，[46]。其思想是提供一些参考数据（例如，对象、描述）来自于基准标注或识别结果，并要求GPT模型生成指导数据（即，丰富的问答对）。通过这些数据（无需参考），用于视觉和语言的基础模型可以通过轻量级的网络模块（例如，Q-former [11]）相互交互。多模态对话为计算机视觉提供了一个初步的交互性基准，但作为一个由语言引导的任务，它也具有开放世界视觉识别中分析的弱点（见第4.2.1节）。我们期望丰富查询形式的方法（例如，使用通用的视觉编码方法，参见第4.2.3节）可以将多模态对话推向更高的水平。

3 未来：从环境中学习

上述分析要求我们为计算机视觉（CV）的强大代理制定一个新的范式。在本节中，我们将我们的观点和洞见转化为一个假想的流程，回顾与这个流程相关的现有工作，并基于这个流程对未来的研究方向提出评论。

图14展示了我们的想法。这个流程包括三个阶段：第0阶段建立环境，第1阶段进行预训练，第2阶段进行微调。在需要的时候，微调后的模型可以被用于传统的视觉识别任务。下面，我们将详细描述每个阶段。

•** 第0阶段：建立环境**。正如前面的分析，高质量的环境对于计算机视觉（CV）中的人工通用智能（AGI）是非常必要的。这里的"高质量"概念包括但不限于丰富性（应该有充足和多样化的环境）、真实性（视觉外观和其他代理的行为应接近真实世界）以及交互性的丰富性（代理可以通过与环境交互来执行广泛的任务）。

•** 第1阶段：生成式预训练**。算法被要求探索环境并预训练以预测未来的帧。这与自然语言处理（NLP）中的 GPT 任务（预测下一个词元）的最大区别在于，未来的帧取决于代理的行动（在 NLP 中，预训练的文本语料库保持不变），所以模型试图学习状态和行动的联合分布。这个策略在已经建立的环境集无法近似世界分布时特别有用。需要注意的是，由于计算机视觉（CV）是自然语言处理（NLP）的超集（参见第4.1节前的段落），预训练的计算机视觉模型的大小（例如，参数的数量）应该比自然语言处理模型大几个数量级。

第2阶段：指导微调。预训练模型被指导完成真实世界的任务，遵循人类的指示。直观上说，代理与环境之间允许的交互类型有很多，包括探索、导航、使用语言、执行物理动作等等。一个合理的推测是，应该收集更多的指示数据，这也对应于基础计算机视觉模型的大小。

• 可选：下游感知。我们期望计算机视觉算法可以从前一阶段学习到所有需要的感知能力，例如，为了完成一个非常简单的任务，比如"给我买一杯咖啡"，模型必须至少学会(i) 安全地四处探索，(ii) 识别咖啡店在哪里，(iii) 用语言与店员交流，并且(iv) 抓取买到的咖啡。这样的模型，当适当地提供提示时，应该输出期望的感知结果，包括追踪另一个代理（以避免与其碰撞），开放集的视觉识别（用于找到酒吧和买到的咖啡）等等。这与通过合成进行分析的想法[136]有关。

4 结论

在这篇论文中，我们讨论了如何推动计算机视觉（CV）算法向人工通用智能（AGI）发展。我们首先回顾了计算机视觉为统一而进行的当前状态和最近的努力，然后我们继承了来自自然语言处理（NLP），尤其是 GPT 系列的想法和洞见。我们的结论是，计算机视觉缺乏一个可以从环境中学习的范式，为此我们提出了一个假想的流程。我们期望需要实质性的技术进化来使这个流程成为现实。

成为VIP会员查看完整内容