2022 年 11 月,ChatGPT 的问世展示了大语言模型的强大潜能,并迅速引起了广泛关注。ChatGPT 能够有效理解用户需求,并根据上下文提供恰当的回答。它不仅可以进行日常对话,还能够完成复杂任务,如撰写文章、回答问题等。令人惊讶的是,所有这些任务都由一个模型完成。在许多任务上,ChatGPT 的性能甚至超过了针对单一任务进行训练的有监督算法。这对于人工智能领域具有重大意义,并对自然语言处理研究产生了深远影响。
然而,由于 OpenAI 并未公开 ChatGPT 的详细实现细节,整体训练过程包括语言模型、有监督微调、类人对齐等多个方面,这些方面之间还存在大量的关联,这对于研究人员在自然语言处理基础理论和机器学习基础理论上要求很高。此外,大语言模型的参数量非常庞大,与传统的自然语言处理研究范式完全不同。使用大语言模 型还需要分布式并行计算的支持,这对自然语言处理算法研究人员又进一步提高了要求。
为了使得更多的自然语言处理研究人员和对大语言模型感兴趣的读者能够快速了解大语言模型和理论基础,并开展大语言模型实践,复旦大学自然语言处理实验室张奇教授、桂韬研究员、郑锐博士生以及黄萱菁教授结合之前在自然语言处理领域研究经验,以及分布式系统和并行计算的教学经验,通过在大语言模型实践和理论研究的过程中,历时 8 个月完成本书。希望这本书能够帮助读者快速入门大语言模型的研究和应用,并解决相关技术挑战。
点击 阅读原文 或访问 https://intro-llm.github.io/ 获取本书全文
条分缕析,梳理大规模预训练技术路线
《大规模语言模型·从理论到实践》旨在为对大语言模型感兴趣的读者提供一个入门指南,并可作为高年级本科生和研究生自然语言处理相关课程的大语言模型部分补充教材。鉴于大语言模型的研究仍在快速发展阶段,许多方面尚未达成完整结论或普遍共识。在撰写本书时,我们力求全面展现大模型研究的各个方面,并避免给出没有广泛共识的观点和结论。大语言模型涉及深度学习、自然语言处理、分布式计算、分布式计算等众多领域。因此,建议读者在阅读本书之前,首先系统地学习深度学习和自然语言处理的相关课程。在分布式计算和异构计算方面,读者需要具备基本的概念。如果希望在大语言模型训练和推理方面进行深入研究,还需要系统学习分布式系统、并行计算、CUDA 编程等相关知识。
本书围绕大语言模型构建的四个主要阶段:预训练、有监督微调、奖励建模和强化学习,详细介绍各阶段使用的算法、数据、难点以及实践经验。
预训练阶段需要利用包含数千亿甚至数万亿单词的训练数据,并借助由数千块高性能 GPU 和高速网络组成的超级计算机,花费数十天完成深度神经网络参数的训练。这一阶段的核心难点在于如何构建训练数据以及如何高效地进行分布式训练。
有监督微调阶段利用少量高质量的数据集,其中包含用户输入的提示词(Prompt)和对应的理想输出结果。提示词可以是问题、闲聊对话、任务指令等多种形式和任务。这个阶段是从语言模型向对话模型转变的关键,其核心难点在于如何构建训练数据,包括训练数据内部多个任务之间的关系、训练数据与预训练之间的关系以及训练数据的规模。 奖励建模阶段的目标是构建一个文本质量对比模型,用于对于同一个提示词,对有监督微调模型给出的多个不同输出结果进行质量排序。这一阶段的核心难点在于如何限定奖励模型的应用范围以及如何构建训练数据。 强化学习阶段根据数十万提示词,利用前一阶段训练的奖励模型,对有监督微调模型对用户提示词补全结果的质量进行评估,并与语言模型建模目标综合得到更好的效果。这一阶段的难点在于解决强化学习方法稳定性不高、超参数众多以及模型收敛困难等问题。 除了大语言模型的构建,本书还进一步介绍了大语言模型的应用和评估方法。主要内容包括如何将大语言模型与外部工具和知识源进行连接、如何利用大语言模型进行自动规划完成复杂任务,以及针对大语言模型的各类评估方法。
It's Just the Beginning
虽然本书写作时间只有 8 个月,但是章节内部结构也是几易其稿,经过几次大幅度调整和重写。受限于我们的认知水平和所从事的研究工作的局限,对其中一些任务和工作的细节理解可能存在不少错误,也恳请专家、读者批评指正!
转发福利
点击转发并获赞满50个
截图加微信:Dreams21111617
并注明“集赞满50以上”
前10名可免费获得签名版纸质《自然语言处理导论》!
联系方式:cs_nlp@fudan.edu.cn地址:复旦大学江湾校区交叉二号楼
责任编辑:窦士涵、刘妍
AI Agent(人工智能代理)是一种能够感知环境、进行决策和执行动作的智能实 体。不同于传统的人工智能,AI Agent 具备通过独立思考、调用工具去逐步完成给 定目标的能力。AI Agent 和大模型的区别在于,大模型与人类之间的交互是基于 prompt 实现的,用户 prompt 是否清晰明确会影响大模型回答的效果。而 AI Agent 的工作仅需给定一个目标,它就能够针对目标独立思考并做出行动。和传统的 RPA 相比,RPA 只能在给定的情况条件下,根据程序内预设好的流程来进行工作的处 理,而 AI Agent 则可以通过和环境进行交互,感知信息并做出对应的思考和行动。
大语言模型的浪潮推动了 AI Agent 相关研究快速发展,AI Agent 是当前通往 AGI 的主要探索路线。大模型庞大的训练数据集中包含了大量人类行为数据,为模拟类 人的交互打下了坚实基础;另一方面,随着模型规模不断增大,大模型涌现出了上 下文学习能力、推理能力、思维链等类似人类思考方式的多种能力。将大模型作为 AI Agent 的核心大脑,就可以实现以往难以实现的将复杂问题拆解成可实现的子任 务、类人的自然语言交互等能力。由于大模型仍存在大量的问题如幻觉、上下文容 量限制等,通过让大模型借助一个或多个 Agent 的能力,构建成为具备自主思考决 策和执行能力的智能体,成为了当前通往 AGI 的主要研究方向。
一个基于大模型的 AI Agent 系统可以拆分为大模型、规划、记忆与工具使用四个组 件部分。AI Agent 可能会成为新时代的开端,其基础架构可以简单划分为 Agent = LLM + 规划技能 + 记忆 + 工具使用,其中 LLM 扮演了 Agent 的“大脑”,在这个 系统中提供推理、规划等能力。
AI Agent 发展迅速,出现多款“出圈”级研究成果。2023 年 3 月起,AI Agent 领 域迎来了第一次“出圈”,西部世界小镇、BabyAGI、AutoGPT 等多款重大 Agent 研究项目均在短短两周内陆续上线,引发了大家对 AI Agent 领域的关注。目前已经 涌现了在游戏领域大放异彩的英伟达 Voyager 智能体、能够帮助个人完成简单任务 的 Agent 助理 HyperWrite、以及主打个人情感陪伴的 AI 助理 Pi 等多款优秀的 Agent 成果,AI Agent 的研究进展迅速。
“Agent+”有望成为未来产品的主流,有望在多个领域实现落地应用。我们认为, AI Agent 的研究是人类不断探索接近 AGI 的过程,随着 Agent 变得越来越“可用” 和“好用”,“Agent+”的产品将会越来越多,未来将有望成为 AI 应用层的基本架 构,包括 to C、to B 产品等。
2B 和垂直领域仍是 AI Agents 容易率先落地的方向,用户对 Agent 的认知正在形 成,初创企业正在卡位。由于 Agent 对环境反馈的依赖性较强,具备显著特点的企 业环境是更加适合 Agent 建立起对某一个垂直领域认知的场景。当前关于 AI Agent 的研究主要还是以学术界和开发者为主,商业化产品极少,但是用户对于 Agent 的 关注度正在提升,可能未来几年间就会涌现出大量以 Agent 作为核心的产品应用到 各行各业。目前,已经有一些初创公司开始以企业的智能体平台作为主要的产品研 发方向,例如澜码科技正在打造基于 LLM 的企业级 Agent 平台。
AI Agents是最近热议的焦点,OpenAI AI的应用研究主管Lilian Weng发布了一篇关于AI Agents的万字长文:《大语言模型(LLM)支持的自主代理》引起了行业的热议,在文章中,她清晰地定义了基于LLM构建AI Agents的应用框架:Agent=LLM(大型语言模型)+记忆(Memory)+规划技能(Planning)+工具使用(Tool Use),其中,LLM是智能体的大脑,而其它几个部分,是关键的组件。而最近复旦大学自然语言处理组《大模型智能体》综述论文,提出了一个基于LLM的智能体的概念框架,包括三个主要组成部分:大脑、感知和行动,非常值得关注!
长期以来,人类一直在追求与人类水平相当或超越的人工智能(AI),认为AI智能体是实现这一目标的有前景的工具。AI智能体是能感知环境、做出决策并采取行动的人造实体。自20世纪中叶以来,已经做出了许多努力以发展智能的AI智能体。然而,这些努力主要集中在算法或训练策略的进步上,以提高在特定任务上的特定能力或性能。实际上,这个领域缺乏的是一个足够通用和强大的模型,作为设计能适应多样化场景的AI智能体的起点。由于它们展示出的多功能和出色的能力,大型语言模型(LLMs)被认为是通用人工智能(AGI)的潜在媒介,为构建通用AI智能体提供了希望。许多研究努力已经以LLMs为基础来构建AI智能体,并取得了显著进展。我们首先从其哲学起源追溯智能体的概念,到其在AI中的发展,并解释为什么LLMs是适合作为AI智能体的基础。在此基础上,我们提出了一个基于LLM的智能体的概念框架,包括三个主要组成部分:大脑、感知和行动,该框架可以根据不同的应用进行定制。随后,我们探讨了基于LLM的智能体在三个方面的广泛应用:单智能体场景、多智能体场景和人-智能体合作。接下来,我们深入研究智能体社会,探讨基于LLM的智能体的行为和个性,当它们形成社会时出现的社会现象,以及它们为人类社会提供的洞见。最后,我们讨论该领域内的一系列关键主题和未解决的问题。
人工智能(AI)是一个致力于设计和开发能复制人类智能和能力的系统的领域[1]。早在18世纪,哲学家丹尼斯·狄德罗(Denis Diderot)提出了这样一个观点:如果一只鹦鹉能回应所有问题,那么它可以被认为是智能的[2]。虽然狄德罗指的是像鹦鹉这样的生物,但他的观点强调了一个深刻的概念,即高度智能的生物可能与人类智能相似。到了20世纪50年代,艾伦·图灵(Alan Turing)将这一概念扩展到了人工实体,并提出了著名的图灵测试(Turing Test)[3]。这个测试是AI的基石,旨在探究机器是否能展示与人类相当的智能行为。这些AI实体通常被称为“智能体”,是AI系统的基础构件。在AI中,智能体通常指的是能使用传感器感知其环境、做出决策,然后使用执行器作出反应的人工实体[1; 4]。
智能体这一概念起源于哲学,其根源可追溯到亚里士多德和休谟等思想家[5]。它描述了拥有欲望、信仰、意图和采取行动能力的实体[5]。这个想法转变到了计算机科学中,旨在使计算机能理解用户的兴趣并自主地代表他们采取行动[6; 7; 8]。随着AI的发展, “智能体”这个术语在AI研究中找到了其位置,用以描述展示智能行为并具有自主性、反应性、主动性和社会能力等特质的实体[4; 9]。从那时起,智能体的探索和技术进步成为AI社群关注的焦点[1; 10]。现在,AI智能体被认为是实现通用人工智能(AGI)的重要步骤,因为它们包含了广泛的智能活动的潜力[4; 11; 12]。
从20世纪中期开始,在发展智能AI智能体方面取得了显著进展,因为研究深入探讨了它们的设计和提升[13; 14; 15; 16; 17; 18]。然而,这些努力主要集中在提高特定能力上,如符号推理,或者掌握特定任务,如围棋或国际象棋[19; 20; 21]。在不同场景中实现广泛的适应性依然难以捉摸。此外,先前的研究更多地强调算法和训练策略的设计,而忽视了模型固有通用能力的发展,如知识记忆、长期规划、有效泛化和有效交互[22; 23]。实际上,增强模型的固有能力是智能体进一步发展的关键因素,该领域需要一个具备上述多种关键属性的强大基础模型,作为智能体系统的起点。
大型语言模型(LLMs)的发展为智能体的进一步发展带来了一线希望[24; 25; 26],并且社群已经取得了显著进展[22; 27; 28; 29]。根据“世界范围(World Scope,WS)”的概念[30],该概念涵盖了从自然语言处理(NLP)到通用AI的五个层次(即,语料库、互联网、感知、具象和社交),纯粹的LLMs是建立在第二层,具有互联网规模的文本输入和输出。尽管如此,LLMs在知识获取、指令理解、泛化、规划和推理方面展示了强大的能力,同时与人类进行有效的自然语言交互。这些优势赋予了LLMs作为通用人工智能(AGI)的媒介的称号[31],使它们非常适合用于构建智能体,以促进一个人类与智能体和谐共存的世界[22]。从这一点出发,如果我们提升LLMs到智能体的地位,并赋予它们更广泛的感知空间和行动空间,它们有可能达到WS的第三和第四层次。此外,这些基于LLMs的智能体可以通过合作或竞争来解决更复杂的任务,当将它们放在一起时,可以观察到新出现的社会现象,从而可能达到第五个WS层次。如图1所示,我们设想一个由AI智能体组成的和谐社会,人类也可以参与其中。
在本文中,我们提出了一个全面和系统的调查,重点关注基于大型语言模型(LLM)的智能体,试图研究这个新兴领域的现有研究和前景途径。为此,我们首先深入探讨关键的背景信息(第2部分)。具体来说,我们从哲学到人工智能(AI)领域追溯AI智能体的起源,并简要概述围绕人工智能体存在的争论(第2.1部分)。接下来,我们通过技术趋势的视角提供了AI智能体发展的简明历史回顾(第2.2部分)。最后,我们深入介绍智能体的基本特性,并阐明为什么大型语言模型非常适合作为AI智能体的大脑或控制器的主要组成部分(第2.3部分)。
受到“智能体”定义的启发,我们为基于大型语言模型(LLM)的智能体提出了一个具有三个关键部分的通用概念框架:大脑、感知和行动(第3部分),该框架可以定制以适应不同的应用场景。我们首先介绍大脑,主要由一个大型语言模型组成(第3.1部分)。与人类相似,大脑是AI智能体的核心,因为它不仅储存了关键的记忆、信息和知识,而且还承担了信息处理、决策、推理和规划等基本任务。这是智能体能否展示智能行为的关键决定因素。接下来,我们介绍感知模块(第3.2部分)。对于智能体而言,这个模块的作用与人类的感官器官类似。它的主要功能是将智能体的感知空间从仅限于文本扩展到一个包括文本、声音、视觉、触觉、嗅觉等多种感官模态的多模态空间。这种扩展使智能体能够更好地从外部环境中获取信息。最后,我们介绍用于扩展智能体行动空间的行动模块(第3.3部分)。具体而言,我们希望智能体能够拥有文本输出,进行实体化的行动,并使用工具,以便它能更好地响应环境变化,提供反馈,甚至改变和塑造环境。
然后,我们提供了基于大型语言模型的智能体的实用应用的详细而全面的介绍,并阐明了基础设计追求——“为了公益而驾驭AI”(第4部分)。首先,我们深入研究单一智能体的当前应用,并讨论它们在基于文本的任务和模拟探索环境中的表现,重点介绍它们在处理特定任务、推动创新以及展示类似人类的生存技能和适应性方面的能力(第4.1部分)。接下来,我们回顾了多智能体发展历史。我们介绍了基于LLM的多智能体系统应用中智能体之间的互动,其中它们参与合作、谈判或竞争。无论互动模式如何,智能体都共同努力实现共享目标(第4.2部分)。最后,考虑到基于LLM的智能体在隐私安全、道德约束和数据不足等方面可能存在的局限性,我们讨论了人-智能体合作。我们总结了智能体与人之间合作的范例:指导者-执行者范例和平等合作范例,以及具体的实践应用(第4.3部分)。
基于对基于大型语言模型(LLM)的智能体在实际应用中的探索,我们现在将焦点转向“智能体社会”的概念,研究智能体与其周围环境之间的复杂相互作用(§ 5)。本节首先调查这些智能体是否表现出类人行为并具有相应的个性(§5.1)。此外,我们介绍智能体所操作的社交环境,包括基于文本的环境、虚拟沙盒和物理世界(§5.2)。与前一节(§ 3.2)不同,这里我们将关注多种类型的环境,而非智能体如何感知它。在建立了智能体和他们环境的基础之后,我们继续揭示他们形成的模拟社会(§5.3)。我们将讨论模拟社会的构建,并进一步研究其中出现的社会现象。具体来说,我们将强调模拟社会中固有的教训和潜在风险。
最后,我们讨论了基于大型语言模型的智能体领域的一系列关键主题和未解决的问题(§ 6):(1)LLM研究和智能体研究的相互益处和灵感,其中我们展示了基于LLM的智能体的发展为智能体和LLM社群提供了许多机会(§ 6.1);(2)现有的评估工作以及从四个维度对基于LLM的智能体的一些前景,包括实用性、社交性、价值观和持续演化的能力(§ 6.2);(3)基于LLM的智能体的潜在风险,我们讨论了基于LLM的智能体的对抗性鲁棒性和可信度。我们还包括了其他风险的讨论,如滥用、失业和对人类福祉的威胁(§ 6.3);(4)扩大智能体数量,我们讨论了扩大智能体数量的潜在优点和挑战,以及静态和动态扩展的方法(§ 6.4);(5)几个未解决的问题,例如关于基于LLM的智能体是否代表通往AGI(人工通用智能)的潜在途径的争论,从虚拟模拟环境到物理环境的挑战,AI智能体中的集体智能,以及智能体作为一项服务(§ 6.5)。总之,我们希望本文能给相关领域的研究人员和从业者带来启发。
智能体的诞生:基于大型语言模型(LLM)的智能体构建
“适者生存”[131]表明,如果一个个体想在外部环境中生存,他必须有效地适应周围环境。这要求他具有认知能力,能够感知和响应外界的变化,这与第2.1节中提到的“智能体”的定义是一致的。受此启发,我们提出了一个基于大型语言模型(LLM)的智能体的一般概念框架,该框架由三个关键部分组成:大脑、感知和行动(见图2)。我们首先描述大脑的结构和工作机制,它主要由一个大型语言模型组成(§ 3.1)。大脑是AI智能体的核心,因为它不仅储存了知识和记忆,而且还承担了信息处理和决策等不可或缺的功能。它可以呈现推理和规划的过程,并且能够很好地应对未见过的任务,展现出智能体的智能。接下来,我们介绍感知模块(§ 3.2)。其核心目的是将智能体的感知空间从仅限于文本的领域扩展到包括文本、听觉和视觉模式的多模态范围。这一扩展使智能体能更有效地掌握和利用来自其周围环境的信息。最后,我们介绍了旨在扩展智能体行动空间的行动模块(§ 3.3)。具体来说,我们赋予智能体具体的行动能力和使用工具的技能,使其能够熟练地适应环境变化,提供反馈,甚至影响和塑造环境。
该框架可以针对不同的应用场景进行定制,即并非所有研究中都会使用每一个特定组件。一般来说,智能体按照以下工作流程进行操作:首先,感知模块,相当于人类的感官系统如眼睛和耳朵,感知外部环境的变化,然后将多模态信息转换为智能体能理解的表示形式。随后,作为控制中心的大脑模块进行信息处理活动,例如思考、决策以及与存储(包括记忆和知识)相关的操作。最后,与人类四肢相对应的行动模块,在工具的协助下进行执行,并对周围环境产生影响。通过重复以上过程,智能体可以持续地获得反馈并与环境互动。
随着众多国内外公司纷纷推出各种大规模模型,包括通用大模型、行业大模型、垂直大模型以及专属大模型,这些超强模型服务的背后都是基于拥有千亿或万亿参数的基础模型。大模型的诞生标志着人工智能领域取得了重大进展,可以在各种任务中实现更高的准确性,降低了应用开发的门槛,并增强了模型的泛化能力。这些因素共同催生出新的场景和产业模式,并加速产业智能化应用落地的进程。
一、大模型技术应用不断演进,迎来发展新机遇
随着ChatGPT这一对话生成式预训练变换模型的诞生,大模型进入一个快速发展的时代。这些超强模型服务背后是拥有千亿或万亿参数的基础模型,它们通过学习丰富的知识,成为与人类进行交互以及连接万物的强大工具。
通用大模型的发展
自2016年Open AI发布Gym强化学习平台以来,模型参数从GPT-1的1.17亿开始,经过不断迭代,增长到GPT-4的1.76万亿的参数规模,通用大模型的性能也得到显著提升。
斯坦福大学的研究发现,GPT-3已经可以解决70%的心智理论任务,相当于7岁儿童;至于GPT3.5,更是解决了93%的任务,心智相当于9岁儿童!2022年11月,ChatGPT正式发布,是基于GPT-3.5架构并通过强化学习训练后的大语言模型,目前仍以文字方式互动,支持包括自动文本生成、自动问答、自动摘要等多种任务。
自2017年6月以来,Google陆续发布了BERT、T5等预训练模型,参数规模也在逐步提升。近期,Google发布的通才模型PaLM-E包含5620亿参数,可用于控制机器人,为通用人工智能(AGI)的实现提供了可能。
Google PaLM-E 大模型控制机器人
二、MaaS 支持大模型应用落地全流程能力构建
MaaS(模型即服务)提供一套完整的大模型服务工具链和开放平台,允许行业用户基于行业基础大模型,利用整体模型套件经过微调再训练,生成满足特定场景需求的专属大模型。与提供基础设施的IaaS(基础设施即服务)、提供工具的PaaS(平台即服务)和提供软件的SaaS(软件即服务)不同,MaaS以模型作为交付产品。
基于MaaS构建的一站式行业大模型构建和应用解决方案,围绕模型的生命周期提供各种的产品和技术辅助,行业用户实现从数据预处理、模型构建、模型训练、模型评估到模型服务全流程能力构建。MaaS解决了企业构建行业大模型成本高、时间长、难度大的问题,降低数字化转型的成本和风险,支撑客户快速实现大模型应用的产品化和商业化,更快地实现数字化转型和升级。
MaaS 解决方案
三、场景化需求快速推动大模型价值释放
随着技术能力的提升和多样化场景需求的推动,大模型已成为人工智能领域最重要的动力源泉。不仅推动人工智能从技术积累、行业应用和产业变革,更是赋能千行百业的基础设施。
大模型在场景中的应用
四、行业大模型应用落地亟需建设路线指引
通用大模型在满足行业用户直接需求方面存在一定难度,主要是由于模型参数量巨大,训练和部署对算力消耗巨大,导致成本高昂;其次,模型的可解释性仍然较弱,通常需要增加内容管控手段来保证结果的安全性;最后,模型对训练数据的依赖性较强,对于超出训练数据的任务效果不尽如人意。更重要的是,在某些特定行业,通用基础大模型的表现并不理想,因此行业大模型应运而生。
行业大模型通常基于该行业领域的数据进行训练和优化,更好地理解和处理该行业的专业术语、规范和语义。行业大模型更加专注于某个特定的行业,满足对应行业的需求。目前的产业解决方案中,行业大模型结合自身在算力方面的优势,为行业模型训练提供强大的支持和动力,助力构建专属大模型及智能应用。然而,行业大模型最终要在真实场景中落地并达到理想的服务效果,需要充分解决行业用户的痛点。目前行业用户面临的问题主要包括计算资源不足、数据质量差、投入成本较高以及缺乏专业人才等突出问题。
报告来源:新华社品牌工程&凯度&牛津大学
报告部分内容展示:****************
****************
人工智能并不是魔法。《AI的工作原理》通过解释发生了什么、何时发生、为何发生、如何发生,并没有使用一条数学方程式,来揭开人工智能的爆炸性增长的神秘面纱,阐明AI实际上在"底层"是怎么运作的。 人工智能无处不在——从自动驾驶汽车,到从文本生成图像,再到像ChatGPT这样的语言系统的无法预料的力量——然而似乎很少有人真正知道这一切是如何运作的。《AI的工作原理》解开了人工智能的奥秘,无需复杂的数学和不必要的术语。 您将学到:
人工智能、机器学习和深度学习之间的关系 人工智能的历史以及为什么人工智能革命现在才发生 符号人工智能经过几十年的研究失败后,为神经网络的出现打开了大门 神经网络是什么,它们是如何被训练的,以及为什么现代AI的所有奇迹都可以归结为一个简单的重复单元,该单元知道如何将输入数字相乘以产生一个输出数字。
像ChatGPT和Bard这样的大型语言模型对我们社会的影响——再也没有什么会像以前一样了
人工智能并不是魔法。如果您曾经想知道它是如何工作的,它能做什么,或者为什么有这么多炒作,《AI的工作原理》将教给您所有您想知道的一切。
在《开发人员的LLM提示工程》一书中,我们全面探讨了LLM的世界以及为之制定有效提示的艺术。 本指南从基础入手,探索了自早期以来自然语言处理(NLP)的演变,直到我们今天所接触到的复杂的LLM。您将深入了解如GPT模型之类的模型的复杂性,理解它们的架构、能力和细微差别。 随着我们的进展,本指南强调了有效提示工程及其最佳实践的重要性。虽然像ChatGPT(gpt-3.5)这样的LLM非常强大,但只有在有效沟通的情况下才能实现它们的全部潜力。这就是提示工程的重要性所在。这不仅仅是向模型提问;还包括措辞、上下文和理解模型的逻辑。
通过专门讲解Azure Prompt Flow、LangChain和其他工具的章节,您将获得实践经验,学会制定、测试、评分和优化提示。我们还将探讨如Few-shot Learning(少样本学习)、Chain of Thought(思维链)、Perplexity(困惑度)和ReAct以及General Knowledge Prompting(通用知识提示)等高级概念,使您全面理解该领域。
本指南旨在提供实践见解和练习,确实,随着您的进展,您将熟悉几个工具:
5月初,DeepLearning.ai 创始人吴恩达联合 OpenAI 推出入门大模型学习的经典课程《ChatGPT Prompt Engineering for Developers》,迅速成为了大模型学习的现象级课程,获得极高的热度。后续,吴恩达教授又联合 LangChain、Huggingface 等机构联合推出了多门深入学习课程,助力学习者全面、深入地学习如何使用大模型并基于大模型开发完整、强大的应用程序。 在《ChatGPT Prompt Engineering for Developers》课程推出之初,DataWhale 团队便投入到学习与开源建设之中,将每一门课程翻译为中文版,复现其代码,并在课程基础上探究了中文 Prompt 的实现及调优,对每一门课程实现了中英双语 Prompt 的效果对比,一直保持较高频率的内容优化与更新。至今,DataWhale 基于吴恩达大模型系列课程打造的开源项目《面向开发者的 LLM 入门教程》已完成六门课程的中文版制作,Github 获 star 达 6K。 开源地址:https://github.com/datawhalechina/prompt-engineering-for-developers
图1 项目首页
为更好地帮助国内学习者学习大模型开发,优化教程阅读体验,项目组特意组建了教程编撰小组,基于原课程内容,从文本阅读角度出发,打造更适合国内读者阅读的 PDF 教程、在线阅读。 针对 PDF 教程、在线阅读的阅读特点,我们调整了教程组织形式,优化了内容呈现方式,对代码规范、文字理论、图片展示等多个方面做出了优化,尽可能为读者呈现一版易于理解、便于阅读的文字教程。我们从理论学习出发,结合代码实践,较大程度地在源代码基础上实现了内容的丰富与优化,最大程度实现让读者仅读文字教程就能学习到课程的全部内容。
图2 在线阅读截图 在线阅读地址:https://datawhalechina.github.io/prompt-engineering-for-developers/ PDF 教程下载地址:https://github.com/datawhalechina/prompt-engineering-for-developers/releases/tag/v1%2C0%2C0
在八月初,吴恩达老师发布了两门新的大模型课程:《使用 Gradio 搭建生成式 AI 应用》(Building Generative AI Applications with Gradio)、《评估改进生成式 AI》(Evaluating and Debugging Generative AI),这两门课程一个从大模型开发的著名框架 Gradio 出发,指导开发者如何使用 Gradio,基于 Gradio 搭建大模型应用;一个结合热门的深度学习可视化工具 wandb,介绍评估改进生成式 AI 的方法与实践。 项目组同样第一时间实现了新课程的跟进,制作中文版教程,复现其代码并提供中文示例,以更好地帮助国内开发者学习。
指导开发者如何使用 Gradio 通过 Python 接口程序快速、高效地为生成式 AI 构建用户界面,主要内容包括:图片总结及生成应用、使用简单界面完成 NLP 任务、描述并生成游戏、与任意 LLM 交流等。
图3 Gradio图片
结合 wandb,提供一套系统化的方法和工具,帮助开发者有效地跟踪和调试生成式 AI 模型,主要内容包括:wandb 简介、训练并评估扩散模型、评估并跟踪 LLM、微调语言模型等。
图4 W&B目录
这是一个风云激荡的新时代,每一分每一秒都涌动着全新的变化,AIGC,是其中最具想象力与创造力的未来之一。我们想要将未来带给更多的人,让每一个有志于此的人都能去学习、拥抱大模型和它将造就的未来。我们不只在翻译,更在创造更多来自中文社区的思考和价值。期待每一位读者的肯定与反馈。 由于创作团队时间仓促、精力有限,教程难免有些疏漏甚至错误,我们期望学习者在学习的同时,也能积极给我们建议,或者直接对项目进行贡献,让我们共同打磨教程,为后面的学习者提供更好的内容。
今年3月末,我们在arXiv网站发布了大语言模型综述文章《A Survey of Large Language Models》的第一个版本V1,该综述文章系统性地梳理了大语言模型的研究进展与核心技术,讨论了大量的相关工作。自大语言模型综述的预印本上线以来,受到了广泛关注,收到了不少读者的宝贵意见。
在发布V1版本后的5个月时间内,为了提升该综述的质量,我们在持续更新相关的内容,连续进行了多版的内容修订(版本号目前迭代到V12),**论文篇幅从V1版本的51页、416篇参考文献,到V11版本的85页、610篇参考文献,现在进一步扩增到V12版本的97页、683篇参考文献。**继6月末发布于arXiv网站的大修版本V11,V12版本是我们两个多月以来又一次进行大修的版本。 相较于V11版本,V12版本的大语言模型综述有以下新亮点:
以下是综述部分章节的主要更新内容介绍,详细内容请参阅我们的英文综述。
我们对于最新符合条件的模型进行了补充,持续更新了现有的10B+的模型图和表格(如有遗漏,欢迎读者来信补充):
在模型架构部分,由于经典 Transformer 架构的注意力机制需要平方级别的时间复杂度进行计算,最近也出现一系列对语言建模新架构的探索,如S4、RWKV、RetNet 等,希望既可以具备 Transformer 在 GPU 上进行并行化训练的优势,也可以低复杂度、高效地进行解码与推断。此外也有一些工作致力于改进传统 Transformer架构的注意力机制或计算方式,使其高效训练和部署。我们新增了几种注意力机制的介绍,包括grouped-query attention,FlashAttention-2,以及PagedAttention。围绕这些内容,我们进行了简要介绍。此外,我们新增了解码策略子章节,介绍了常见的两种解码策略:贪心搜索和随机采样,并整理了针对这两种策略的改进算法,例如束搜索、top-p采样、top-k采样等策略。此外, 我们介绍了针对大模型的高效解码策略,以及具体模型和API解码时的常用设置。
在适配技术章节,我们增加了大量讨论及实验分析。在指令微调部分中,我们新增了指令微调的实用技巧介绍。在指令微调实验部分,我们加入了LLaMA-13B模型的指令微调实验针对不同混合数据集的分析。 在对齐微调部分中,为了帮助研究者快速有效地实现RLHF,我们提供了RLHF实用策略的介绍,主要包括如何有效地训练奖励模****型、以及如何高效地进行强化学习训练,希望为后续研究人员提供建设性参考。此外,我们大幅增加了对现有非RL对齐方法的介绍。与RLHF方法采用人工方式收集反馈数据不同,这部分工作主要借助奖励模型与大模型进行自动化的对齐反馈数据收集,并采用较为多样的监督训练方式微调大模型。最后,我们还针对SFT和RLHF两种训练方法进行了讨论。
经过预训练或适应性调整后,使用LLM的一个主要方法是设计合适的提示策略来解决各种任务。我们新增了表9对现有提示的代表性工作进行了总结,包括典型的LLM运用方法及其ICL、CoT和规划的重点。 此外,为了处理长程任务,使用长期记忆帮助进行规划是一类重要的方法。我们新增了目前使用记忆机制进行规划的工作,包括反思(Reflexion)和MemoryBank等。
大模型能力评估方面,我们增加了一个子章节对评测方法进行讨论,分别介绍了对基座模型、微调模型和专业模型的相关评测工作。我们总结了已有的评测工作,讨论了基准评测、人类评测和模型评测三类评测方法的优缺点。我们在表中总结了现有评测工作。
此外,随着新的大语言模型发布,我们在经验评测章节新增了多个热门大语言模型的评测结果,包括LLaMA 2 (Chat) 7B、Claude-2和Vicuna 13B,并补充了对新增模型的实验讨论。
一篇高质量的长篇综述文章需要大量的时间投入,所参与的老师和学生为此付出了很多的时间。尽管我们已经尽力去完善这篇综述文章,但由于能力所限,难免存在不足和错误之处,仍有很大的改进空间。我们的最终目标是使这篇综述文章成为一个“know-how”的大模型技术指南手册,让大模型的秘密不再神秘、让技术细节不再被隐藏。尽管我们深知目前这篇综述离这个目标的距离还比较远,我们愿意在之后的版本中竭尽全力去改进。特别地,对于预训练、指令微调、提示工程的内在原理以及实战经验等方面,我们非常欢迎读者为我们贡献想法与建议,可以通过GitHub提交PR或者邮件联系我们的作者。对于所有被采纳的技术细节,我们都将在论文的致谢部分中“实名+实际贡献”进行致谢。我们的综述文章自发布以来,收到了广泛网友的大量修改意见,在此一并表示感谢。也希望大家一如既往支持与关注我们的大模型综述文章,您们的点赞与反馈将是我们前行最大的动力。7. 本次修订的参与学生名单学生作者:周昆(新增了指令微调实验的任务设置与结果分析,添加了能力评测实验的实验设置与结果分析,添加了指令微调的实用技巧介绍,添加了RLHF实用策略的介绍)、李军毅(添加了非RL对齐方法的介绍)、唐天一(添加解码策略的介绍)、王晓磊(添加评测方法介绍)、侯宇蓬(添加第四章文字细节,更新图5)、闵映乾(添加第三章少数模型及相关介绍,更新表1、图2)、张北辰(添加表10)、陈昱硕(表8实验)、陈志朋(表12实验)、蒋锦昊(表12实验)、任瑞阳(表12实验)、汤昕宇(表12实验)学生志愿者:成晓雪(表12实验)、王禹淏(表12实验)、郑博文(表12实验)
版本时间主要更新内容V12023年3月31日初始版本V22023年4月9日添加了机构信息。修订了图表 1 和表格 1,并澄清了大语言模型的相应选择标准。改进了写作。纠正了一些小错误。V32023年4月11日修正了关于库资源的错误V42023年4月12日修订了图1 和表格 1,并澄清了一些大语言模型的发布日期V52023年4月16日添加了关于 GPT 系列模型技术发展的章节V62023年4月24日在表格 1 和图表 1 中添加了一些新模型。添加了关于扩展法则的讨论。为涌现能力的模型尺寸添加了一些解释(第 2.1 节)。在图 4 中添加了用于不同架构的注意力模式的插图。在表格 4 中添加了详细的公式。V72023年4月25日修正了图表和表格中的一些拷贝错误V82023年4月27日在第 5.3 节中添加了参数高效适配章节V92023年4月28日修订了第 5.3 节V102023年5 月7 日修订了表格 1、表格 2 和一些细节V112023年6月29日第一章:添加了图1,在arXiv上发布的大语言论文趋势图; 第二章:添加图3以展示GPT的演变及相应的讨论; 第三章:添加图4以展示LLaMA家族及相应的讨论; 第五章:在5.1.1节中添加有关指令调整合成数据方式的最新讨论,在5.1.4节中添加有关指令调整的经验分析,在5.3节中添加有关参数高效适配的讨论,在5.4节中添加有关空间高效适配的讨论; 第六章:在6.1.3节中添加有关ICL的底层机制的最新讨论,在6.3节中添加有关复杂任务解决规划的讨论; 第七章:在7.2节中添加用于评估LLM高级能力的代表性数据集的表格10,在7.3.2节中添加大语言模型综合能力评测; 第八章:添加提示设计; 第九章:添加关于大语言模型在金融和科学研究领域应用的讨论。 V122023年9月11日第三章:表格1新增模型,图2新增模型; 第四章:在4.2.1节中新增对新型架构的讨论,在4.2.2节中新增对几种注意力机制的介绍,新增4.2.4 节解码策略的介绍; 第五章:在5.1.2节中新增指令微调的实用技巧,在5.1.4节和表格 8中新增LLaMA-13B的指令微调实验分析,在5.2.3节中新增RLHF的实用策略,新增 5.2.4节不使用RLHF的对齐方法介绍,新增 5.2.5节关于SFT和RLHF的讨论; 第六章:新增表格 9 总结了提示的代表性工作,在 6.3节中更新了规划部分对记忆的介绍; 第七章:新增7.3.2节对评测方法的讨论,新增表格11对已有评测工作进行了总结,更新了7.4节经验能力评测及表格12的评测结果。
大语言模型:NLP技术的奇点时刻。语言模型的核心是对任意一段文本序列进行概率建模,用一个高维向量来表示一个token的全部特征。我们将深度学习应用于NLP领域的范式转移总结为"有监督的机器学习->预训练+微调->预训练+提示"。其中,ChatGPT的横空出世开启了“预训练+提示”的新范式,这主要得益于OpenAI对生成类模型(GPT)和算法规模化(Scalability)这两个基础技术路线的成功押注,大语言模型“涌现”出了解决复杂问题的通用能力,催生了本轮全球范围内的生成式AI浪潮。 大模型应用:数据感知与代理能力。如何将个人的个性化私有数据和企业多年积累的行业专有知识嫁接到大模型的通用能力上,是大模型在垂直领域商业化落地的核心技术问题。我们在报告中详细列举了三种目前业内主流的实践方法,并对其优劣进行了比较分析。除了获取外部数据外,通过增加代理能力(Agent),让大语言模型具备自主理解、规划、执行复杂任务的能力,同时与计算机内部环境,甚至物理世界进行交互,这也将显著打开大模型应用的想象空间。此外,我们认为提升模型支持的上下文长度是应用创新的关键靶点,模型小型化也将助力大模型应用的商业化落地。 应用分析框架:通用能力与外部能力的组合。大模型应用可以被总结为,在基座模型的通用能力上,叠加一些其他的可实现的外部能力,这就包括上述的数据感知(可连接其他外部数据源)和代理能力(允许大模型与环境互动)。根据这一范式,我们可以将现阶段大模型的应用边界归纳为通用认知能力与上述两种外部能力的排列组合。基于此,展望未来大模型新应用的靶点可总结为:①通用能力的增强(上下文长度、复杂推理、数学、代码、多模态等)、②外部能力的扩充(处理非结构化数据、使用更复杂的工具、与物理世界的交互等)
本文阐述了认知战的特征及其对虚假信息和计算宣传的使用,以及认知战在战争和非战争冲突中的政治和军事目的。文章讨论了应对认知战争的防御和进攻措施,特别是符合相关道德原则的措施。
认知战的定义多种多样。下面是几个有影响力的定义,了解一下这个词的含义: "认知战是一种战略,其重点是改变目标人群的思维方式,并通过这种方式改变其行为方式"(Backes & Swab, 2019);"外部实体将舆论武器化,目的是(1)影响公共和政府政策,(2)破坏公共机构的稳定"(Bernal et al.)
因此,认知战是最近从心理战和信息战等相关的非动能战争形式中发展出来的。认知战在很大程度上依赖于新的通信和信息技术,特别是人工智能。认知战的主要特点包括:以全体民众为目标(而不仅仅是战时的军事目标),侧重于通过改变民众的思维方式来改变其行为,而不仅仅是就具体问题提供零散的虚假信息(例如,否认战争中的伤亡程度)、 例如,否认动能战争中的伤亡人数),依靠日益复杂的心理操纵技术(以及潜在的神经生理学技术,如经颅直接颅骨刺激(Bernal 等人,2020 年,第 32 页;DeFranco 等人,2020 年)),以及破坏机构稳定的目的,尤其是政府,尽管最初往往是间接地破坏认识机构的稳定,如新闻媒体组织和大学。重要的是,认知战能够利用新的公共传播渠道,如社交媒体,而民众对社交媒体的依赖性已与日俱增。此外,与传统的意识形态竞争(如冷战期间苏联与西方之间的意识形态冲突)相比,认知战的每个主角都有一个试图 "推销 "的思想体系或准体系,而认知战最初也非常注重通过强调现有差异和宣传极化观点(如宣传极左翼和极右翼观点),在目标人群中播下分裂和破坏合作的种子。简而言之,认知战争大量使用计算宣传。
众所周知,社交媒体平台的出现以及相关的网络技术,如算法和自动化软件(如模仿真人的机器人),都是认知战的重要组成部分、 众所周知,社交媒体平台和相关网络技术的出现,如算法和自动化软件(如模仿真人的机器人),使各种行为者传播虚假信息、错误信息、阴谋论、仇恨言论和宣传的数量呈指数级增长(Cocking & van den Hoven, 2018),这些行为者包括公民个人、单一问题压力团体、右翼和左翼极端主义团体、恐怖组织、犯罪组织,在某些情况下,如俄罗斯,还包括政府。按照伍利和霍华德(2019 年,第 4-5 页)的说法,将后一种为政治议程服务的现象称为计算宣传。计算宣传的一个特点是有助于形成回声室,在回声室中,用户接触到的信息会强化他们自己的观点。因此,社交媒体算法会调整用户接触到的内容,从而形成过滤泡沫。因此,个人用户被隔离在各种观点之外,主要接触与自己观点相似的用户。这就强化了用户的观点,而忽略了与之竞争的观点和可能对用户观点提出质疑的信息,从而导致 "硬"观点的增加,这种观点是不可修改的。其结果是削弱了以证据为基础的讨论,政治话语两极分化,助长了未经证实的极端主义观点(D'Alessio,2021 年)。
需要将认知战与网络战争、非战争状态的网络冲突、网络恐怖主义、网络犯罪、网络间谍以及所称的隐蔽认知战--一种隐蔽行动(Miller, 2016a; Miller & Bossomaier, 2023)等类别(有时相互重叠)区分开来。虽然网络犯罪这一类别目前已在法律中得到确立,但其他一些类别尚未确立,或者说,至少它们是否已得到令人满意的详细阐述还存在争议。具体而言,在战争概念方面存在一个问题或一系列问题,因为它可能适用于也可能不适用于网络冲突,包括认知战争。
关于这些不同类别之间的区别,需要区分四种伤害或损害。首先是对人本身造成的伤害(身体或心理伤害)。这里的心理伤害应从广义上理解,包括欺骗性或操纵性地诱导错误的信念或不必要的情感态度,以破坏自我管理。第二,对建筑物、信息和通信技术硬件及其他人类手工艺品(以及支持个人和集体人类生活的自然环境)造成的损害。第三,正如迪佩尔特(2010:384)所指出的,存在网络 "损害"(或者用术语来说是 "软损害"),例如对软件和数据的损害(相对于有形的信息和通信技术硬件本身而言)。第四,机构损害或伤害;即对机构程序和宗旨的破坏,例如安全机构的重大泄密事件,机构对领土控制的丧失。在这方面应该指出,破坏特定的机构程序和目的可能是为了破坏机构本身,特别是如果机构行为者本身或其服务对象的信念和态度成为攻击目标,例如,如果他们对机构的信任受到削弱,例如,在 2020 年总统选举中美国选举机构的情况。认知战的主要重点是第一种伤害,更具体地说是心理伤害,以及第四种伤害,即机构伤害或损害。
有鉴于此,是否应将认知战理解为战争、战争之外的一种冲突或秘密行动(或两者的某种组合)?
这里要提出的第一点是,认知战争所特有的上述两种伤害(心理伤害和制度伤害)虽然本身通常不被认为是战争的决定性因素,但至少在理论上可能有一个门槛,在这个门槛上可以适当地使用 "战争 "一词。与此相关的是,这两种伤害可能有一个门槛,在这个门槛上,发动动能战争可能在道义上是正当的。此外,即使造成的其他伤害/损害(即对人类本身造成的身体伤害程度和对有形财产的破坏程度等)不构成战争,也可能达到战争所确定的心理或制度伤害/损害的门槛。同样,即使所造成的其他种类伤害/损害的程度没有达到使战争正当化的心理或制度伤害/损害的门槛,也可能达到这一门槛。此外,心理和制度上的伤害/损害可能也有临界点,在这个临界点上,战争之外的严重破坏或有害反应在道义上,或许在法律上,都是合理的。这种反应可能包括经济制裁等;但也可能包括各种形式的秘密政治行动,特别是秘密认知战(下文将详细介绍)。
有些人声称,网络战争是与常规战争,特别是核战争并列的一种独特的新战争类别。以此类推,也可以说认知战争是一种独特的新战争类别,尽管鉴于其基于网络的 "攻击 "的性质,认知战争显然与网络战争重叠。然而,这两种说法都值得商榷。粗略地说,常规战争必然涉及 "杀人和毁物",以夺取和控制领土(在自卫战争中最终是自己的领土)。然而,无论是网络冲突还是认知战争,都不一定涉及这些事情。但也许网络战争是网络冲突的一种,涉及有组织的团体参与一系列持续的网络攻击,在这些攻击中,关键基础设施遭到大规模破坏,导致大量人员伤亡,例如,许多网络攻击中的一次在寒冬中破坏了电网的物理组件,间接导致大量人员死亡。以此类推,认知战争也许是网络空间冲突的一种,在这种冲突中,有组织的团体持续不断地制造虚假信息、进行宣传和使用操纵技术,以控制网上言论和诋毁政治对手(包括以毫无根据的说法破坏他们的声誉),并以弱势群体(如精神失常者)为微观目标,破坏政治体制,最终可能导致大范围的暴力叛乱和现有政治秩序的崩溃。
当然,除此之外,当代环境下的常规战争也会使用网络武器,更广泛地说,它还具有重要的网络维度。例如,2022 年 2 月俄罗斯入侵乌克兰。它涉及一系列广泛的网络攻击,包括对乌克兰银行和政府部门的攻击(Alazab,2022 年)。然而,可以说,在一场常规的动能战争中,网络层面必须成为主导层面,战争才能被合理地描述为网络战争。此外,当代环境下的常规战争,包括当前俄罗斯对乌克兰发动的战争,都有一个重要的认知战维度。根据等价推理,可以说,在一场原本常规的动能战争中,认知战维度必须成为主导维度,战争才能被合理地描述为认知战。
然而,可以说,至少到目前为止,认知战还没有上升到被合理定性为战争的冲突门槛;相反,它所包含的活动被更恰当地定性为非战斗冲突(相对于非战斗兵力)。当然,认知战争实际上并没有导致大规模的 "杀人毁物"(即使它有可能这样做,尽管是间接的);也没有导致占领和控制领土。此外,迄今为止,认知战争还没有导致体制遭到破坏,以至于民族国家的政治秩序被推翻。因此,认知战(以及更广泛的基于网络的冲突(Miller, 2019; Miller & Bossomaier, 2023))或许更适合被视为一种非战争状态的冲突(Galliott, 2019; Gross & Meisels, 2017; May, 2017)--或者说是常规战争的一种辅助手段。认知战除了具有非动能特征外,还经常发生在各方公认的和平时期,例如俄罗斯对 2020 年美国总统大选的干预。此外,认知战的许多事例可被恰当地视为秘密行动的一种。考虑一下这一建议。
民族国家对其他民族国家发动认知战的一个问题是所谓的归属问题;网络攻击也存在这个问题,尽管网络取证技术的发展明显缓解了这一问题(Lucas, 2013, p. 371; Office of the Director of National Intelligence, 2018; Rowe, 2013, p. 401)。与常规战争中的大多数攻击不同,或者说,与常规的攻击或盗窃犯罪不同,此类敌对活动存在一个重大的认识论问题:可靠的责任归属问题,以及反过来说,有罪的攻击者否认责任的可信度问题(至少,如果这些攻击不是作为常规战争的一部分进行的--因为在后一种情况下,他们可能不会否认)。由于网络空间中的行为体通过间接途径密集地相互联系在一起,因此往往很难确定这种敌对认知活动的来源,甚至很难知道这不仅仅是普通公民在进行政治交流时的表达,尽管这种交流消息不灵通,而且充斥着意识形态。
由于存在归属 "问题",因此否认的可信度也很高,再加上被攻击的自由国家对传播自由的承诺,这使得认知战成为专制民族国家在避免直接战争(实际上是避免使用致命兵力甚至胁迫性兵力)的同时破坏自由国家的一种极为有用的战略。实施认知战的民族国家通常会采取历史悠久的秘密行动战略,有时也被称为秘密政治行动(约翰逊,2021 年)。从历史上看,秘密政治行动的策略包括暗杀 "敌 "国的政治领导人、在战场外定点清除恐怖分子头目、资助政变和其他叛乱运动,还包括通过散布虚假信息和宣传、部署挑衅者等手段破坏 "敌 "国的稳定(Perry,2009)。
秘密政治行动通常是非法的,但也许不一定,至少在其所针对的民族国家中是非法的,即使在国际法中也是如此。这是秘密政治行动不公开进行的原因之一,尽管至少在和平时期进行的秘密政治行动中,这可能不是主要原因。战争之外的秘密政治行动虽然可能涉及杀戮和破坏财产,但其目的通常是为了避免战争,或至少是避免动能战争;此类秘密政治行动的全部意义在于削弱敌国,或保护自己不被削弱,同时似是而非地否认自己正在这样做,从而避免直接(动能)战争。因此,在核战争阴影笼罩下的冷战时期,秘密政治行动是苏联和美国都青睐的策略,或者说,俄罗斯在对美国采取侵略姿态时对其青睐有加,如最近利用剑桥分析公司(Cambridge Analytica)干预美国大选的事件就表明了这一点,这绝非偶然。
最合适的道德范畴或哲学传统中的一般描述是所谓的 "肮脏之手"。隐蔽政治行动是典型的 "脏手 "范例(尽管许多 "脏手 "行动显然不属于隐蔽政治行动);为了实现某种假定的更大道德利益(就隐蔽政治行动(包括隐蔽认知战争)而言,是为了实现相关民族国家的更大道德利益(假定)),而去做在道义上是错误的(而且通常是非法的)事情。民族国家的这一更大道义利益大概就是国家安全(而不是国家利益,后者在某些情况下客观上可能并不是一种利益,例如征服外国)。脏手行为在道德上的等同错误通常包括以下事实:(1) 故意对无辜者造成严重伤害;或 (2) 故意对有过错的人造成严重伤害,但伤害与他们的过错严重不相称;和/或 (3) 违反道德上合理的法律。脏手 "行动的典型例子是对恐怖主义嫌疑人实施酷刑以获取信息,以及在和平时期对外国政府的可疑武器设施进行非法网络攻击,如对伊朗核设施的 Stuxnet 攻击。请注意,在 "肮脏的手 "的情况下,"肮脏的 "行动在道德上可能是合理的,也可能是不合理的。无论如何,"肮脏 "行动都是一种法律或道德上的错误,受到严重伤害的人受到了伤害,至少其合法权利受到了侵犯。事实上,既然如此,"脏手 "行为通常是非法的。既然如此,就产生了一个重要问题,即如何追究那些在自由社会中从事秘密政治行动的人的责任(Regan & Poole, 2021)。
在此,重要的是要将 "脏手 "行动与合法的、道德上合理的但仍然有害的行动区分开来。据推测,士兵在战时的致命行为和其他有害行为,只要符合正义战争理论(诉诸战争权和战时法),就不是 "脏手 "行为。警察的有害行为(如使用强制兵力实施逮捕)只要符合法律规定的、社会公认的、客观上正确的道德原则,也不属于脏手行为(米勒,2016a,2016c)。
如果这一观点是正确的,那么隐蔽的政治行动,也就是隐蔽的认知战争,就对标准执法模式和正义战争理论提出了特别的挑战。一方面,根据定义,隐蔽认知战争(或多或少)是战争之外的有害行动;其存在的理由通常是在不引发战争的情况下伤害 "敌 "国,尤其是在核大国的情况下,避免引发核战争。此外,就国家安全而言,其职权范围可能比从民族国家的领土完整和政治独立角度理解的国防更为广泛。因此,适用正义战争理论有些不妥;它在很大程度上失之偏颇。
另一方面,根据定义,隐蔽的认知战争(或多或少)是非法的(至少在其所针对的民族国家)。因此,从道义上讲,人们强烈反对使用这种手段。然而,由于下文阐述的原因,在某些场合和某些领域,例如自由安全机构对参与无理认知战的有罪专制国家行为者的对等打击(下文将详细阐述),使用认知战似乎在道义上是合理的。此外,(显然)其存在的理由并不是执法,就像执法机构开展的警务工作一样。因此,"执法 "模式的应用在很大程度上没有触及问题所在;问题在于许多秘密的政治行动,因而也是秘密的认知战,尽管是非法的,与执法活动不一致,或至少是不协调,但在道义上显然是正当的。
在战争、经济萧条、大流行病和其他灾难已经造成不稳定影响的情况下,或者在已经存在两极分化社会的情况下,如英国脱欧、全球金融危机后的美国或以色列/阿拉伯冲突后的中东,认知战可能会更成功。因此,俄罗斯抓住 COVID 大流行的机会,加大了认知战的行动力度,例如向美国民众宣传各种阴谋论。同样,俄罗斯利用剑桥分析公司(Cambridge Analytica)在美国总统选举中挑拨。此外,基地组织和 "伊斯兰国 "等恐怖组织也利用认知战技术,在各个国家招募心怀不满的青年加入他们的事业,更重要的是,通过让他们的 "敌人 "反应过度来挑拨离间,就像 9/11 双子塔爆炸案一样,事实证明,基地组织在知名度、在心怀不满的穆斯林中的声望等方面都取得了巨大成功。
重要的是要明白,认知战争是在已经存在的社会、制度和技术背景下发生的,在这些背景下,假信息、错误信息、阴谋论、宣传、仇恨言论等的大规模扩散已经产生了破坏稳定的影响,其中大部分并非出于明确的政治目的(尽管可能无意中达到了这样的目的)。
一方面,还需要区分计算宣传(如虚假信息、意识形态/准意识形态/群体思维和仇恨言论),其内容明确或含蓄地表达了传播者的政治意识形态,(如 另一方面,计算宣传的内容并不如此表达,例如,俄罗斯国家官员向美国受众传播反疫苗阴谋论或美国右翼民族主义准意识形态,以挑拨美国关系。
认知战的出现带来了相当大的挑战,尤其是对致力于伦理或道德(交替使用这些术语)价值观和原则的自由国家而言,如传播自由、民主进程、法治、以证据为基础的真相说明等。因此,虽然有必要遏制虚假信息,但同时也要求在不损害传播自由的情况下这样做。同样,有必要打击参与认知战的国家,但自由国家通过散布自以为是的虚假信息或试图操纵专制国家的公民来达到这一目的是有问题的。另一个问题涉及责任。鉴于认知战争的性质,除了政府和安全机构之外,还需要各种机构承担起打击认知战争的责任,例如,承担起建设抵御虚假信息、意识形态和操纵技术的责任。这些责任到底是什么,应该分配给哪些机构?笼统地说,包括政府、安全机构、媒体组织以及学校和大学等教育机构在内的多个机构(或至少是其成员)应承担集体责任(可理解为共同责任(Miller, 2006, 2016b, Ch. 5))。
在其他地方,提出了一系列打击计算宣传的对策(Miller, 2020; Miller & Bossomaier, 2023)。这些措施包括:
政府颁布法律,要求 Facebook 和 Twitter 等大众社交媒体平台为其平台上的煽动和仇恨言论等非法内容承担法律责任。
对大众社交媒体平台实行强制许可制度,许可的条件是其平台上的内容必须符合由政府设立的独立法定机构(如澳大利亚电子安全专员办公室)确定和裁定的最低认识和道德标准。
尽管如此,如果合法内容不符合这些最低认识和道德标准(例如,由于明显虚假),并且被人为(例如,通过机器人)或以其他方式非法放大,社交媒体平台有责任删除这些内容,但只能根据上述独立法定机构的裁决(公开透明)进行删除。
法律规定,大众社交媒体平台的账户持有者必须在独立法定机构注册,然后由该机构发放唯一的身份标识,但必须在核实账户持有者的身份(如护照、驾照等)后方可发放。
在大众媒体公共传播渠道上传播具有政治意义的内容(包括但不限于对国家安全有影响的内 容),并拥有大量受众(如超过 100 000 名追随者)的传播者,在法律上必须公开其身份 (其他条件不变)。
这些措施都与认知战争有关。然而,这些措施并不足以打击从事认知战的敌对国家(而且,如果不重新设计认识论机构,这些措施可能也不足以打击其他环境中的计算宣传)。关于自由国家为打击参与认知战的敌对国家(如俄罗斯针对乌克兰的计算宣传活动)而应采取的措施。
在这里,需要区分微观层面的人际言论(如约翰-布朗在街角对玛丽-史密斯讲话)和利用大众媒体传播渠道的宏观层面的言论。还需要区分这种宏观层面的言论的两种形式。首先是通过大众媒体公共传播渠道向大量受众发表的宏观社会导向性言论。例如,CNN 的新闻广播和美国前总统唐纳德-特朗普在 Twitter 上的传播。这些传播的受众数以百万计,而且这些传播来自受众成员所熟知的单一已知来源。此外,重要的是,这些传播都是公开的,因为所有上述信息都是传播者和受众成员共同知晓的。因此,每个传播者和受众都知道信息来源是谁,传播内容是什么,也知道受众中的其他人都知道这些,也知道其他人都知道这些,以此类推。
其次是宏观层面的、基于个人资料的、有针对性的、通过大众媒体渠道向数百万人发表的、表面上是私人交流的言论。这种宏观层面的言论可能涉及使用机器人向选定的个人发送数百万封电子邮件,而这些人并不一定知道同样的通信正发送给数百万个收件人,而且(至少最初)是由单一来源发送的。) 这种形式的宏观言论受到计算宣传者的青睐,如剑桥分析公司。
显然,正如其他地方所论证的(Miller, 2020; Miller & Bossomaier, 2023),通过表面上私人交流的大众媒体渠道向数百万人发表基于个人资料、微观目标的宏观言论,并没有道德权利。事实上,恰恰相反,政府在道义上有义务打击此类言论(包括诉诸上文总结的手段)。然而,事实也将证明,外国人并没有道德权利对国内公民发表宏观层面的社会导向性言论,这对禁止俄罗斯大众媒体频道(如今日俄罗斯)等具有影响。因此,要为大卫-斯洛斯(David Sloss)倡导的政策提供理由,即取缔今日俄罗斯和类似的大众媒体渠道(斯洛斯,2022 年)。在此之前,需要进一步明确 "社会导向型言论"(Miller, 1994, 2001, 2010)的概念;这是一种公共传播形式。
社会导向型演讲是指演讲者以社会成员的身份向社会其他成员发表演讲(在上述讨论的意义上公开发表演讲)。在这里,"社群 "可以松散地理解为一个社会团体。因此,它可以是一个小的地方社区,也可以是一个大的国家社区,甚至是国际社区;它还可以是一个学术界、商界或政界社区(这只是对该术语的松散意义上的社会群体的几个例子)。社会导向性言论的例子包括英国首相发表全国讲话,安东尼-福奇博士在美国有线电视新闻网(CNN)上对美国民众说他们应该接种疫苗,以及一名被当地警方杀害的黑人的母亲呼吁在她所在的城市举行非暴力示威活动以示回应。
那么,通过大众媒体的公共传播渠道向数百万人发表社会导向性言论,即发表宏观层面的社会导向性言论的所谓道德权利又是什么呢?至少在原则上,公民 A 作为 A 的政治群体的成员,有向 A 的政治群体的其他成员发表言论的道德权利。这是一种自由权,因为如果一个人在某一时刻行使这一权利,那么其他人可能就无法行使,事实上,即使在相当长的一段时间内,可能也不是每个人都能行使这一权利;公民太多了,不可能做到这一点。更具体地说,在现代大众社会中,行使这一自由权利需要利用大众媒体的公共传播渠道。但是,虽然大众传媒渠道使大众受众成为可能,每个人都可以成为大众受众的一员,但大众传媒渠道并不能使大众演讲者成为大众受众的演讲者。即使在原则上,也不可能让每个人,甚至是大多数人都成为大众受众。只有少数人才能成为大众传播者;公民人数太多,公共传播渠道太少,不可能人人都成为大众传播者。因此,在这里和在其他地方一样,需要有一个公平的程序来管理这一自由权利;而这一公平的程序可能很难找到。然而,如果是外国行为者试图向本国以外的国内受众进行传播,就没有必要确定这样的公平程序,因为这样的外国行为者并不拥有相关的自由权。因此,俄罗斯国家行为体(以及更广泛意义上的俄罗斯公民)并不拥有向美国公民就重大政治问题进行宏观交流的道德权利(具体而言,即自由权利)。同样,美国国家行为者(以及更广泛意义上的美国公民)也不享有就重大政治问题与美国公民进行宏观交流的自由权利。
当然,外国行为者也无权向本国受众以外的其他国内受众进行社会定向传播。毕竟,鉴于他们不是相关社区的成员,他们无法参与上述定义的社会导向行动。然而,有人可能会认为,外国国家行为者在使用大众传播渠道向其国内受众以外的其他国内受众公开传播方面拥有不那么严格(比向其国内受众成员进行社会定向传播的权利更不严格)的自由道德权利。外国国家行为者(如俄罗斯国家行为者)行使这种宏观层面的道德权利(假设存在的话),将取决于有关国内受众(如美国公民)是否准备倾听有关传播;也就是说,美国公民没有倾听的道德义务。在此,需要再次援引共同权利的概念。
与上述观点一致,假定,一个政治共同体的成员作为该共同体的成员,有一项共同的道德权利来倾听那些无权通过大众传媒公共传播渠道向他们发表社会导向性言论的发言者的言论。因此,美国公民拥有在 "今日俄罗斯 "节目中收听俄罗斯国家行为者讲话的共同权利。请注意,作为一项共同权利,它将被共同行使;也就是说,任何一个单独行动的公民都没有这样的权利。然而,这种共同权利也包含不这样做的共同权利。因此,美国公民拥有共同的道德权利,可以禁止外国国家行为者使用大众媒体的公共传播渠道,包括社交媒体,向他们即美国公民公开传播具有政治意义的信息。与公民成员的其他共同权利一样,这一共同权利可由公民选举的代表公民行使。简而言之,自由政府(如美国政府)有道义上的权利禁止外国行为者利用大众媒体传播渠道向有关自由国家的公民公开传播具有政治意义的信息,而且,如果有关传播包含计算宣传等内容,则可能有道义上的义务这样做。事实上,如果有关外国参与了认知战争,那么就有明确的道德义务来实施此类禁令。因此,同意斯洛斯(Sloss,2022 年,第 6 章)的观点,即俄罗斯等国家行为者在 Facebook、Twitter 和其他 "大科技 "上的账户应被撤销,因为这些行为者参与了与自由国家的认知战,特别是参与了旨在破坏自由国家关键机构的计算宣传活动。
必须指出的是,上述关于宏观层面、社会导向、具有政治意义的言论的共同道德权利与社区每个成员通过非大众媒体公共传播渠道的传播渠道倾听外国国家行为者的微观层面的人际权利是一致的。因此,上述禁令不适用于俄罗斯境内的俄罗斯公民与美国境内的美国公民之间的微观交流。另一方面,这种微观层面的人际权利并非绝对权利。与大多数(如果不是全部)道德权利一样,它在某些条件下可以被推翻。然而,从本质上讲,它是人类进行自由言论的基本自然道德权利,因此,存在着反对侵犯这一权利的强烈推定;这一推定只能被具体而重要的道德考虑因素所推翻,而不能被全面的国家安全诉求等因素所推翻。
迄今为止,一直在关注针对认知战的防御措施。现在是考虑进攻性措施的时候了。当然,在自卫的大背景下,针对攻击者的非动能攻击性措施(假设它们可能有效)是有理由遵循互惠原则的(Miller, 2016a, 2016b, 2016c; Miller & Bossomaier, 2023)。
假设有关的进攻措施是非动能的。如果是这样,而且这些措施针对的是有过错的攻击者,那么可能会认为,除了有效性的可能性以及遵守互惠原则的可能性之外,几乎没有任何限制(如果有的话)。如果敌国的某些成员正在散布虚假信息、宣传、意识形态和仇恨言论,并通过计算宣传和其他操纵手段来达到这一目的,那么捍卫者在道义上也有权这样做,至少如果目标受众是敌国的有罪成员的话。也许是这样。然而,在这一点上马上就会出现两个问题。
首先,这些非动能措施可能具有动能战争所特有的致命或其他动能效果。例如,传播虚假信息、宣传和仇恨言论的目的是煽动暴力。更一般地说,认知战技术的使用不能脱离其动能效应,当然也不能脱离其预期的动能效应。毕竟,参与认知战的全部意义最终在于改变行为。
其次,许多非动能措施如果只针对有罪的攻击者,就不会有效。例如,宣传(部分)包括旨在削弱敌方战争努力(在动能战争的总体背景下)的虚假信息;目标显然是全体平民。此外,在认知战中适用有罪责/无罪责的区分是有问题的,当然也不符合正义战争理论家和其他人在动能战争中使用致命兵力时所依据的相对明确的战斗人员/非战斗人员的区分。
在认知战争中适用有罪/无罪/有罪的区别是有问题的,因为,举例来说,一个专制国家的安全部队正在参与认知战争,该国家的许多平民成员可能会支持认知战争,但这只是微弱的支持,他们口头上向朋友和家人表示支持,除此之外没有任何影响力,也没有提供任何物质支持。此外,在这样做的过程中,他们自己也可能不知不觉地成为相关专制国家虚假信息和操纵性宣传的受害者。既然他们是这种意义上的受害者,也许他们并没有真正的罪责。但是,如果是这样的话,在实践中又该如何将他们与那些只是完全了解其安全机构所使用的虚假信息和操纵性宣传手段并在口头上赞同使用这些手段的公民区分开来呢?后一类人是有罪的(或比前一类人更有罪),但实际上却无法与前一类人区分开来。
将在动能战争背景下进行的认知战与在 "和平时期"(即在没有动能战争的情况下)进行的认知战区分开来。因此,自 2022 年 2 月俄罗斯入侵乌克兰以来,乌克兰和俄罗斯在动能战争的背景下展开了一场认知战争。相比之下,俄罗斯对美国发动了某种程度的认知战争,例如,它试图干涉美国总统选举,并在更大范围内挑拨离间,但这并不是在俄罗斯对美国发动动能战争的背景下进行的。可以说,在后一种情况下,即一个自由国家在 "和平时期 "发动一场道义上合理的(假定的)认知战争,诉诸有害的进攻性认知战争措施,将目标对准敌对国家中不可定罪(或至少罪责小得多)的成员,不仅没有必要,而且至少在中长期内可能会适得其反。相反,以下三方面的措施组合可能就足够了:(1) 基本上是防御性的认知措施,例如 实施上述打击计算宣传的措施,包括禁止敌对国在防御国的公共传播渠道上进行宣传;(2) 针对敌对国的虚假信息、宣传和操纵性使用制定反叙述,但反叙述本质上不是虚假或操纵性的,因此不是有害的攻击性措施; (3) 酌情针对 "敌 "国的罪责成员采取有害的攻击性措施,例如:(a) 在 "敌 "国的领土上进行攻击;(b) 在 "敌 "国的领土上进行攻击;(c) 在 "敌 "国的领土上进行攻击。
那么,在动能战争(或可能是动能战争的威胁)背景下开展的认知战又是什么呢?鉴于动武战争的利害关系远大于纯粹的认知战争,而且利害关系就在此时此地,因此需要放宽限制,避免对交战国中不可定罪的成员使用有害的攻击性措施。(如上所述,假定一个自由国家的视角来决定其对敌对国家在道义上不合理地使用认知战争的反应,尽管这一次是在动能战争的背景下(由自由国家对敌对国家,实际上是交战国,正义地发动战争))。在这一点上,必要性和相称性的一般原则具有明确的适用性。此外,在这种动能战争的背景下,适用于使用认知战争方法的有罪/无罪区分就不那么有说服力了。在这方面,它类似于与动能战争密切相关的道德和法律歧视原则。根据 "区别对待 "原则,非战斗人员不能成为蓄意攻击的目标,但如果军事行动符合 "军事必要性 "原则,而且根据 "相称性 "原则,非战斗人员在军事行动中被非蓄意杀害的人数不致过多,则允许非战斗人员在军事行动中被非蓄意杀害。然而,正如在上文所看到的,如果对非战斗人员或以其他方式划定的无辜(即不可定罪的)平民造成的预期伤害不是死亡或严重身体伤害,那么歧视原则(或相关原则)的作用就小得多,因为在使用认知战争技术的情况下,这种伤害很可能不是死亡或严重身体伤害。因此,在某些情况下,例如,如果没有直接或间接造成死亡或严重人身伤害(或没有不成比例地造成死亡或严重人身伤害--见下文),通过传播虚假信息、宣传和/或仇恨言论故意伤害不可定罪的公民在道义上可能是正当的。
(1) 使用有关认知战技术(假定其本身在道义上是错误的)所造成的伤害的性质,如 (2) 使用有关认知战手段是有效的,而且没有比它更有效、危害性更小(从各方面考虑)的手段来实现它所服务的道德上重要的军事或政治目的; (3) 使用道德上错误的手段及其造成的伤害,与该手段最终实现的军事或政治目的所具有的道德分量相比,并不是不相称的。
最后一点涉及到在发动正义动能战争的背景下使用认知战争技术可能导致的不可定罪公民的死亡或重伤。如果这些死亡或重伤不是有意造成的,那么诉诸必要性和相称性原则,使用有关认知技术在道义上可能是合理的。这与战斗人员根据必要性、相称性和区别对待原则使用致命兵力无意杀害不可定罪的公民(或至少是非战斗人员)在道义上是合理的。另一方面,如果非可判罪公民的死亡或重伤是有意为之,则很可能违反歧视原则。然而,在后一种情况下,如果涉及有意造成的死亡或伤害,很可能会因两个因素而产生道德问题。首先,这些认知技术的使用与所造成的死亡或严重伤害之间存在间接(因果)关系。其次,那些直接造成严重伤亡的人本身必须对这些伤亡承担一定的(也许是全部的)道义责任,尽管他们的行为在一定程度上是基于那些将他们作为认知战技术目标的人所诱导他们的信念和其他态度,其目的是让他们的目标也这样做。可以说,在这类情况下,存在着共同的道德责任(米勒,2001 年,第 8 章,2006 年,2016b,第 5 章);认知战技术的使用者及其目标在道德上对由此造成的不可定罪公民的伤亡负有共同责任。成功使用认知战争技术来煽动对不可治罪的公民实施暴力就是一个例子。
本文对认知战进行了描述,发现认知战要么是动能战争的一个非动能层面(如俄罗斯人在 2022 年入侵乌克兰时使用的认知战),要么是一种非战争冲突,最重要的是,是一种秘密行动,即隐蔽的认知战(无论是在战争中还是在和平时期进行)。此外,还概述了一系列在道义上有正当理由的打击认知战的防御措施,并根据针对敌国不可定罪成员的问题,提出了支持采取有限制的进攻措施来打击认知战的论点。
本文提供了对多模态基础模型的分类和演变的全面综述,这些模型展示了视觉和视觉-语言能力,重点关注从专家模型到通用助手的转变。研究范围涵盖了五个核心主题,分为两类。(i) 我们从对既定研究领域的调查开始:为特定目的预训练的多模态基础模型,包括两个主题 - 学习视觉基础架构的方法,用于视觉理解和文本到图像生成。(ii) 然后,我们介绍了探索性、开放性研究领域的最新进展:旨在担任通用助手角色的多模态基础模型,包括三个主题 - 由大型语言模型(LLMs)启发的统一视觉模型,多模态LLMs的端到端训练,以及将多模态工具与LLMs链接。本文的目标读者是计算机视觉和视觉-语言多模态社区的研究人员、研究生和专业人士,他们渴望了解多模态基础模型的基础知识和最新进展。
视觉是人类和许多生物感知和与世界互动的主要渠道之一。人工智能(AI)的核心愿望之一是开发能够模仿这种能力的AI智能体,以有效地感知和生成视觉信号,从而推理和与视觉世界互动。例如,识别场景中的对象和动作,以及为交流创建素描和图片。建立具有视觉能力的基础模型是一个旨在实现此目标的普遍研究领域。
在过去的十年中,AI领域在模型的开发中经历了丰硕的轨迹。我们将它们分为图1.1所示的四个类别。这个分类可以在AI的不同领域中共享,包括语言、视觉和多模态。我们首先使用自然语言处理中的语言模型来说明演变过程。(i)在早期,为各个数据集和任务开发了特定任务的模型,通常是从头开始训练的。(ii)通过大规模的预训练,语言模型在许多已建立的语言理解和生成任务上实现了最先进的性能,例如BERT(Devlin等,2019)、RoBERTa(Liu等,2019)、T5(Raffel等,2020)、DeBERTa(He等,2021)和GPT-2(Radford等,2019)。这些预训练的模型为下游任务适应提供了基础。(iii)由GPT-3(Brown等,2020)举例,大型语言模型(LLMs)将各种语言理解和生成任务统一到一个模型中。随着网络规模的训练和统一,出现了一些新的能力,如上下文学习和思维链。(iv)伴随着人工智能对齐的最新进展,LLMs开始扮演通用助手的角色,遵循人类的意图,完成广泛的语言任务,例如ChatGPT(OpenAI,2022)和GPT-4(OpenAI,2023a)。这些助手展示了有趣的能力,如交互和工具使用,并为开发通用AI智能体奠定了基础。重要的是要注意,最新一代的基础模型在提供额外功能的同时,也借鉴了其早期版本的显著特性。
**受到NLP中LLMs的巨大成功的启发,计算机视觉和视觉-语言社区的研究人员自然会问:ChatGPT/GPT-4在视觉、视觉-语言和多模态模型方面的对等物是什么?**毫无疑问,自从BERT诞生以来,视觉预训练和视觉-语言预训练(VLP)越来越受到关注,并已成为视觉的主流学习范式,承诺学习通用的可迁移的视觉和视觉-语言表示,或生成高度可能的图像。可以说,它们可以被视为多模态基础模型的早期生成,就像BERT/GPT-2对语言领域一样。虽然建立像ChatGPT这样的语言通用助手的路线图很清晰,但研究社区越来越需要探索建立计算机视觉的对等物:通用视觉助手的可行解决方案。总的来说,建立通用智能体一直是AI的长期目标。具有新兴属性的LLMs已显著降低了为语言任务建立此类智能体的成本。同样,我们预见到视觉模型将展现出新的能力,例如遵循由各种视觉提示组成的指令,如用户上传的图像、人类绘制的点击、素描和遮罩,除了文本提示。这样强大的零样本视觉任务组成能力可以显著降低建立AI智能体的成本。
在这篇文章中,我们将多模态基础模型的范围限制在视觉和视觉-语言领域。相关主题的最新综述论文包括:(i) 图像理解模型,如自监督学习(Jaiswal等,2020;Jing和Tian,2020;Ozbulak等,2023),切分任何东西(SAM)(Zhang等,2023a,c);(ii) 图像生成模型(Zhang等,2023b;Zhou和Shimada,2023);以及(iii) 视觉-语言预训练(VLP)。现有的VLP综述论文涵盖了在预训练时代之前,针对特定VL问题的VLP方法,图像-文本任务,核心视觉任务,和/或视频-文本任务(Zhang等,2020;Du等,2022;Li等,2022c;Ruan和Jin,2022;Chen等,2022a;Gan等,2022;Zhang等,2023g)。两篇最新的综述论文讨论了视觉模型与LLM的集成(Awais等,2023;Yin等,2022)。
其中,Gan等(2022)是一篇关于VLP的综述,涵盖了2022年及之前的CVPR关于视觉和语言研究的最新进展系列教程。本文总结了2023年CVPR关于视觉基础模型最新进展的教程。与前述主要侧重于给定研究主题的文献回顾的综述论文不同,本文提出了我们对多模态基础模型从专家到大型语言模型时代的通用视觉助手的角色转变的观点。本综述论文的贡献总结如下。
•** 我们提供了一篇全面且及时的现代多模态基础模型的综述**,不仅涵盖了视觉表示学习和图像生成的成熟模型,还总结了过去6个月由LLM启发的新兴主题,包括统一视觉模型,与LLM的训练和链接。 • 本文旨在为观众提供一种观点,推崇在开发多模态基础模型中的一种转变。在特定视觉问题的伟大建模成功的基础上,我们正朝着构建能够按照人类意图完成广泛计算机视觉任务的通用助手迈进。我们对这些高级主题进行了深入讨论,展示了开发通用视觉助手的潜力。
正如Stanford基础模型论文(Bommasani等,2021)所阐述的,AI正随着诸如BERT、GPT家族、CLIP(Radford等,2021)和DALL-E(Ramesh等,2021a)这些模型的兴起而经历一场范式转变,这些模型经过广泛的数据训练,可以适应各种下游任务。他们将这些模型称为基础模型,以强调它们在核心上的关键性但不完整的特性:研究社区的方法论的同质化和新能力的出现。从技术角度来看,使基础模型成为可能的是迁移学习,使它们变得强大的是规模。基础模型的出现主要观察到在NLP领域,范例包括从BERT到ChatGPT。这一趋势在近年来获得了推动,扩展到计算机视觉和其他领域。在NLP中,BERT在2018年底的推出被视为基础模型时代的开始。BERT的显著成功迅速激发了计算机视觉社区对自监督学习的兴趣,催生了如SimCLR(Chen等,2020a)、MoCo(He等,2020)、BEiT(Bao等,2022)和MAE(He等,2022a)等模型。在同一时期,预训练的成功也显著推动了视觉-语言多模态领域达到了前所未有的关注度。
在本文中,我们关注的是多模态基础模型,这些模型继承了Stanford论文(Bommasani等,2021)中讨论的所有基础模型的属性,但侧重于具有处理视觉和视觉-语言模态能力的模型。在不断增长的文献中,我们基于功能和通用性对多模态基础模型进行分类,见图1.2。对于每个类别,我们都展示了一些示例模型,展示了这些多模态基础模型固有的主要能力。
学习通用视觉表示对于构建视觉基础模型至关重要,因为预训练一个强大的视觉主干对所有类型的计算机视觉下游任务都是基础,这些任务范围从图像级别(例如,图像分类、检索和字幕)、区域级别(例如,检测和定位)到像素级别任务(例如,分割)。我们将方法分为三类,取决于用于训练模型的监督信号类型:
标签监督。像ImageNet(Krizhevsky等,2012)和ImageNet21K(Ridnik等,2021)这样的数据集一直受到监督学习的欢迎,更大规模的专有数据集也在工业实验室中使用(Sun等,2017;Singh等,2022b;Zhai等,2022a)。
语言监督。语言是一种更丰富的监督形式。像CLIP(Radford等,2021)和ALIGN(Jia等,2021)这样的模型使用来自网络的数百万甚至数十亿噪声图像-文本对上的对比损失进行预训练。这些模型使得零射击图像分类成为可能,并使传统的计算机视觉(CV)模型执行开放词汇CV任务。我们提倡在野外进行计算机视觉的概念,并鼓励未来基础模型的开发和评估。
仅图像自监督。这一工作方向旨在从图像本身中挖掘出监督信号来学习图像表示,范围从对比学习(Chen等,2020a;He等,2020)、非对比学习(Grill等,2020;Chen和He,2021;Caron等,2021)到遮蔽图像建模(Bao等,2022;He等,2022a)。
多模态融合,区域级和像素级预训练。除了预训练图像主干的方法外,我们还将讨论允许多模态融合的预训练方法,例如CoCa(Yu等,2022a)、Flamingo(Alayrac等,2022),区域级和像素级图像理解,例如开放集对象检测(例如,GLIP(Li等,2022e))和可提示分割(例如,SAM(Kirillov等,2023))。这些方法通常依赖于预训练的图像编码器或预训练的图像-文本编码器对。
最近,由于大规模图像-文本数据的出现,已经构建了基础图像生成模型。使之成为可能的技术包括向量量化VAE方法(Razavi等,2019)、基于扩散的模型(Dhariwal和Nichol,2021)和自回归模型。
基于文本的视觉生成。这个研究领域关注的是生成忠实的视觉内容,包括图像、视频等,这些内容是以开放式文本描述/提示为条件的。文本到图像生成发展了生成模型,这些模型合成了忠实于文本提示的高保真度图像。主要例子包括DALL-E(Ramesh等,2021a)、DALL-E 2(Ramesh等,2022)、Stable Diffusion(Rombach等,2021;sta,2022)、Imagen(Saharia等,2022)和Parti(Yu等,2022b)。基于文本到图像生成模型的成功,文本到视频生成模型基于文本提示生成视频,例如Imagen Video(Ho等,2022)和Make-A-Video(Singer等,2022)。
与人类意图一致的视觉生成器。这个研究领域关注的是改善预训练的视觉生成器,以更好地遵循人类意图。为解决基础视觉生成器固有的各种挑战,已经进行了努力。这些包括改善空间可控性(Zhang和Agrawala,2023;Yang等,2023b)、确保更好地遵循文本提示(Black等,2023)、支持灵活的基于文本的编辑(Brooks等
根据自然语言处理(NLP)中的模型发展历史和分类,我们将图1.2中的多模态基础模型分为两类。• 特定目的的预训练视觉模型涵盖了大多数现有的多模态基础模型,包括视觉理解模型(例如,CLIP(Radford等,2021),SimCLR(Chen等,2020a),BEiT(Bao等,2022),SAM(Kirillov等,2023))和视觉生成模型(例如,Stable Diffusion(Rombach等,2021;sta,2022)),因为它们具有针对特定视觉问题的强大可迁移能力。• 通用助手指的是能够遵循人类意图以完成野外各种计算机视觉任务的AI代理。通用助手的含义有两层面:(i)具有统一架构的通用型,可以完成不同类型问题的任务;以及(ii)容易遵循人类指令,而不是替代人类。为此,已经积极探讨了一些研究课题,包括统一视觉建模(Lu等,2022a;Zhang等,2022b;Zou等,2023a),与大型语言模型(LLMs)的训练和链接(Liu等,2023c;Zhu等,2023a;Wu等,2023a;Yang*等,2023)。
• 第1章介绍了多模态基础模型研究的领域,并展示了从专家模型到通用助手的研究历史转变。• 第2章介绍了不同消耗视觉数据的方式,重点关注如何学习一个强大的图像骨干。• 第3章描述了如何生成与人类意图一致的视觉数据。• 第4章描述了如何设计统一的视觉模型,具有交互式和可提示的界面,特别是在没有使用LLMs的情况下。• 第5章描述了如何以端到端的方式训练LLM,以处理视觉输入进行理解和推理。• 第6章描述了如何将多模态工具与LLM链接,以实现新的功能。• 第7章总结了本文并讨论了研究趋势。
第2至6章是本综述论文的核心章节。这些章节的结构概述如图1.2所示。我们首先讨论了两种特定任务的典型多模态基础模型,包括第2章中的视觉理解和第3章中的视觉生成。由于多模态基础模型最初是基于图像骨干/表示学习用于理解任务的,因此我们首先对图像骨干学习方法的过渡进行了全面回顾,从早期的监督方法发展到最近的语言-图像对比方法,并将讨论扩展到从图像级别到区域级别和像素级别的图像表示(第2章)。最近,生成型AI越来越受欢迎,视觉生成基础模型已经得到了发展。在第3章中,我们讨论了大规模预训练的文本到图像模型,以及社区如何利用生成基础模型开发新技术,使它们更好地与人类意图一致。受到自然语言处理领域最新进展的启发,LLMs在日常生活中为各种语言任务提供通用助手,计算机视觉社区一直在期望并尝试构建通用的视觉助手。我们讨论了构建通用助手的三种不同方法。受到LLMs的精神启发,第4章着重于统一不同的视觉理解和生成模型,而无需在建模中明确纳入LLMs。相比之下,第5章和第6章侧重于采用LLMs构建通用视觉助手,通过在建模中明确增加LLMs来实现。具体来说,第5章描述了端到端训练方法,第6章专注于无需训练的方法,将各种视觉模型链接到LLMs。
这篇博客解释了如何训练和微调大型语言模型(LLMs)以创建像Chat-GPT这样的系统。我们将讨论模型的预训练、少样本学习、有监督微调、基于人类反馈的强化学习(RLHF)以及直接偏好优化。我们之前的博客以高层次地介绍了这些观点。在本文中,我们力图让这些概念在数学上更为精确,并提供关于为什么使用特定技术的洞察。
对于本博客的目的,我们将假定大型语言模型是一个变换器解码器网络。解码器网络的目标是预测部分完成的输入字符串中的下一个词。更准确地说,这个输入字符串被划分为令牌(tokens),每一个令牌都代表一个词或部分词。每个令牌被映射到一个相应的固定长度的嵌入(embedding)。代表这个句子的一系列嵌入被送入解码器模型中,该模型预测序列中可能下一个令牌的概率分布(图 1)。下一个令牌可以通过从这个分布中随机抽样来选择,然后将扩展的序列反馈到模型中。通过这种方式,字符串逐渐得到扩展。这个过程被称为解码。请参见我们之前的博客了解其他解码方法。
解码器网络由一系列变换器层组成(图 2)。每一层(图 3)都通过自注意力机制(self-attention mechanism)混合来自令牌嵌入(token embeddings)的信息,并通过并行的全连接网络独立地处理这些嵌入。当嵌入通过网络传递时,它们逐渐融入了更多关于整个序列含义的信息。部分序列中最后一个令牌的输出嵌入通过线性变换和softmax函数映射到后续令牌可能值的概率分布上。有关变换器层和自注意力的更多信息可以在我们之前的一系列博客中找到。
Large language models: 大型语言模型 * Pretraining: 预训练
Masked self-attention: 掩码自注意力 * Is this model useful?: 这个模型有用吗? * Supervised fine-tuning: 监督微调 * Reinforcement learning from human feedback: 从人类反馈中进行强化学习
Reward model: 奖励模型 * Multiple comparisons: 多重比较 * Using the reward model: 使用奖励模型 * Practical matters: 实用问题 * Direct Preference Optimization: 直接偏好优化 * Summary: 总结
在进行因果分析的关键挑战是,确定正确的假设(如因果图)需要大量的手动努力。由于不能仅从数据中学习因果图,领域专家面临着提供并验证潜在因果关系的困难任务。在本次演讲中,我将讨论大型语言模型(LLMs)如何提供到目前为止被认为仅限于领域专家的新功能,例如推断因果关系的方向,识别任何缺失的关系,或验证因果分析中的基础假设。首先,我将展示LLMs在因果图发现方面的成果。基于GPT-3.5和4的算法在多种数据集上表现优于现有算法:涵盖物理学、工程学、生物学和土壤科学等领域的Tuebingen成对数据集(97%,13点增益)、北极海冰覆盖数据集(0.22汉明距离,11点增益)以及医疗疼痛诊断数据集。我们发现LLMs通过依赖如变量名等信息来推断因果关系,这一过程我们称之为基于知识的推理,它与非LLM基础的因果发现是不同且互补的。其次,我将描述这些LLMs的功能如何可以扩展用于因果推断流程中的有用任务:识别任何缺失的混淆变量,建议工具变量,建议可验证因果分析的特殊变量(如负对照),以及关于根本原因归因的推理。与此同时,LLMs展示了不可预测的故障模式,我将提供一些解释它们稳健性的技术,特别是与数据集记忆有关。展望未来,通过捕捉关于因果机制的领域知识,LLMs可能为推动因果推理研究开辟新的前沿,并促使因果方法的广泛采用。
欢迎阅读《掌握生成式AI文本提示:创意、内容创建和问题解决的实用指南》。这本电子书旨在通过实用示例、技巧和信息,为您提供如何利用生成式AI进行各种任务的方法,从讲故事和内容创建,到生成见解和教育材料。随着AI语言模型(如OpenAI的GPT系列)能力的增长,了解如何有效使用这些工具以优化您的工作流程并取得出色成果变得越来越重要。
本电子书分为四个主要部分,每个部分都集中在生成式AI文本提示的特定应用上。每个部分都包含实用示例和技巧,以帮助您入门并充分利用这项技术。
叙述与讲故事 在这个部分中,我们深入探讨创意写作和讲故事的世界。我们探讨生成式AI文本提示如何帮助您构思情节、发展角色和生成引人入胜的对话。这一部分提供的实用示例将引导您完成各种创意写作任务,使您能够利用AI增强您的故事并赋予您的想法生命。
内容创建内容创建是现代通信中的一个重要方面,尤其是在数字时代。在这个部分中,我们探讨生成式AI文本提示如何帮助您创建博客帖子、文章、社交媒体内容和电子邮件模板。所提供的实用示例将演示如何充分利用AI语言模型高效、有效地生成高质量内容。 教育与信息生成式AI文本提示也可在教育和信息背景下成为有价值的工具。在这个部分中,我们涵盖了如摘要、问题和答案生成以及语言翻译等各种应用。所提供的实用示例将演示AI如何协助创建简洁的摘要、生成小问题和翻译文本,在分享知识和促进学习方面更加容易。 技术与专业化最后一部分深入探讨生成式AI文本提示更为技术和专业化的应用。我们探讨代码生成、数据分析见解和科学论文摘要,展示AI语言模型在各个领域的多功能性。所提供的实用示例将展示您如何使用AI生成代码片段、从数据中获取见解以及为科学研究论文创建简洁的摘要。 在整本电子书中,您将找到关于如何充分利用生成式AI文本提示的技巧和建议。这些见解将帮助您在各种任务中有效地使用AI模型,同时注意到潜在的陷阱和伦理考虑。 无论您是寻找灵感的作家,追求效率的内容创建者,还是希望分享知识的教育工作者,或是需要专业应用的专业人士,这本电子书都将为您提供关于生成式AI文本提示世界的宝贵见解。阅读完本指南后,您将充分准备好利用生成式AI增强您的创造力,优化您的工作流程,解决各种问题。
可解释机器学习模型与架构
这本前沿新作涵盖了硬件架构实现、软件实现方法,以及机器学习应用的高效硬件。 机器学习和深度学习模块现在已经成为许多智能和自动化系统的不可或缺的一部分,在这些系统中,信号处理在不同层面上进行。文本、图像或视频形式的信号处理需要在期望的数据速率和准确性下进行大规模数据计算操作。大数据需要更多地使用集成电路(IC)面积,其中嵌入了大量的存储器,这进一步导致了更多的IC面积。电力消耗、延迟和IC面积之间的权衡始终是设计师和研究人员关注的问题。需要新的硬件架构和加速器来探索和实验高效的机器学习模型。许多实时应用,如医疗保健中生物医学数据的处理、智能交通、卫星图像分析和物联网(IoT)启用的系统,在准确性、速度、计算能力和整体电力消耗方面有很大的改进空间。 本书处理的是支持高速处理器的高效机器和深度学习模型,这些处理器具有可重配置架构,如图形处理单元(GPU)和现场可编程门阵列(FPGA),或任何混合系统。无论是在领域或实验室里工作的经验丰富的工程师或科学家,还是学生或学者,这都是任何图书馆必备的。 封底介绍 同前。
关于作者 Suman Lata Tripathi博士是Lovely Professional University的一名教授,拥有超过21年的学术经验。她在审稿期刊和会议上发表了超过103篇研究论文。她组织了几个研讨会、暑期实习和专家讲座供学生参加,并担任了IEEE期刊和会议的分会主席、会议指导委员会成员、编辑委员会成员和审稿人。她已经出版了三本书,并目前有多卷即将由Wiley-Scrivener出版。 Mufti Mahmud博士是英国诺丁汉特伦特大学计算机科学系认知计算副教授。他是NTU研究优秀框架计算机科学与信息学评估单元的协调人,以及交互系统研究小组和认知计算与大脑信息学研究小组的副组长。他还是计算和信息科学研究中心以及医疗技术创新设施的活跃成员。他是众多学会和研究委员会的成员。