随着在安全关键领域应用强化学习(RL)的需求日益增加,迫切需要安全、鲁棒且多功能的RL算法。本论文直接回应了这一需求,引入了一套先进的策略优化算法,旨在克服安全RL面临的关键挑战,从而为更可靠和实用的部署铺平道路。

论文的第一部分集中于提高样本效率和训练稳定性——这是可部署安全RL的关键方面。我们提出了约束变分策略优化(CVPO)方法,该方法将安全RL问题重新定义为两阶段优化过程。这种方法不仅确保了高效且稳定的学习,还提供了强大的性能保证,使其成为实际安全RL应用中安全性和样本效率方面的优越选择。 论文的第二部分深入探讨了可部署RL的关键组成部分——鲁棒性,特别是针对观测扰动的鲁棒性。我们发现,学到的安全策略对隐秘但不安全的行为诱导很脆弱。我们的发现强调了在不利条件下提高安全性的鲁棒对抗训练的必要性。基于此,我们首先引入了一种在策略上的对抗训练流程,然后提出了SAFER,一种从CVPO衍生的离策略方法,有效地在对抗环境中增强了策略的鲁棒性和安全性。

最后,论文通过从静态离线数据集学习,解决了可部署RL的适应性和可扩展性问题。它引入了约束决策变换器(CDT),一种新颖的方法,利用序列建模技术在部署过程中动态调整安全性和任务性能之间的权衡。与CDT同时,论文提出了TAIL,一个可扩展的连续学习训练范式,有效地将预训练模型适应新任务,同时减轻灾难性遗忘和过拟合。

总之,本论文致力于推动安全、鲁棒和可扩展策略优化的界限,朝着在安全关键领域可部署RL迈进。所提出的方法提供了鲁棒、高效和可适应的解决方案,这对RL系统的现实世界部署至关重要。 随着强化学习(RL)继续成熟并扩展其视野,从模拟环境过渡到真实世界的应用,使RL在实际的安全关键领域可部署的重点日益加强。可部署的RL指的是RL系统在复杂、动态且往往是高风险环境中安全、可靠且高效地互动和学习的能力。这包括自动驾驶车辆在城市交通中导航、金融系统执行交易或医疗机器人协助手术。为了使RL可部署,它必须遵守严格的安全、鲁棒性、适应性和可扩展性要求——确保RL代理在多变和不可预测的现实世界条件下表现得当。

可部署RL的基石是安全性。安全强化学习(safe RL)专门通过学习不仅寻求最大化奖励但也遵循预定义安全约束的策略来解决这一问题。这些约束对于防止危险行为和确保RL代理在可接受的风险参数内运作至关重要。安全性不仅仅是一个特性——它是一种基本必需品,支持在不确定性盛行且风险高的现实世界设置中部署RL的整个前提。

然而,仅有安全性并不能保证可部署性。为了让RL从理论过渡到实践,它还必须具备鲁棒性和可扩展性。RL中的鲁棒性指的是策略对环境变化和不确定性的抵抗力,包括在训练期间未遇到的新场景或敌对尝试破坏代理的行为。另一方面,适应性涉及RL算法高效地从大数据集和多样化场景中学习和适应的能力。适应范式还应该是可扩展的,以持续发展并随时间改进其策略。这关乎RL系统在广泛的任务和条件中保持其性能和安全性的能力,不断提高其能力和可靠性。

在这篇论文中,我们专注于推动安全RL的前沿,强调使其可部署。我们通过深入探讨三个相互关联的方面——安全性、鲁棒性、适应性和可扩展性来解决这一挑战,以安全性为核心,将其他方面进行语境化。我们的目标是开发方法论和算法,使我们更接近将RL视为一套理论工具和技术的愿景,而是一套实用、可靠且高效的解决方案,准备好用于真实世界的实施。这种追求是由RL在关键应用中的日益增长的需求和巨大潜力所激发的,推动了对不仅表现出色而且可信和可适应的系统的需求。通过专注于安全RL作为通往可部署RL的途径,我们旨在为将智能、基于学习的系统整合到我们日常生活中的更广泛目标做出贡献,增强能力,并确保安全和福祉。

成为VIP会员查看完整内容
0

大型语言模型(LLMs)由于在各种任务中的卓越表现而受到广泛关注。然而,LLM推理的大量计算和内存需求给资源受限的部署场景带来了挑战。该领域的努力已经朝着开发旨在提高LLM推理效率的技术方向发展。本文提供了对现有文献关于高效LLM推理的全面综述。我们首先分析了LLM推理效率低下的主要原因,即模型规模大、注意力操作的二次复杂度和自回归解码方法。接着,我们介绍了一个全面的分类法,将当前文献按数据级、模型级和系统级优化进行组织。此外,本文还包括了在关键子领域内代表性方法的比较实验,以提供定量洞见。最后,我们提供了一些知识总结并讨论未来的研究方向。

近年来,大型语言模型(LLMs)已经从学术界和工业界获得了大量关注。LLMs领域经历了显著的增长和重大成就。众多开源的LLMs已经出现,包括GPT系列(GPT-1 [1],GPT-2 [2],和GPT-3 [3]),OPT [4],LLaMA系列(LLaMA [5],LLaMA 2 [5],百川2 [6],Vicuna [7],长聊 [8]),BLOOM [9],FALCON [10],GLM [11],和Mistral [12],这些模型被用于学术研究和商业目的。LLMs的成功源于它们在处理各种任务(如神经语言理解(NLU),神经语言生成(NLG),推理 [13],[14] 和代码生成 [15])中的强大能力,从而使得如ChatGPT、Copilot和Bing等应用产生了重大影响。人们日益相信 [16],LLMs的崛起和成就标志着人类向人工通用智能(AGI)的重大步伐。然而,LLMs的部署并不总是顺利进行。如图1所示,LLMs在推理过程中通常需要更高的计算成本、内存访问成本和内存使用率(我们将在第2.3节分析根本原因),这降低了资源受限场景中的效率指标(例如,延迟、吞吐量、能耗和存储)。这为LLMs在边缘和云场景中的应用带来了挑战。例如,巨大的存储需求使得在个人笔记本电脑上部署一个700亿参数的模型用于开发辅助任务变得不切实际。此外,如果LLMs被用于每一个搜索引擎请求,低吞吐量将导致显著的成本,从而大幅降低搜索引擎的利润。

幸运的是,已经提出了大量技术以实现LLMs的高效推理。为了全面理解现有研究并激发进一步的研究,本综述采用了层次分类和系统总结的方法来描述高效LLM推理的当前景观。具体来说,我们将相关研究分为三个层次:数据级优化、模型级优化和系统级优化(详见第3节)。此外,我们对代表性方法进行了实验分析。目前,已经进行了几项综述 [17],[18],[19],[20],[21],[22],主要关注LLMs效率的不同方面,但仍提供了进一步改进的机会。朱等人 [17],朴等人 [18] 和王等人 [19] 关注于模型级优化中的模型压缩技术。丁等人 [20] 聚焦于考虑数据和模型架构的效率研究。苗等人 [21] 从机器学习系统(MLSys)研究的角度探讨高效LLM推理。与之相比,我们的综述提供了更全面的研究范围,涵盖了数据级、模型级和系统级的优化,并包括了最新的进展。尽管万等人 [22] 和徐等人 [23] 也提供了高效LLM研究的全面综述,我们的工作通过结合比较实验,并根据在几个关键子领域如模型量化和服务系统的实验分析提供实用的见解和建议,进一步扩展了这些工作。这些综述的比较总结在表1中。

本综述的其余部分安排如下:第2节介绍LLMs的基本概念和知识,并详细分析了LLMs推理过程中的效率瓶颈。第3节展示我们的分类法。第4节至第6节分别介绍和讨论在三个不同层次上的效率优化研究。第7节为几个关键应用场景提供更广泛的讨论。第8节总结了本综述提供的关键贡献。

在上述讨论中,我们确定了三个关键因素(即计算成本、内存访问成本和内存使用),这些因素在LLM推理过程中显著影响效率,并进一步分析了三个根本原因(即模型大小、注意力操作和解码方法)。已经做出了许多努力,从不同的角度优化推理效率。通过仔细回顾和总结这些研究,我们将它们分类为三个层次,即数据级优化、模型级优化和系统级优化(如图4所示):

数据级优化指的是通过优化输入提示(即输入压缩)或更好地组织输出内容(即输出组织)来提高效率。这种优化线通常不会改变原始模型,因此无需昂贵的模型训练成本(注意,辅助模型可能需要少量训练,但与原始LLMs的训练成本相比,这种成本可以忽略不计)。

模型级优化指的是在推理过程中设计高效的模型结构(即高效结构设计)或压缩预训练模型(即模型压缩)以提高其效率。这种优化线(1)通常需要昂贵的预训练或较少量的微调成本以保持或恢复模型能力,并且(2)通常在模型性能上是有损的。

系统级优化指的是优化推理引擎或服务系统。这种优化线(1)不涉及昂贵的模型训练,并且(2)通常在模型性能上是无损的。另外,我们在第6.3节简要介绍了硬件加速器设计。

成为VIP会员查看完整内容
1

自 "兵棋推演"(Kriegsspiel)问世以来,兵棋成为军事课程的一部分已有约 200 年的历史,但它仍然是一种艺术形式。本论文试图从理论上探讨军事教育兵棋推演的实践,特别是探讨这种兵棋推演为什么会采取这种形式。

论文仅限于针对军官和军官学员的陆军教育兵棋推演。以分析为目的的兵棋推演、政治和战略兵棋推演均不包括在内。相反,论文重点关注的是战术层面的陆军教育兵棋推演,这在各国之间可以说更具可比性。研究方法结合了受基础理论影响的探索方法和比较案例研究方法,涵盖五个国家的三个连续层次的陆军军官教育: 瑞典、德国、英国、美国和日本。

研究表明,个人游戏指导具有核心重要性。这一点在兵棋推演形式的演变中尤为明显。个人游戏指导的主要关注点是如何获得教官的认同。这一核心问题包括控制、可信度和舒适度。在如何获得教员认同方面,发现了三种方法或策略。这三种策略是:创新的主动学习、简单的标准化和控制与掩饰。这一发现为新的实质性理论做出了贡献,因为它解释了特定的陆军教育兵棋推演形式是如何开始、发展和终止的。

成为VIP会员查看完整内容
16

人工智能(AI)在战略决策中的作用仍在不断发展。人们对道德、升级动态、测试和评估标准以及如何在军事规划中最好地调整人员和模型表示关切。然而,在这些讨论中,生成人工智能和大型语言模型(LLMs)在兵棋推演和战略分析中的作用往往被忽视。

如果有更多的人--从学者和相关公民到军事专业人员和公务员--获得生成式人工智能工具,并了解如何将其融入分析性兵棋推演,那么指导外交政策的思想和辩论将更加多样化

今日的兵棋推演:战略的核心,但代价高昂且不透明

英国国防部的一本手册将兵棋推演定义为 "结构化但智力自由的安全失败环境,以帮助探索什么可行(获胜/成功),什么不可行(失败/失败),通常成本相对较低"。游戏是决策的实验室,可以帮助实践者评估从战术选择到部队设计等各个方面的权衡。从这个角度来看,游戏在这方面有着悠久的历史,通常处于政策研究和社会科学的交汇点。

从战时和冷战时期到当代关于对抗大国的辩论,兵棋推演一直是美国战略分析的主要内容。这些模拟驱动的演习通过发展假设的冲突场景来评估与战争有关的理论、假设和战略。因此,兵棋推演在政策圈内有多种用途。它们促进了跨机构和利益相关者之间的对话,营造了一个新想法不断涌现、分析人员可以评估关键假设的环境。这一过程有助于形成决策并为决策提供信息,因为它有助于提高整个政策圈的认识。事实上,游戏往往是完善战略的私人论坛,也是提高公众对这些问题认识的工具。

无论是机密还是非机密,兵棋推演都是一种合成数据形式。它们以场景为基础,即使有大量研究和敏感情报的支持,也仍然是现实的近似值。游戏无法预测未来,但 大多数分析师也无法预测未来。游戏能做的是突出权衡,为分析决策提供一个论坛。游戏还能在分析 "尾部风险"和低概率、高后果事件方面发挥关键作用。这种动态使兵棋推演和红队成为战略分析的相关组成部分。

由美国政府举办或为其举办的现代兵棋推演往往耗资巨大、不透明且容易夸大其词。对于运行分析性兵棋推演的相关成本,没有清晰、透明的核算,典型游戏的成本从数十万美元到数百万美元不等。根据2023 年政府问责局(GAO)的一份研究报告,"获取兵棋推演数据存在障碍,即将举行的兵棋推演信息没有共享,各部门也没有制定兵棋推演人员的标准教育和资格认证"。正因如此,胡佛研究所的雅克琳-施耐德(Jacquelyn Schneider)等学者开始着手建立一个游戏资料库,并主张提高设计方法和资金来源的透明度。一些兵棋推演的资金来源并不总是很清楚,包括政府内部和外部的资金,这让人对研究结果的客观性产生怀疑。

兵棋推演的未来:更低的制作成本和复制标准

在兵棋推演中加入人工智能既能降低传统游戏的运营成本,又能增加对战略和决策进行更严格分析的机会

  • 从玩家到角色模拟

分析师可以使用微调数据集来训练模型,以代表不同的利益相关者。游戏的关键在于玩家的质量,但最优秀的玩家往往超额预订并处于移动状态。为了一场短时间的比赛(即一到三天)而飞往世界各地的成本很高,而环城公路内部人员的日程安排也很苛刻。

因此,二十一世纪的分析师可以利用生成式人工智能和 LLM 来创建游戏代理,而不是直接依靠围坐在桌边的人类玩家来玩游戏。最近的研究表明,合成数据可以有效地反映各种人类亚群的反应模式,这对得出特定方面的预测结论很有帮助。利用兵棋推演中的合成数据生成行动,可以改变人类玩家看待问题的方式,将他们推向不同的观点和辩论。

想象一下,在新型兵棋推演游戏中,一系列决策者--人类玩家--与人工智能生成的角色玩家进行互动,这与大多数现代视频游戏类似。例如,每个接受专业军事教育的学生都可以与联盟伙伴一起复制计划,并与敌对的人工智能作战,复制敌方的条令甚至战略文化。这些游戏的成本较低,主要是将差旅费、酬金和扮演敌方的脾气暴躁的顾问的成本与收集和整理用于培训法学硕士的数据的人工成本进行交换。此外,游戏时间较短,设计团队可以进行多场游戏,收集更多有关决策的数据,而不是进行一场昂贵的游戏。

  • 从僵化的战争之路到替代方案

兵棋推演的另一个代价高昂的方面--也是经常容易出现取样偏差的方面--是用于创建游戏起始条件的 "世界化"。为了创建替代性的 "世界",研究团队花费了无数的时间来进行确认偏差,选择最糟糕的地形和最可怕的近似敌对势力来对抗。这一过程代价高昂,而且往往会在不经意间向最糟糕的情况靠拢。条条大路通罗马,这种倾向会影响玩家的决策。

问题是,如果从错误的故事开始,对话就会变得有限。这些起始故事--基本场景--以及玩家角色(或人物)和要求他们做出的选择(或策划)是兵棋推演的核心。例如,如果一个人在开始危机游戏时,对手致力于战争,军队已经全面动员,而美国军队不在状态,政治阶层容易分裂,那么游戏的初始条件就会造成路径依赖性选择和错误的观察。对手总是赢家。自己总是输。更糟糕的是,能力被视为抵消,而技术上的神来之笔会从根本上改变故事。

利用人工智能,游戏设计师可以使用生成图像和文本的混合方式,以较低的成本创造出多个词语。研究人员可以定制数据集,与创建合成玩家类似,不是编写一个,而是编写一系列映射不同战争道路(即不同初始条件)的场景。这些不同的初始条件能更好地反映复杂系统对初始条件的敏感程度。这种变化成为分析决策的重要组成部分,尤其是如果不同的处理方法之间存在差异,就会为评估战略创造更大的可能性空间。只需花费一个传统兵棋推演的成本,分析人员就可以运行多个推演,并根据不同的情景假设,了解哪些目的、方式和手段组合能产生最佳优势。

此外,降低图像制作成本,超越国家安全博弈中常见的典型 PowerPoint 幻灯片、糟糕的计算机图形和文字繁杂的游戏包,可以带来更有力的见解。事实证明,艺术实际上能刺激大脑功能。目前,大多数添加了风格化图形和多媒体的游戏往往会让人大伤脑筋。通过使用Midjourney 和DALL*E3 等程序,生成式人工智能可以改变这种状况。

  • 从无标准到复制指南

如前所述,大多数游戏都缺乏方法,因此即使是最基本的决策见解也很难复制。典型的游戏报告会详细介绍游戏场景、玩家角色和目标,但往往忽略了更广泛的文献综述和方法讨论。读者看到的是游戏规则,而不是方法,通常是按回合列出行动、反应和反作用的叙述。美国政府问责局称,即使是这种默契的兵棋推演报告方法,在美国国防部这个全球最大的兵棋推演资助机构中也缺乏正式标准。

单靠技术是无法克服失败的分析过程的。相反,未来使用生成式人工智能构建的兵棋推演应遵循一套与更广泛的科学界所称的复制标准相关联的最佳实践。复制既包括提出见解,也包括解释结果。事实上,使用严格的复制标准有助于提高研究成果的质量,从本质上讲就是在研究过程中增加了制衡机制。应用到游戏中,这意味着不仅要制定规则,还要抽象出一个逻辑顺序,阐明在对手反应(即反馈回路)和信息不完善(即不确定性)的情况下,如何以及为何做出决策。

这种逻辑顺序是通过盘点提示和结构化数据标签来捕捉的。未来,它还可以建立红队技术,根据合成数据和玩家互动,显示特定决策逻辑如何以及何时开始崩溃。换句话说,人类始终处于循环之中,不仅设计游戏,还对游戏进行压力测试,并利用测试结果分析决策制定。

结束语:想玩游戏吗?

现有的生成式人工智能产品为降低分析兵棋推演的成本和提高其严谨性提供了可行的方法。进入这一领域的唯一障碍是人类的想象力,以及传统的国防官僚机构是否愿意考虑战略分析的替代方法。

为此,国防部门需要加快对TF LIMA--新的生成式人工智能任务组--等工作的支持,以及对全球信息主导演习等实验的支持。更重要的是,各军种需要开始在较低层次资助副驾驶员和其他非机密的人工智能测试,同时研究如何以最佳方式培训军事专业人员,使其能够与汇总数据的模型合作而不是对抗。这项工作很可能需要对专业军事教育进行重大改革,将数据科学、统计学、研究方法和红队实践纳入其中。

参考来源:CSIS

成为VIP会员查看完整内容
13

一般来说,兵棋推演是在信息不完整、不完善的环境中探索人类决策的工具。它们可以为军事行动的复杂性提供重要见解,也可以用来产生新的想法。兵棋推演的局限性之一在于它们往往只关注单一的时间/空间尺度。例如,战术游戏可以是几分钟到几小时的真实时间和几平方公里的区域,而战略游戏可以是几个月到几年的时间,并且是全球性的。通常情况下,如果分析人员希望进行跨越多个战争层次的分析,唯一可行的方法就是选择最大的领域和最高的分辨率,以适应所涉及的最小尺度。这可能会导致过度简化和汇总,或因游戏分辨率过高而导致大量成本。北约在设计系列兵棋推演以支持北约中间兵力能力概念的发展时,开发了一个整合战术和战略层面的多层次兵棋推演原型。介绍了从这一方法中吸取的一些经验教训,并提出了一种更复杂的整合多兵棋推演层级的方法,以模拟多尺度的战争。这种方法避免了过度简化,能够在不适当增加分析成本的情况下捕捉战争的复杂性。

成为VIP会员查看完整内容
16

随着 JWC 的兵棋推演设计能力于 2022 年 5 月全面投入使用,北约获得了一个新的学习工具,以推进北约五大战争发展要务之一的跨域指挥。对 JWC 兵棋推演的需求如何?通过对 JWC 兵棋推演部门负责人、美国陆军中校特拉维斯-内德森的采访可以了解。

问题 1:自 2020 年 6 月启动兵棋推演设计能力以来,联合作战中心(JWC)取得了许多成就。如今,联合作战中心已成为转型最高盟军司令部(HQ SACT)的定制兵棋推演中心。如何看待北约对兵棋推演的日益认可?

问题 2:JWC会在北约兵棋推演中扮演什么角色?

问题 3:如何设计兵棋推演?整个过程是什么样?

问题 4:JWC既进行综合演习,也进行独立兵棋推演。迄今为止的一些重要兵棋推演?

问题 5:JWC 兵棋推演的下一步计划是什么?

成为VIP会员查看完整内容
8

兵棋推演是了解和演练现实世界决策的有力工具。利用人工智能(AI)自动进行兵棋推演,可以实现人类游戏无法实现的可能性,例如反复多次进行游戏,以观察一系列可能的结果。兵棋推演分为两类:定量游戏和定性游戏,前者具有离散的棋步类型,后者则围绕开放式反应展开。从历史上看,自动化工作主要集中在定量游戏上,但大型语言模型(LLM)使定性兵棋推演的自动化成为可能。本文介绍了 "Snow Globe"(雪球),这是一个由 LLM 驱动的多智能体系统,可用于定性兵棋推演。有了 "雪球",基于文本的定性兵棋推演从场景准备到赛后分析的每个阶段都可以选择由人工智能、人类或它们的组合来完成。从概念上描述了它的软件架构,并在本出版物中发布了开源实现。作为案例研究,模拟了一次人工智能事件响应桌面演练和一次地缘政治危机政治兵棋推演。讨论了该方法的潜在应用以及它如何融入更广泛的兵棋推演生态系统。

图 2:Snow Globe 多智能体系统的软件架构示例。垂直箭头代表智能体,水平箭头代表 (a) 简单桌面演练和 (b) 团队制定集体应对措施的信息流。

软件架构

Snow Globe 是一个多智能体系统,旨在自动执行各种定性兵棋推演。在 Snow Globe 中,有三种智能体:控制体、玩家体和团队体。其中,控制体和玩家是由 LLM 驱动的智能体,在兵棋推演中扮演传统的人类角色。控制是游戏的主持人。它的工作包括纯粹的后勤任务,如呼叫团队/玩家以获得他们的回应,以及复杂的人工智能驱动任务,如通过 LLM 裁决对抗游戏的每一轮。玩家智能体模拟人类在游戏中的反应,每个玩家都可以被赋予一个 "角色",即影响其反应的对其观点的书面描述。最后,团队智能体模拟的是一个必须共同制定对策的团体。一个模拟通常只有一个控制,但可以有任意数量的参与者和团队。团队/球员的任何非循环排列都是允许的,包括一个团队的团队、一个球员在多个团队中,等等。如图 2 所示。

概念方法

在 Snow Globe 中,兵棋推演中迄今为止发生的事情都记录在 "历史 "对象中。历史对象是一个有序的文本条目列表,每个条目都与一个智能体相关联。对于不存在信息不对称的游戏,控制会维护一个共同的历史记录。信息不对称可以通过让每个玩家/团队拥有自己可能不完整的历史对象来实现。历史对象中包含的游戏记录为玩家做出反应提供了背景。从形式上看,历史对象构成了多智能体系统的环境。

再仔细观察一下不同类型的智能体,玩家的主要任务是说明他们将如何应对呈现给他们的每种情况。为此向玩家的底层 LLM 发送的提示包括上述历史记录、玩家角色的书面描述以及询问:"你会采取什么或哪些行动来应对?" (玩家的角色会影响他们在回答时所强调的内容。例如,我们开发了一个信息技术桌面模拟演练,其中包括 "数据科学家 "和 "律师 "两种角色。前者比后者更有可能提出培训数据方面的问题,而后者则更有可能提到法律合规性。

从控制的角度来看,一个团队看起来只是一个玩家--它接收当前的历史数据,然后发回响应。然而,团队本身并没有生成能力。在幕后,团队会询问每个成员的回复,然后要求指定的团队领导者将这些回复合并成一个联合回复,并代表团队发回。图 2(b) 展示了这一示意图。

控制组作为游戏的主持人,有很多任务。其中一项控制任务是裁决对抗性兵棋推演。为此,控制程序会呼叫每个玩家,了解他们针对当前局势提出了哪些行动建议。然后,控制员对结果进行合理的叙述,描述在执行玩家所述计划时可能会发生的合理情况。下一段将进一步讨论裁决问题。控制软件还可以根据简短的提示生成情境,确定情境中的关键角色(可为其创建智能体),并生成相关的 "注入"(用于推动游戏的预写情节发展),从而帮助创建兵棋推演。最后,在游戏进行过程中或结束后,控制软件还提供了分析游戏的工具。该控件可以回答有关游戏的预设问题,用户也可以通过聊天机器人对话框与它交谈。无论哪种情况,该控件都会利用游戏的历史记录来回答问题。问题的范围可以很具体(例如 "是否在任何时候咨询过律师?"),也可以很笼统(例如 "我们能从这个场景中学到什么教训?")。

裁决可能是法律硕士实施定性兵棋推演时最具挑战性的任务。它要求 LLM 创建一个具有因果逻辑感的叙事,当玩家的行动相互矛盾时,可能需要制定一个合理的解决方案。我们使用的查询语是:"将这些计划编入下个月发生的事情的连贯叙述中",并适当修改时间步长。在现实游戏中,并不是所有重要事件的发生都是玩家设定的结果。例如,在政治军事兵棋推演中,当地可能会出现一些快速发展的事态,虽然没有领导人下令,但却对结果至关重要(内乱、恐怖主义等)。为了发挥作用,人工智能裁决必须能够生成 "自然",即这些在上下文中合理的外部事态发展[17]。这项艰巨的任务在 LLMs 中变得出奇地容易。只需修改提示语,添加三个字的句子:"包括意想不到的后果": "包括意想不到的后果"。

当裁决确实给出了低质量的结果时,最常见的问题包括从一步棋到另一步棋的重复输出,以及偏离棋手既定计划的输出(通常是通过幻觉将新的棋手计划作为输出的一部分)。然而,假想的无幻觉 LLM 带来的问题会比它解决的问题更多。幻觉在其他应用中往往是有害的,但它却是使开放式 LLM 兵棋推演发挥作用的关键。生成计划并裁定其结果所需的有根有据的创造力是幻觉的另一个名称。

软件实现

开发了上述概念架构的 Python 实现。Snow Globe 软件已在 Apache 2.0 许可下开源。

导入 Python 模块后,用户可以创建控制、团队和玩家智能体,以及历史和 LLM 对象。推荐的方法是创建模块控制类的子类,作为用户特定模拟的控制。该子类的构造函数和调用方法可以用代码重载,以分别创建其他智能体和运行模拟。

软件支持本地运行 LLM,格式为 llama.cpp [36] 或 Hugging Face transformers 库 [37]。它还支持 OpenAI API 调用[38]。LangChain 框架 [39] 处理与 LLM 的交互。在小型开源 LLM 中,我们发现 Mistral-7BOpenOrca-GGUF 模型的效果最好。来自 Mistral AI 的 70 亿参数基础模型[40]利用 OpenOrca 数据集[41]作为聊天机器人进行了微调,然后由其他开源贡献者转换为计算资源高效的格式[42]。这种 LLM 非常轻便,可以在普通的 "游戏 "笔记本电脑上运行。在本地运行模型的能力对于信息无法对外共享的使用案例至关重要。由于模型没有针对任何特定游戏进行微调(也没有在运行时给出输出示例),因此这是一个零射击学习案例。

软件的配置使 LLM 的输出是随机的,因此没有两次模拟兵棋推演的结果是完全相同的。因为任何复杂的真实情况的结果都取决于许多微小的细节,而并非所有细节都能在模拟中得到描述和说明,因此期望模拟产生单一的 "正确 "答案是不合理的。(这是定性兵棋推演的一般特点,我们的系统实施也模仿了这一特点)。相反,使用随机 LLM 输出对同一模拟进行反复迭代,会显示出一系列可能的结果。下文第 3.2 节将举例说明。随机性还意味着,没有任何智能体知道另一个智能体在特定情况下会做什么。

人机交互

Snow Globe 可以让任何玩家智能体由真人而非 LLM 操作。人类玩家使用一台连接到模拟运行所在网络的计算机,基于网页的用户界面通过显示本来会发送给 LLM 的提示信息来告诉玩家游戏的状态。网页接收人类对每个提示的书面回复,并将其发送回服务器。

该系统支持人工智能和人类玩家的任意组合,从而允许进行一系列兵棋推演。例如,人类玩家可以面对人工智能对手。或者,一个人类玩家可以有一群人工智能助手,每个助手都会就他们认为人类应该做的事情提供意见。(后一种情况可以通过一个团队代理来实现,团队代理包括一个人工智能团队成员和一个人类团队领导。助手们可以有不同的角色,甚至使用不同的 LLM)。也可以通过将控制代理设置为使用基于网络的用户界面,让人类担任主持人。

当多个参与者必须对同一情况做出反应时(每个参与者都不知道其他人的反应),就会出现一个时间问题。人工智能玩家应按顺序做出反应,以避免硬件负担过重。而人类玩家则应该能够并行处理他们的答案,以避免不必要的等待。简而言之,人工智能受计算约束,而人类受输入/输出约束。我们使用异步编程对两者进行优化,无需重构代码即可在人工智能和人类玩家之间切换。

在我们Snow Globe Python 实现中,发送给人类的提示和从人类那里收到的回复都存储为文本文件,并通过带有 FastAPI 框架和 Uvicorn 网络服务器的 API 在网络上提供。这样,界面就很容易扩展,从而保证了界面的未来性。人们可以设计一个新的网页来与现有的应用程序接口进行通信,或者放弃应用程序接口,设计新的软件来直接与文件进行交互。

兵棋推演有四项基本任务:准备游戏、进行游戏、裁决游戏和解释游戏。对于使用 Snow Globe 的基于文本的定性兵棋推演,这些任务中的每一项都可以选择由人工智能、人类或它们的组合来完成。

成为VIP会员查看完整内容
18

Datawhale干货 作者:张帆,陈安东,Datawhale成员

引言

在AI领域,大模型的发展正以前所未有的速度推进技术的边界。 北京时间4月19日凌晨,Meta在官网上官宣了Llama-3,作为继Llama-1、Llama-2和Code-Llama之后的第三代模型,Llama-3在多个基准测试中实现了全面领先,性能优于业界同类最先进的模型。 纵观Llama系列模型,从版本1到3,展示了大规模预训练语言模型的演进及其在实际应用中的显著潜力。这些模型不仅在技术上不断刷新纪录,更在商业和学术界产生了深远的影响。因此,对Llama模型不同版本之间的系统对比,不仅可以揭示技术进步的具体细节,也能帮助我们理解这些高级模型如何解决现实世界的复杂问题。 文本将详细梳理Llama开源家族的演进历程,包括:

  • Llama进化史(第1节)
  • 模型架构(第2节)
  • 训练数据(第3节)
  • 训练方法(第4节)
  • 效果对比(第5节)
  • 社区生态(第6节)
  • 总结(第7节)

与此同时,我们还设计了一系列全面的开源课程(So-Lrage-Lm),旨在从多个维度深入解析大规模预训练语言模型的内在工作机制和外在应用场景。课程内容覆盖了从模型架构、性能评估,到数据管理和模型优化等关键技术点,以及模型在社会、环境和法律层面的复杂交互。 通过本课程,参与者将学习如何从理论和实践层面评估和优化大模型。我们的课程规划包括了一系列模块化的学习单元,每一单元都针对大模型的一个具体方面,从基础知识到高级应用逐步深入,确保学习者可以在结束课程后,独立进行大模型的设计、评估和应用。此外,课程中的案例研究和实践项目将直接关联到当前最前沿的AI技术和应用,以及这些技术如何在现实世界中找到应用。 点击访问课程地址或者阅读原文即可查看课程内容,欢迎Star~ https://github.com/datawhalechina/so-large-lm

1. Llama进化史

本节将对每个版本的Llama模型进行简要介绍,包括它们发布的时间和主要特点。

**1.1 Llama-1 系列

Llama-1 [1]是Meta在2023年2月发布的大语言模型,是当时性能非常出色的开源模型之一,有7B、13B、30B和65B四个参数量版本。Llama-1各个参数量版本都在超过1T token的语料上进行了预训训练,其中,最大的65B参数的模型在2,048张A100 80G GPU上训练了近21天,并在大多数基准测试中超越了具有175B参数的GPT-3。 由于模型开源且性能优异,Llama迅速成为了开源社区中最受欢迎的大模型之一,以Llama为核心的生态圈也由此崛起。我们将在第6节对这一生态进行详细介绍。与此同时,众多研究者将其作为基座模型,进行了继续预训练或者微调,衍生出了众多变体模型(见下图),极大地推动了大模型领域的研究进展。

唯一美中不足的是,因为开源协议问题,Llama-1不可免费商用。

**1.2 Llama-2 系列

时隔5个月,Meta在2023年7月发布了免费可商用版本 Llama-2 [2],有7B、13B、34B和70B四个参数量版本,除了34B模型外,其他均已开源。

相比于Llama-1,Llama-2将预训练的语料扩充到了 2T token,同时将模型的上下文长度从2,048翻倍到了4,096,并引入了分组查询注意力机制(grouped-query attention, GQA)等技术。 有了更强大的基座模型Llama-2,Meta通过进一步的有监督微调(Supervised Fine-Tuning, SFT)、基于人类反馈的强化学习(Reinforcement Learning with Human Feedback, RLHF)等技术对模型进行迭代优化,并发布了面向对话应用的微调系列模型 Llama-2 Chat。 通过“预训练-有监督微调-基于人类反馈的强化学习”这一训练流程,Llama-2 Chat不仅在众多基准测试中取得了更好的模型性能,同时在应用中也更加安全。 随后,得益于Llama-2的优异性能,Meta在2023年8月发布了专注于代码生成的Code-Llama,共有7B、13B、34B和70B四个参数量版本。

1.3 Llama-3 系列 2024年4月,Meta正式发布了开源大模型 Llama 3,包括8B和70B两个参数量版本。除此之外,Meta还透露,400B的Llama-3还在训练中。

相比Llama-2,Llama-3支持8K长文本,并采用了一个编码效率更高的tokenizer,词表大小为128K。在预训练数据方面,Llama-3使用了超过15T token的语料,这比Llama 2的7倍还多。 Llama-3在性能上取得了巨大飞跃,并在相同规模的大模型中取得了最优异的性能。 另外,推理、代码生成和指令跟随等能力得到了极大的改进,使Llama 3更加可控。

2. 模型架构

本节将详细描述Llama的模型架构,包括神经网络的大小、层数、注意力机制等。 目前,主流的大语言模型都采用了Transformer[3]架构,它是一个基于多层自注意力(Self-attention)的神经网络模型。 原始的Transformer由编码器(Encoder)和解码器(Decoder)两个部分构成,同时,这两个部分也可以独立使用。 例如基于编码器的BERT [4]模型和基于解码器的GPT [5]模型。 Llama模型与GPT类似,也是采用了基于解码器的架构。在原始Transformer解码器的基础上,Llama进行了如下改动:

  • 为了增强训练稳定性,采用前置的RMSNorm [6]作为层归一化方法。
  • 为了提高模型性能,采用SwiGLU [7]作为激活函数。
  • 为了更好地建模长序列数据,采用RoPE [8]作为位置编码。
  • 为了平衡效率和性能,部分模型采用了分组查询注意力机制(Grouped-Query Attention, GQA)[9]。

具体来说,首先将输入的token序列通过词嵌入(word embedding)矩阵转化为词向量序列。然后,词向量序列作为隐藏层状态依次通过𝐿个解码器层,并在最后使用RMSNorm进行归一化。归一化后的隐藏层状态将作为最后的输出。 在每个解码器层中,输入的隐藏层状态首先通过RMSNorm归一化然后被送入注意力模块。注意力模块的输出将和归一化前的隐藏层状态进行残差连接。之后,新的隐藏层状态进行RMSNorm归一化,然后被送入前馈网络层。类似地,前馈网络层的输出同样进行残差连接,作为解码器层的输出。 每个版本的Llama由于其隐藏层的大小、层数的不同,均有不同的变体。接下来,我们将展开看下每个版本的不同变体。

**2.1 Llama-1 系列

Llama-1 模型架构,详见MODEL_CARD: https://github.com/meta-llama/llama/blob/main/MODEL_CARD.md

为了更好地编码数据,Llama-1使用BPE [10]算法进行分词,具体由sentencepiece进行实现。值得注意的是,Llama-1将所有数字分解为单独的数字,并对未知的UTF-8字符回退到字节进行分解。词表大小为32k。

**2.2 Llama-2 系列

Llama-2 模型架构,详见MODEL_CARD(同上)

Llama-2使用了和Llama-1相同的模型架构以及tokenizer。与Llama-1不同的是,Llama-2将上下文长长度扩展到了4k,并且34B和70B参数量版本使用了GQA。

**2.3 Llama-3 系列

Llama-3 模型架构,详见MODEL_CARD: https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md

与Llama 2相比,Llama-3将tokenizer由sentencepiece换成了tiktoken,这与GPT4 保持一致。同时,词表大小由32k扩展到了128k。另外,为了提高模型效率,Llama-3 8B和70B都采用了GQA。同时上下文长度也扩展到了8k。

3. 训练数据

本节将对每个版本的训练数据进行简要介绍,包括数据来源、规模和处理方式。

**3.1 Llama-1 系列

Llama-1使用了海量无标注数据进行自监督学习,这些预训练数据由多个来源混合而成,且都是公开的数据。各个来源的数据量和采样比例见下表。

  • 英语CommonCrawl:Llama-1预处理了2017年至2020年间的五个CommonCrawl数据集。该过程在行级别去重,使用fastText线性分类器进行语言识别以去除非英语页面,并使用n-gram语言模型过滤低质量内容。此外,Llama-1训练了一个线性模型来分类维基百科中用作参考的页面和随机采样的页面,并丢弃了未被分类为参考的页面。
  • C4:在探索性实验中,Llama-1观察到使用多样化的预处理CommonCrawl数据集可以提升性能。因此,Llama-1的数据中包括了公开可获得的C4数据集。C4的预处理也包括去重和语言识别步骤:与CCNet的主要区别在于质量过滤,主要依赖于标点符号的存在或网页中的单词和句子数量等启发式规则。
  • Github:Llama-1使用Google BigQuery上可公开获取的GitHub数据集。Llama-1仅保留在Apache、BSD和MIT许可下分发的项目。此外,Llama-1还使用基于行长度或字母数字字符比例的启发式规则过滤低质量文件,并用正则表达式移除如页眉等样板内容。最后,Llama-1在文件级别对结果数据集进行去重,匹配精确相同的内容。
  • 维基百科:Llama-1添加了2022年6月至8月期间的维基百科数据,涵盖使用拉丁或西里尔文字的20种语言。Llama-1处理数据以移除超链接、评论和其他格式化的样板内容。
  • Gutenberg和Books3:Llama-1在训练数据集中包括了两个书籍语料库:Gutenberg项目(包含公共领域的书籍)和ThePile的Books3部分,一个公开可获得的用于训练大型语言模型的数据集。Llama-1在书籍级别进行去重,移除超过90%内容重合的书籍。
  • ArXiv :Llama-1处理ArXiv的Latex文件,以增加科学数据到Llama-1的数据集。Llama-1移除了第一节之前的所有内容以及参考文献部分。Llama-1还移除了.tex文件中的注释,并内联扩展了用户编写的定义和宏,以增强论文间的一致性。
  • Stack Exchange:Llama-1包括了Stack Exchange的数据转储,这是一个涵盖从计算机科学到化学等多种领域的高质量问题和答案的网站。Llama-1保留了28个最大网站的数据,移除了文本中的HTML标签,并根据得分将答案排序(从最高到最低)。

经过上述处理,Llama-1的整个训练数据集包含大约1.4T token。对于Llama-1的大部分训练数据,每个token在训练期间只使用一次,但维基百科和Books的数据进行了大约两个epoch的训练。

**3.2 Llama-2

Llama-2 预训练使用了来自公开可用源的 2T个数据token(未详细指出具体的开源数据)。Llama-2-Chat 还在为此项目创建的27,540个提示-响应对上进行了额外的微调,其表现优于更大但质量较低的第三方数据集。为了实现AI对齐,使用了包含1,418,091个Meta示例和七个较小数据集的组合的人类反馈强化学习(RLHF)。在Meta示例中,平均对话深度为3.9,Anthropic Helpful 和 Anthropic Harmless集合为3.0,包括OpenAI Summarize、StackExchange等在内的其他五个集合的平均对话深度为1.0。微调数据包括公开可用的指令数据集以及超过一百万个新的人类标注示例。 在预训练过程中,Llama-2对数据的安全性进行了全面考量。通过对预训练数据进行分析,Llama-2能够增加透明度,并发现潜在的问题根源,如潜在的偏见。Llama-2采取了一系列措施,包括遵循 Meta 公司的隐私和法律审查流程,排除已知含有大量个人信息的网站的数据。此外,Llama-2未对数据集进行额外的过滤,以使模型在各种任务中更广泛可用,同时避免过度清洗可能导致的意外人口统计消除。对于语言的代表性和毒性的分析,Llama-2使用了相应的工具和数据集,以了解预训练数据的特征,为模型的安全调整提供指导。这一过程确保了我们的模型在安全性方面得到了充分的考虑,并促使我们在部署模型之前进行了重要的安全调整。 Llama 2的预训练主要集中在英语数据上,尽管实验观察表明模型在其他语言方面已有一定的熟练度,但由于非英语语言的预训练数据量有限,其熟练度受到限制(如下图所示)。因此,该模型在非英语语言中的性能仍然脆弱,应谨慎使用(说明多语言能力差:有可能是词表较小导致)。

预训练数据截至到2022年9月,但某些调整数据较新,直到2023年7月。 在Llama2发布的技术报告中有说明:我们将继续努力微调模型,以提高在其他语言环境下的适用性,并在未来发布更新版本,以解决这一问题。 当前Llama-3 不但扩充了词表大小而且增加了多语言的训练语料。从而完成了在Llama2在技术报告的承诺,而且在当前公布出来的多语言任务中获得了大幅度提升的性能。

**3.3 Llama-3 系列

为了更好训练Llama-3,研究人员精心设计了预训练语料库,这些不仅关注数量,还特别强调了质量。LLAMA-3其训练数据量大幅增加,从LLAMA-2的2T Tokens扩展到了15T Tokens,增长了约8倍。其中,代码数据扩充了4倍,显著提升了模型在代码能力和逻辑推理能力方面的表现。 LLAMA-3提供了三种规模的模型版本:小型模型具有8B参数,其性能略优于Mistral 7B和Gemma 7B;中型模型则拥有70B参数,其性能介于ChatGPT 3.5和GPT 4之间;大型模型规模达到400B,目前仍在训练中,旨在成为一个多模态、多语言版本的模型,预期性能应与GPT 4或GPT 4V相当。 值得注意的是,LLAMA-3并没有采用MOE(Mixture of Experts)结构,这种结构主要用于降低训练和推理成本,但在性能上通常无法与同规模的密集型(Dense)模型相比。随着模型规模的扩大,如何降低推理成本将成为一个需要关注的问题。 此外,LLAMA-3的训练数据包括了大量的代码token和超过5%的非英语token,来源于30多种语言。这不仅使得模型在处理英语内容时更加高效,也显著提升了其多语言处理能力,这表明LLAMA-3在全球多语言环境中的适应性和应用潜力。 为确保数据质量,Meta开发了一系列数据过滤pipeline,包括启发式过滤器、NSFW过滤器、语义重复数据删除技术及用于预测数据质量的文本分类器。这些工具的有效性得益于先前版本Llama的表现,特别是在识别高质量数据方面。 此外,Meta通过大量实验评估了在最终预训练数据集中混合不同来源数据的最佳策略,确保Llama-3能在多种场景下展现卓越性能,如日常琐事、STEM 领域、编程和历史知识等。

4. 训练方法

本节将对每个版本的训练方法进行简要介绍,包括预训练、有监督微调和基于人类反馈的强化学习。

**4.1 Llama-1系列

Llama-1模型是一个基础的自监督学习模型,它没有经过任何形式的特定任务微调。自监督学习是一种机器学习技术,其中模型通过分析大量未标记的数据来预测其输入数据的某些部分。这种方法允许模型在没有人类标注的数据的情况下自动学习数据的内在结构和复杂性。Llama-1在公布的技术报告中详细描述了使用AdamW优化器的机器学习模型的具体训练配置。AdamW是对Adam优化器的改进,可以更有效地处理权重衰减,从而提高训练的稳定性。β1和β2参数的选择影响训练过程的收敛行为和稳定性。Llama-1描述的余弦学习率调度是一种有效的技术,用于在训练期间调整学习率,通过逐渐减少学习率,在某些情况下可以导致更好的收敛。实施0.1的权重衰减和1.0的梯度裁剪是预防过拟合和确保数值稳定性的标准做法。使用预热步骤是一种策略性方法,旨在训练过程初期稳定训练动态。根据模型大小调整学习率和批量大小是一种优化资源分配和效率的实用方法,有可能提高模型性能。 Llama-1也展示了一系列针对大规模语言模型训练进行的优化措施。通过使用xformers库[12]中的causal multi-head attention(通过不存储注意力权重和不计算由于语言建模任务的因果性质而被屏蔽的key/query.分数来实现的)的高效实现,减少了内存占用和计算时间,显示了在处理大量数据时对效率的关注。此外,采用手动实现反向传播函数代替依赖自动微分系统,以及利用检查点技术保存计算成本高的激活,都是提高训练速度和减少资源消耗的有效策略。通过模型和序列并行性以及优化GPU之间的通信,进一步提升了训练过程的效率。这些优化措施特别适合于训练参数庞大的模型,如650亿参数的模型,能显著减少训练时间,提高整体的运算效率。整体上,这些优化技术体现了在高性能计算领域对资源管理和效率优化的深入考量,对于推动大规模语言模型的发展具有重要意义。

**4.2 Llama-2系列

Llama-2模型是在Llama-1的基础上进一步发展的,而Llama-2-Chat模型则是基于Llama-2进行微调的版本。这两个模型保持了固定的4k上下文长度,这与OpenAI的GPT-4在微调过程中可能增加的上下文长度不同。 在Llama-2和Llama-2-Chat的微调中,采用了自回归损失函数,这是一种在生成模型中常见的方法,模型预测下一个token时会考虑到之前的所有token。在训练过程中,用户输入提示的token损失被清零,这意味着模型被训练以忽略这些特定的token,从而更专注于生成回复。 Llama-2-Chat的训练过程如下图所示。整个过程起始于利用公开数据对Llama-2进行预训练。在此之后,通过有监督微调创建了Llama-2-Chat的初始版本。随后,使用基于人类反馈的强化学习(RLHF)方法来迭代地改进模型,具体包括拒绝采样(Rejection Sampling)和近端策略优化(Proximal Policy Optimization, PPO)。在RLHF阶段,人类偏好数据也在并行迭代,以保持奖励模型的更新。

**4.3 Llama-3系列

与Llama-2类似,Llama-3系列也有两个模型——预训练模型Llama-3和微调后的模型Llama-3-Instruct。 在预训练阶段,为了有效地利用预训练数据,Llama-3投入了大量精力来扩大预训练。具体而言,通过为下游基准测试制定一系列扩展法则(scaling laws),使得在训练之前就能预测出模型在关键任务上的性能,进而选择最佳的数据组合。 在这一过程中,Llama-3对扩展法则有了一些新的观察。例如,根据DeepMind 团队提出的Chinchilla [11]扩展法则,8B模型的最优训练数据量约为200B token,但实验发现,即使训练了两个数量级的数据后,模型性能仍在继续提高。在多达15T token上进行训练后,8B和70B参数的模型都继续以对数线性的方式提升性能。 为了训练最大的Llama-3模型,Meta结合了三种并行策略:数据并行、模型并行和流水并行。当同时在16K GPU上进行训练时,最高效的策略实现了每个GPU超过400 TFLOPS的计算利用率。最后,模型在两个定制的24K GPU集群上进行了训练。 为了最大限度地延长GPU的正常运行时间,Meta开发了一个先进的新训练堆栈,可以自动检测、处理和维护错误。另外还大大提高了硬件可靠性和无声数据损坏的检测机制,并开发了新的可扩展存储系统,减少了检查点和回滚的开销。这些改进使总的有效训练时间超过95%。综合起来,这些改进使Llama-3的训练效率比Llama-2提高了约三倍。 在微调阶段,Meta对模型的微调方法进行了重大创新,结合了有监督微调(Supervised Fine-Tuning, SFT)、拒绝采样、近似策略优化(Proximal Policy Optimization, PPO)和直接策略优化(Direct Policy Optimization, DPO)。这种综合方法优化了模型在执行复杂的推理和编码任务时的表现。特别是通过偏好排序的训练,Llama-3在处理复杂的逻辑推理问题时能更准确地选择最合适的答案,这对于提高AI在实际应用中的可用性和可靠性至关重要。

5. 效果对比

本节将对比不同版本在众多基准测试中的效果差异。

**5.1 Llama-2 vs Llama-1

Meta官方数据显示,Llama-2在众多基准测试中都优于Llama-1和其他开源语言模型。

**5.2 Llama-3 vs Llama-2

Meta官方数据显示,在各自参数规模上,Llama-3 8B和70B版本都取得了不错的成绩。8B模型在众多基准测试中均胜过Gemma 7B和Mistral 7B Instruct,而70B模型超越了闭源模型Claude 3 Sonnet,对比谷歌的Gemini Pro 1.5性能也是相当。

同时,在Llama-3的开发过程中,Meta还开发了一个包含1800个提示的高质量人类评估集。评测结果显示,Llama 3不仅大幅超越Llama 2,也战胜了Claude 3 Sonnet、Mistral Medium和GPT-3.5这些知名模型。

Llama-3之所以能够取得如此出色的成绩,离不开它预训练模型的优异性能。在众多基准测试中,8B模型超越了Mistral 7B和Gemma 7B,70B模型则战胜了Gemini Pro 1.0和Mixtral 8x22B。

另外,Meta表示,最大的Llama-3仍在训练中,其参数超过400B,并在多项基准测试中取得了出色的成绩。一旦完成训练,Meta将发表一篇详细的研究论文。

值得注意的是,根据英伟达科学家Jim Fan的整理,Llama3 400B基本逼近Claude-3-Opus和GPT-4-turbo,这将意味着开源社区即将迎来GPT-4级大模型。

6. 社区影响

本节将简要介绍Llama模型对开源社区的影响。

**6.1 开放源代码模型的力量

自Meta发布Llama模型以来,它对全球AI社区产生了深远的影响。作为一个开源的大语言模型(LLM),Llama不仅提供了一个强大的技术基础,还推动了全球范围内对AI技术的广泛采用和创新。 Llama模型的开源策略被视为LLM时代的“安卓”,这意味着它提供了一个模块化和可自定义的平台,使研究人员和开发者能够根据自己的需要调整和优化模型。这种开放性极大地降低了进入门槛,使得从小型创业公司到大型企业都能够利用这一技术。四月十九日的Llama 3的发布,一日的下载量已经突破了1.14k,两个8B的模型位列trending第一。

**6.2 对全球AI研发的影响

在OpenAI转向更封闭的商业模式后,Llama的发布为全球进行AI项目研发的团队和个人提供了一种可靠的选择。这种开源模型确保了用户不必完全依赖单一的商业API,从而增加了企业的运营安全感和自由度,尤其是在数据安全和成本控制方面。

**6.3 技术进步和社区创新

技术上,Llama模型已经展示了与GPT相媲美的性能,这证明了开源社区在推动前沿技术方面的能力。此外,社区通过对模型的不断优化和调整,在不同的垂直领域中开发出适用的解决方案,类似于Stable Diffusion和Midjourney等社区驱动的大模型。

**6.4 生态系统和多样性

Llama的应用已经扩展到多种平台和设备,包括移动和边缘设备。这种多样化的应用不仅推动了技术的普及,也加速了新应用的创新。例如,云平台如AWS和Google Cloud的积极参与,证明了Llama模型的广泛适用性和强大功能。

**6.5 Llama社区的未来展望

随着Llama模型的持续发展和优化,Meta强调了对多模态AI、安全性和责任以及社区支持的持续关注。这些方向不仅符合当前AI发展的趋势,也为Llama社区的未来提供了明确的路线图。

7. 总结

总之,Llama模型的发布不仅证明了开源模型在全球AI领域的重要性,也为AI的未来发展方向提供了新的视角和动力。通过持续的技术进步和社区驱动的创新,Llama有望继续推动全球AI技术的广泛应用和发展。

参考文献

[1] Touvron H, Lavril T, Izacard G, et al. Llama: Open and efficient foundation language models[J]. arXiv preprint arXiv:2302.13971, 2023. [2] Touvron H, Martin L, Stone K, et al. Llama 2: Open foundation and fine-tuned chat models[J]. arXiv preprint arXiv:2307.09288, 2023. [3] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30. [4] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018. [5] Radford A, Narasimhan K, Salimans T, et al. Improving language understanding by generative pre-training[J]. 2018. [6] Zhang B, Sennrich R. Root mean square layer normalization[J]. Advances in Neural Information Processing Systems, 2019, 32. [7] Shazeer N. Glu variants improve transformer[J]. arXiv preprint arXiv:2002.05202, 2020. [8] Su J, Ahmed M, Lu Y, et al. Roformer: Enhanced transformer with rotary position embedding[J]. Neurocomputing, 2024, 568: 127063. [9] Ainslie J, Lee-Thorp J, de Jong M, et al. Gqa: Training generalized multi-query transformer models from multi-head checkpoints[J]. arXiv preprint arXiv:2305.13245, 2023. [10] Sennrich R, Haddow B, Birch A. Neural machine translation of rare words with subword units[J]. arXiv preprint arXiv:1508.07909, 2015. [11] Hoffmann J, Borgeaud S, Mensch A, et al. Training compute-optimal large language models[J]. arXiv preprint arXiv:2203.15556, 2022. [12] https://github.com/facebookresearch/xformers

一起“点****赞”****三连

成为VIP会员查看完整内容
17

近年来,大型语言模型(LLM)的集成彻底改变了机器人技术领域,使机器人能够以类似人类的熟练程度进行交流、理解和推理。本文探讨了LLM对机器人学的多方面影响,讨论了利用这些模型的关键挑战和机遇。通过对LLM在机器人核心元素——通信、感知、规划和控制中的应用进行分类和分析,我们旨在为寻求将LLM集成到其机器人系统中的研究者提供可行的见解。

我们的研究主要集中在GPT-3.5之后开发的LLM上,主要是基于文本的模式,同时也考虑了用于感知和控制的多模态方法。我们提供全面的指导原则和示例,以便初学者能够轻松接触基于LLM的机器人解决方案。通过教程级别的示例和结构化的提示构建,我们展示了如何将LLM引导的增强功能无缝集成到机器人应用中。本综述为研究人员在不断发展的LLM驱动的机器人技术领域中的导航提供了路线图,提供了全面的概述和实用的指导,以利用语言模型在机器人开发中的潜力。

在过去的十年中,我们见证了机器人学领域在应用语言模型(LMs)方面取得了显著的进展。这些进展不仅包括类似人类的交流能力,还包括机器人的理解和推理能力,从而显著提高了它们在从家庭杂务到工业操作等各种任务中的效率。在早期工作中,这些成功源于统计模型分析和预测语言表达中的词汇。这些模型使机器人能够解释人类命令,理解上下文,表征世界,并与人类互动,尽管理解的深度有限。随后,采用了具有自我注意机制的Transformer架构,尤其是像BERT这样的预训练语言模型,提高了捕捉复杂模式的能力,同时为特定任务进行微调。然而,这些模型的性能通常取决于有限的数据集,限制了它们把握更深层次上下文理解和在不同场景中泛化的能力。

随着大型语言模型(LLMs)的发展,基于语言的机器人引入了各个领域的创新变化,如信息检索、推理任务、环境适应、持续学习和改进等。这些LLMs,以其庞大的参数规模和在互联网规模数据集上的训练为特征,为下游任务提供了零次和少次学习能力,而不需要额外的参数更新。这些显著的进步来自于文献中定义为“在小模型中不存在但在大模型中出现的能力”的突现能力。这些能力显著增强了机器人在理解、推断和响应开放式指令方面的性能,利用了广泛的常识知识。此外,称为提示工程的提示创建技术使LLMs能够通过自由形式的语言描述或互动对话,整合更丰富的上下文信息,促进了泛化推理。引入上下文学习能力使LLMs能够根据提供的指示或示例中的提示生成预期格式的输出,如JSON、YAML或PDDL,甚至代码。最近的LLMs,如GPT-4,通过与外部机器人工具(如规划器或翻译器)的整合,进一步扩展了能力。

尽管LLMs具有多样的能力,但它们的利用面临几个挑战。首先,LLMs经常生成不准确或意外的响应。由于机器人执行的安全性是最重要的部署因素,基于LLM的机器人应用需要过滤和纠正机制以确保安全。其次,如上下文学习等突现能力尚不可预测且不一致。即使是对输入文本的轻微更改也可能导致响应的不可预测变化。第三,精心设计的提示使机器人能够有效地利用LLMs的能力,但缺乏支持机器人系统关键组件的系统化指导,阻碍了无缝集成。因此,我们需要研究LLMs在机器人中的逐部件参与,以了解其限制和安全性。 当前,各种综述已开始探索LLMs与机器人的交集,主要关注LLM驱动的机器人应用或互动维度。然而,仍然存在在机器人系统的关键元素,包括通信、感知、规划和控制方面提供全面评论和可操作见解的空白。此外,研究者们还在探索广泛的预训练大容量模型领域,称为基础模型,寻求跨模态Transformer模型的泛化能力。然而,这一广阔领域涵盖了广泛的机器人学和多样的方法论,使得新兴研究者错过深入的评论和指导。 在本文中,如图1所示,我们旨在分类和分析LLMs如何增强机器人系统的核心元素,以及我们如何指导新兴研究者在每个领域内整合LLMs,以促进智能机器人的发展。我们根据三个关键问题结构化本文: • Q1: LLMs在每个机器人领域中如何被利用? • Q2: 研究人员如何克服LLMs的集成限制? • Q3: 在每个领域产生最低功能所需的基本提示结构是什么?

为了回答这些问题,我们专注于在引入GPT-3.5之后开发的LLMs。我们主要考虑基于文本的模式,但也审查了感知和控制领域的多模态。然而,为了进行深入审查,我们将调查限制在LLMs而非基础模型上。 此外,我们提供了全面的提示工程指南和示例,旨在使初学者能够访问基于LLM的机器人解决方案。我们的教程级示例展示了如何通过引入四种类型的示例提示——对话提示用于互动定位,指令提示用于场景图生成,计划提示用于少次计划,以及代码生成提示用于奖励生成——增强或替换机器人组件的基本功能。通过提供提示构建的规则和技巧,我们概述了生成预期格式输出的良好设计提示的过程。这些原则确保了机器人应用中有效的LLM引导增强,无需参数调整。

本文的其余部分安排如下。第2节概述了机器人学中LMs和LLMs的历史背景。第3节评审了LLMs赋能机器人通过语言理解和生成进行交流的方式。第4节调查了LLMs如何感知各种传感器模态并推进感知行为。第5节和第6节分别组织了基于LLM的计划和控制研究。在第7节中,我们提供了提示工程的全面指南,作为LLM在机器人中集成的起点。最后,第8节总结了这篇综述。

成为VIP会员查看完整内容
13
登陆后查看更多精品内容
VIP会员
本周荟萃主题
区块链
区块链(Blockchain)是由节点参与的分布式数据库系统,它的特点是不可更改,不可伪造,也可以将其理解为账簿系统(ledger)。它是比特币的一个重要概念,完整比特币区块链的副本,记录了其代币(token)的每一笔交易。通过这些信息,我们可以找到每一个地址,在历史上任何一点所拥有的价值。
深度学习
机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。
机器学习
“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科
强化学习
强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。
推荐系统
推荐系统,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
卷积神经网络
在深度学习中,卷积神经网络(CNN或ConvNet)是一类深度神经网络,最常用于分析视觉图像。基于它们的共享权重架构和平移不变性特征,它们也被称为位移不变或空间不变的人工神经网络(SIANN)。它们在图像和视频识别,推荐系统,图像分类,医学图像分析,自然语言处理,和财务时间序列中都有应用。
计算机网络
计算机网络( Computer Networks )指将地理位置不同的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。
命名实体识别
命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。
机器翻译
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
计算机视觉
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
微信扫码咨询专知VIP会员