引领未来的技术革新——人工智能大语言模型技术发展研究

在当前科技革命的浪潮中,人工智能(AI)不仅仅是推动科技产业革命的强大引擎,更是新质生产力的核心驱动力。AI正以无法抗拒的力量深刻塑造全球经济、社会及文化景观。自2023年起,大模型技术崛起为AI发展的新标杆,引发了一场深远的技术变革。这些技术产品的快速迭代和升级,已经成为全球科技竞争的关键因素和战略博弈的核心。 在这种快速变化的背景下,及时地监测和全面地分析技术进步尤为重要,同样也前瞻性的对未来技术发展方向进行深入思考。《人工智能大语言模型技术发展研究(2024)》报告通过对2023年以来大模型技术进展的系统梳理,不仅提供了对AI技术趋势的深刻见解,更为“人工智能+”策略的实施奠定了坚实的理论和实践基础,助力各行各业实现技术转型和升级。

技术革新的核心——大语言模型

大语言模型作为新一轮科技产业革命的战略性技术,正引发经济、社会、文化等领域的变革和重塑。从软硬件协同、数据丰富度到算法优化,本报告深入探讨了大模型的技术基石,并展望了其在多模态数据处理、自适应学习能力等方面的发展前景。

核心能力进阶

深层语境解析与知识融合 人工智能大语言模型的核心能力在于深层语境解析与知识融合。通过对海量数据的深度学习和分析,大模型能够准确理解人类语言的深层含义,并将其与丰富的知识库相结合,提供更为智能、精准的服务。

创新应用形态——智能体

报告特别关注了智能体的发展,这一新兴的技术形态正成为大模型研发的重要方向。从通用机器人智能体到零代码智能体构建平台,智能体的广泛应用展示了大模型技术的无限可能。

市场发展的风向标

报告不仅在技术层面提供了深刻见解,更从产业发展的角度,分析了国产大模型的应用场景正在不断拓展,从互联网、金融、制造业等领域逐渐延伸至医疗、教育、交通等更多行业,较为成熟的大模型的应用生态丰富多样,从多模态数据处理到智能客服,人工智能技术正推动各行各业的数字化转型;从消费者角度来看,对AI产品和服务的需求越来越注重个性化和定制化,期望获得更加贴近自身需求的解决方案,在此方面,大模型在中文内容的生成和推理方面构筑了明显的比较优势,为中文用户带来了更加精准和个性化的服务体验。

未来展望

面对未来,未来的大模型将更加注重多模态数据的融合和处理,以及在多应用场景下的自适应和迁移学习能力。这将使大模型能够更好地理解和适应复杂多变的实际应用环境。同时要注重强化隐私保护与数据安全等发展方向,推动大模型技术的可持续发展。

结语

《人工智能大语言模型技术发展研究》报告的发布不仅是对当前AI技术状况的深入分析,更标志着对未来科技方向的战略性评估与指引。报告全面展望了大语言模型作为下一代技术革命的核心,将如何继续引领全球科技创新和经济结构的转型。 随着人工智能核心技术的快速进步,大语言模型将不仅仅是技术领域的变革者,更将成为推动社会治理现代化、提高人民生活质量的重要力量。

成为VIP会员查看完整内容
83

转载机器之心报道 编辑:泽南、小舟这可能是当今最全面、最新的深度学习概述之一。 爆火的深度学习领域,最近又有了热门学习资料。

近日,麻省理工出版社的新书《Understanding Deep Learning》(深入理解深度学习)迎来了中文版。

这本书一共分为 21 个章节,涵盖了深度学习领域的许多关键概念,包括基本构建、Transformer 架构、图神经网络 GNN、强化学习 RL、扩散模型等等。对于不论是初学者,还是已有工作经验的开发者来说都有极高的价值。

GitHub 链接:https://github.com/careywyr/UnderstandingDeepLearning-ZH-CN * 书籍原链接:https://udlbook.github.io/udlbook/

目前,该书的英文电子版下载量已达到 34.4 万。

该书的实体版本在去年 12 月正式发布,全书共 541 页,不过它的电子版一直在继续更新。目前在网站上,作者还提供了 68 个 Python 笔记本练习,可以帮助读者通过编程实践加深理解。

本书希望以准确易懂的方式,向人们介绍深度学习的基础思想,旨在帮助刚入门的读者理解深度学习背后的原理。对于想要深入理解本书内容的读者来说,只需要本科水平的数学知识就能读懂。

具体来说,该书在前面的部分介绍了深度学习模型,并讨论了如何训练、评估这些模型,如何提高它们的性能的方法。在接下来的部分,作者会带领我们考察专门用于图像、文本和图数据的架构。后续的章节探讨了生成模型和强化学习。倒数第二章探讨了这些以及其他尚未完全理解的方面。最后一章讨论了 AI 伦理。

目录

第一章 - Introduction 介绍 第二章 - Supervised learning 监督学习 第三章 - Shallow neural networks 浅层神经网络 第四章 - Deep neural networks 深度神经网络 第五章 - Loss functions 损失函数 第六章 - Fitting models 训练模型 第七章 - Gradients and initialization 梯度和初始化 第八章 - Measuring performance 性能评估 第九章 - Regularization 正则化 第十章 - Convolutional networks 卷积网络 第十一章 - Residual networks 残差网络 第十二章 - Transformers 第十三章 - Graph neural networks 图神经网络 第十四章 - Unsupervised learning 无监督学习 第十五章 - Generative adversarial networks 生成对抗网络 第十六章 - Normalizing flows 标准化流 第十七章 - Variational autoencoders 变分自编码器 第十八章 - Diffusion models 扩散模型 第十九章 - Deep reinforcement learning 深度强化学习 第二十章 - Why does deep learning work? 为什么深度学习有效? 第二十一章 - Deep learning and ethics 深度学习与伦理

作者介绍

《深入理解深度学习》的作者是英国巴斯大学(University of Bath)计算机科学教授 Simon J.D. Prince,他专注于研究计算机视觉和计算机图形学。

领英资料显示,Simon J.D. Prince 十几年来一直在研究机构从事计算机科学和 AI 研究工作,例如曾在软件开发公司 Anthropics Technology 担任 7 年首席科学家。2022 年,他加入巴斯大学任名誉教授。

Simon J.D. Prince 已在顶级会议(CVPR、ICCV、SIGGRAPH 等)上发表超过 50 篇论文。他还是《计算机视觉:模型、学习和推理》的作者。

参考链接: https://x.com/tuturetom/status/1814689613304508777

成为VIP会员查看完整内容
80

随着 ChatGPT 等基于大模型的产品展现出强大的通用性能,学术界和工业界正积极探索如何 将这些模型适配到特定行业和应用场景中,即进行垂直领域大模型的定制化。然而,现有的通用大模 型可能无法完全适配特定领域数据的格式,或不足以捕捉该领域的独特需求。因此,本文旨在探讨垂 直领域大模型定制化的方法论,包括大模型的定义和类别、通用架构的描述、大模型有效性背后的理论 基础,以及几种可行的垂直领域大模型构建方法,期望通过这些内容为相关领域的研究者和从业者在 垂直领域大模型定制化方面提供指导和参考。

ChatGPT 以其卓越的通用性能重塑了人们对人工智能的理解。作为 ChatGPT 的核心,大语言模 型(Large language model)已经成为众多领域研究人员和专业人士改进工作流程的重要工具。通用大 模型通常在广泛的公开数据集上进行训练,这使得它们能够学习并解决各种常见问题,但这些数据集 无法完全覆盖某些特定领域的所有专业知识和技术细节,这导致尽管通用大模型具备广泛的通用知 识,却缺乏足够的知识深度来满足某些特定领域的复杂需求。因此,针对特定行业的需求来构建垂直 领域大模型变得尤为重要。垂直领域大模型,或称垂类大模型、行业大模型,是针对特定领域的数据和 应用而开发的大模型[1] 。与通用大模型相比,它们在训练过程中会使用大量特定领域的数据,从而能够 更准确地理解和生成与该领域相关的专业内容。 随着类 ChatGPT 的产品和神经网络模型的接连推出,“大模型”概念的范围也在逐步扩张[2‑4] 。鉴 于相关概念繁杂,为了确定本文的研究共识,需要对“大模型”概念进行定义并阐述其特点,从而奠定后 文对垂直领域大模型定制化的叙述基础。本文所提及的大模型(Foundation model),是在多模态大模型 (Multimodal large model)五模块框架(下文将详细介绍该框架)中,包含了能够实现其中一个或多个模 块功能的神经网络模型,且该模型符合以下特点: (1)大数据。使用覆盖了多种场景的大量数据进行模型的训练,为模型提供充足的知识。 (2)大参数。模型的参数量达到一定规模,足以将大量数据中隐含的知识固化到模型参数中。 (3)通用性。模型的输入数据格式和数据处理流程能够适配多种任务场景下的输入格式和需求。 (4)泛化性。模型拥有一定的泛化性,使其在未知数据域中依然具有良好性能。 根据大模型可处理的模态数量,可将大模型分为单模态大模型和多模态大模型: (1)单模态大模型。VGG[5] ,ResNet[6] ,GPT‑1 [7] ,GPT‑2 [8] ,GPT‑3 [9] ,GPT‑3.5 turbo[10] ,BERT[11] , GLM[12‑13] ,LLaMA[14] ,LLaMA‑2 [15] ,iGPT[16] ,LVM[17] ,BART[18] 和 T5 [19] 。 (2)多 模 态 大 模 型 。 CoDi[20],CoDi ‑ 2 [21],Claude ‑ 3 [22],GPT ‑ 4 [23],LLaVA[24],BriVL[25],Image‑ Bind[26] 和 NExT‑GPT[27] 。 在构建垂直领域大模型的过程中将面临一系列挑战,尤其是在数据获取和预处理阶段。比如,其 需要处理的垂直领域数据并不开源或难以获取,具有私密性;或是数据模态与通用大模型使用的中心 模态不同,导致无法迁移现成的大模型处理该数据;又或是垂直领域数据与预训练模型的数据域有所 不同,需要向预训练模型输入专业领域知识。垂直领域大模型应用方式灵活,涉及的应用领域繁杂,构 建难度大、开销大,涉及的技术安全问题至关重要,期望产生的经济效益高[28‑30] ,因此有必要对其构建方 法论进行深入探索和全面梳理,并总结出相应的方法论。 以往的综述文献都更多地关注大模型本身的发展[2‑4,31‑36] ,但对于垂直领域大模型的定制化方法论 方面缺乏详细的讨论。本文通过介绍垂直领域大模型定制的理论基础、垂直领域大模型的定制方法、 垂直领域大模型的应用实例,以及垂直领域大模型定制化的未来发展方向,为有意构建垂直领域大模 型应用的研究者及工作者提供模型定制方法论层面的参考。

成为VIP会员查看完整内容
74

来源:中国信息通信研究院

近几年,大模型推动人工智能技术迅猛发展,极大地拓展了机器智能的边界,展现出通用人工智能的“曙光”。如何准确、客观、全面衡量当前大模型能力,成为产学研用各界关注的重要问题。设计合理的任务、数据集和指标,对大模型进行基准测试,是定量评价大模型技术水平的主要方式。大模型基准测试不仅可以评估当前技术水平,指引未来学术研究,牵引产品研发、支撑行业应用,还可以辅助监管治理,也有利于增进社会公众对人工智能的正确认知,是促进人工智能技术产业发展的重要抓手。全球主要学术机构和头部企业都十分重视大模型基准测试,陆续发布了一系列评测数据集、框架和结果榜单,对于推动大模型技术发展产生了积极作用。然而,随着大模型能力不断增强和行业赋能逐渐深入,大模型基准测试体系还需要与时俱进,不断完善。

一、大模型基准测试发展概述 近几年,大模型推动人工智能技术迅猛发展,极大地拓展了机器 智能的边界,展现出通用人工智能的“曙光”,全球各大科技巨头和创 新型企业纷纷围绕大模型加强布局。如图 1 所示,2018 年,谷歌公司 提出基于 Transformer 实现的预训练模型 BERT,在机器阅读理解水 平测试 SQuAD 中刷新记录。同年,OpenAI 公司发布了第一代生成式 预训练模型 GPT-1,擅长文本内容生成任务。随后几年,OpenAI 相 继推出了 GPT-2 和 GPT-3,在技术架构、模型能力等方面进行持续创 新。2022 年 11 月,OpenAI 发布的 ChatGPT 在智能问答领域上的表 现引起产业界轰动。除了大语言模型,2023 年,OpenAI 还发布了多 模态大模型 GPT-4。同期国内大模型的发展也呈现不断加速态势,已 经发布了华为“盘古”、百度“文心一言”、阿里“通义千问”、腾讯“混元” 和智谱“清言”等 200 多个通用和行业大模型产品。

二、大模型基准测试现状分析 2023 年,大模型基准测试迎来飞速发展的一年,大模型的评测体 系、数据集、方法、工具如雨后春笋般出现。本章对已发布的大模型 基准测试成果进行简要介绍,主要分为评测体系、数据集和方法等, 以梳理大模型基准测试的整体发展趋势,并探寻未来发展方向。 (一)大模型基准测试体系总体介绍 与传统认为 Benchmark 仅包含评测数据集不同,大模型基准测试 体系包括关键四要素:测试指标体系、测试数据集、测试方法和测试 工具。指标体系定义了“测什么?”,测试方法决定“如何测?”, 测试数据集确定“用什么测?”,测试工具决定“如何执行?”。

(二)代表性的大模型基准测试体系 当前已发布的评测榜单背后均有相应的评测体系和方法,国内外 知名度较高的大模型基准测试体系包括:

  1. HELM HELM(Holistic Evaluation of Language Models)是由斯坦福大学 在2022年推出的大模型评测体系。该体系主要包括了场景(Scenarios)、 适配(Adaptation)和指标(Metrics)三个核心模块,每次评测都需要 “自顶而下”指定一个场景、一个适配模型的提示工程词和一个或多 个指标来进行。如图 10 所示,HELM 使用了几十个场景和多个指标 的核心集完成大模型评测,场景涉及问答、信息检索、摘要、毒性检 测等多种典型评测任务,指标包括准确性、校准、鲁棒性、公平性、 偏差、毒性、效率等。

  2. HEIM HEIM(Holistic Evaluation of Text-to-Image Models)是由斯坦福 大学在 2023 年推出的多模态大模型评测体系。与之前文本生成图像 的评测主要关注文本图像对齐和图像质量不同,HEIM 定义包括文本 图像对齐、图像质量、美学、原创性、推理、知识、偏见、毒性、公 平性、鲁棒性、多语言性和效率在内的 12 个维度。HEIM 确定包含这些维度的 62 个场景,并在这个场景上评测了 26 个最先进的文本到 图像的生成模型。

  3. HRS-Bench HRS-Bench(Holistic Reliable Scalable Bench)是由沙特的 KAUST 在 2023 年推出的全面、可靠、可扩展的多模态大模型评测体系。与 之前文本生成图像仅考察有限维度不同,HRS-Bench 重点评测大模型 的 13 种技能,可分为准确率、鲁棒性、泛化性、公平性和偏见 5 个 类别,覆盖了包括动物、交通、食物、时尚等 50 多个场景。

  4. OpenCompass OpenCompass(司南)是由上海 AI 实验室推出的开源、高效、 全面的评测大模型体系及开放平台,其包括评测工具 CompassKit、数 据集社区 CompassHub 和评测榜单 CompassRank。在已发布的评测榜 单中,对语言大模型主要考察语言、知识、推理、数学、代码和智能 体方面的表现。对多模态大模型主要评测在 MMBench、MME 等数据 集上的指标。OpenCompass 提供了开源大模型基准测试工具,已集成 大量的开源大模型和闭源商业化 API,在产业界影响力较大。

  5. FlagEval FlagEval (天秤)是由北京智源研究院推出的大模型评测体系及 开放平台,其旨在建立科学、公正、开放的评测基准、方法、工具集, 协助研究人员全方位评估基础模型性能,同时探索提升评测的效率和 客观性的新方法。FlagEval 通过构建“能力-任务-指标”三维评测框 架,细粒度刻画基础模型的认知能力边界,包含 6 大评测任务,近 30个评测数据集和超 10 万道评测题目。在 FlagEval 已发布的榜单中, 其主要通过中、英文的主、客观题目对大模型进行评测,具体任务包 括选择问答和文本分类等。

  6. SuperCLUE SuperCLUE 是由 ChineseCLUE 团队提出的一个针对中文大模型 的通用、综合性测评基准。其评测范围包括模型的基础能力、专业能 力和中文特性,基础能力包括语言理解与抽取、闲聊、上下文对话、 生成与创作、知识与百科、代码、逻辑与推理、计算、角色扮演和安 全。目前提供的基准榜单包括 OPEN 多轮开放式问题评测、OPT 三 大能力客观题评测、琅琊榜匿名对战基准、Agent 智能体能力评估、 Safety 多轮对抗安全评估等。除此之外,还针对长文本、角色扮演、 搜索增强、工业领域、视频质量、代码生成、数学推理、汽车等领域 单独发布大模型能力榜单。 三、大模型基准测试体系框架 大模型基准测试体系涵盖大模型的测评指标、方法、数据集等多 项关键要素,是指导大模型基准测试落地实践的规范。大模型基准测 试体系的建设和完善,旨在形成一个全面、客观、规范的大模型基准 测试的方法论,从而保障大模型评测结果的公正性和客观性。当前大 模型的基准测试偏重模型的通用能力,产业界也亟需面向具体场景和 实际落地效果的模型评测能力。

成为VIP会员查看完整内容
71

以“数据”和“智能”为代表的信息技术在数十年间快速融入全社会的生产、分配、流通、消费、社会服务管理等环节,不断带动生产力提升,推动社会进步。近年来,伴随数据增列为生产要素、生成式人工智能技术实现突破,“数据”和“智能”产业均进入剧烈变革期,两者间的发展关系也发生巨大变化,“数据智能”顺势成为产业焦点。为梳理数据智能相关知识体系,总结先进实践经验,研判未来发展趋势,指引企业顺利实现数智化转型,大数据技术标准推进委员会牵头,联合行业专家和头部企业首次共同编制《数据智能白皮书(2024年)》。本白皮书聚焦数据智能这一话题,梳理概念的诞生背景及发展历程,系统性厘清完整技术体系,深入剖析应用现状问题,展现产业生态全景,以期为企业未来的数据智能实践提供参考。

成为VIP会员查看完整内容
68

无人驾驶飞行器(UAV)又称无人机,它的发展给航空业带来了革命性的变化,并已成为现代战争的一部分。无人机最初是为军队开发的,用于执行对人类来说 "枯燥、肮脏或危险 "的任务,如今,无人机已被用于支持大量非军事任务,如治安和监视、航空摄影、包裹递送、森林火灾监测和扑救、农业、基础设施检查和科学工作等。无人机的军事用途始于越南战争,但在伊拉克冲突以及后来的阿富汗冲突中都有广泛使用。最近,在阿塞拜疆与亚美尼亚的冲突中,智能无人机的使用使阿塞拜疆明显占了上风。土耳其的 TB-2 无人机被乌克兰非常有效地用于收集情报,以对付强大得多的俄罗斯。显然,无人驾驶飞机技术现已成为增强战斗力的手段。

大多数无人机都有一名操控员,他从远程位置驾驶无人机,通过安全的通信链路控制无人机的使用。人工智能(IA)和机器学习(ML)以及高速机载计算的进步使无人机能够自主运行。在大多数空中任务中,无人机正在迅速取代人类。无人机被用于空中加油,无人驾驶旋翼机在移动的船只上自主着陆,无人机利用太阳能执行长时间飞行任务,还有无人驾驶或可选择有人驾驶的战斗机。无人机正在成千上万地组成完全协调的飞行群。有人机-无人机空中编队,即一架有人机控制一组无人机。这种编队将利用两种类型的优势。作战无人机正被用于情报、监视和侦察(ISR)、电子战、地面打击任务和空中作战。大型无人机执行货运任务的工作已经开始。实际上,有朝一日无人机将执行所有类型的空中任务。

无人机的尺寸和重量多种多样。无人机的分类还与其最大工作高度和航程有关。无人机可以小到昆虫,也可以大到客机。飞行高度带可以与有人驾驶飞机一样高。如果人类不在平台上,续航时间甚至可以长达数月。同样,无人机在进行高 "g "机动时也不再受人类生理机能的限制。无人机可以以超音速飞行,以后甚至可以以高超音速飞行。太空已经被无人系统所占据,因此,航空航天领域未来也会有更多的无人系统。

实际上,世界上所有重要的空军部队都拥有无人机。许多国家都在制造无人机和小型无人机。美国、以色列和中国在无人机制造领域处于全球领先地位。土耳其也正在成为一个重要的出口国。数以百万计的业余无人机在全球各地飞行。四旋翼无人机是业余无线电遥控飞机和玩具广泛流行的例证。

无人驾驶航空通勤飞行器已经过测试,很快就会出现在空中。这需要国际民用航空组织(ICAO)的规定,包括空中规则。还有适航认证问题。无人机遥控驾驶员需要进行分类,并获得有效期为 10 年的遥控驾驶员培训组织(RPTO)认证。必须为市内通勤指定特定的城市空中走廊。空中交通管理将面临新的动态。无人机销售也需要通过独特的识别号码和许可证进行监管。

战斗无人机拥有更大的自主权,可以在没有决策干预的情况下自由攻击和杀害人类,这涉及伦理和法律问题,需要加以解决。在无人机中,人类仍将以某种形式处于环路中,即使这意味着决定算法并拥有一定的优先权或否决权。设计板上的大多数高端未来飞机仍以飞行员为中心。因此,尽管无人驾驶飞行器取得了进步,但飞行员仍需要一些年才能看到空中的彩虹和高空的日落。

在伊拉克、阿富汗和伊朗等国,无人机曾被用来追踪和杀害人类。最近,一个配备致命武器的自主杀人机器人在利比亚袭击人类。无人机正被用于定点清除重要人物。2020 年 1 月 3 日,伊朗少将卡西姆-苏莱曼尼在巴格达国际机场被美军无人机击毙。2022 年 5 月初,911 袭击的实施者之一艾曼-扎瓦希里(Ayman al-Zawahiri)在喀布尔的一次超视距无人机袭击行动中丧生,当时他作为塔利班的客人居住在喀布尔。

无人机已被用于走私武器和毒品。恐怖分子可以利用无人机攻击目标,甚至击落飞机。携带小型手榴弹的无人机群可以神风特攻队的方式飞入大型集会,制造混乱。

由于无人机已成为一种强大的空中武器平台,使用反无人驾驶航空系统使其失效就变得非常重要。由于无人机体积小、特征低,探测总是会延迟。先进的雷达和光电探测手段正在不断发展。可以通过动能手段使用硬杀伤武器击落无人机,也可以使用电子战技术使其失效,或发射一张网缠住旋翼。

反无人机系统(C-UAS)技术的兴起主要是由于在民用和战时环境中不断扩大使用无人机(体积小、价格低的系统)所带来的新威胁。与探测系统一样,没有一种拦截系统是完全有效的。由于无人机技术的扩散,反无人机系统将不可避免地成为未来所有冲突中无处不在的武器。这些反无人机系统必须足够灵活,能够探测到各种形状和大小的无人机并使其失效。

本专著试图对无人机和反无人机技术在军事和民用领域的发展进行环境扫描,以及这些技术如何试图改变现代战争的性质,从低强度冲突到全面战争

该专著分为三个部分,首先从历史角度介绍了无人机作为空中力量的一个要素是如何演变的。

第一部分用六章介绍了无人机技术,涉及无人机的组件、操作、技术进步以及影响其操作的法律问题等各个方面。

第二部分有两章,涉及与反无人机系统有关的操作和技术方面。

第三部分有两章,总结了目前使用这些系统的启示,以及在塑造这两种系统未来发展方向方面的经验教训。最后一章总结了无人机和反无人机的主题。

成为VIP会员查看完整内容
58

7月5日下午,清华大学、中关村实验室、蚂蚁集团等机构联合撰写的**《大模型安全实践(2024)》白皮书**(以下简称“白皮书”)在2024世界人工智能大会上正式发布。

白皮书首次系统化提出安全实践总体框架,从安全性、可靠性、可控性等维度给到了技术实施方案,同时提供了金融、医疗、政务等领域的大模型安全应用案例,以及“五维一体”协同共治的治理框架,为大模型行业规范高质量发展提供技术和实践的建议与参考

大模型技术正成为推动社会进步和创新的关键力量。然而随着大模型能力的不断增强,其安全性、可靠性、可控性受到前所未有的挑战,如研发过程中引发信息泄露、价值对齐、机器幻觉等问题,以及落地过程中面临的数据、模型、算法及其运行的软硬件环境安全风险。

面对以上挑战,白皮书提出了大模型安全实践总体框架。

该白皮书确立了“以人为本,AI向善”为大模型安全建设的核心,确保技术进步服务于人类福祉; 以“安全、可靠、可控”三个核心维度的大模型安全技术体系,并涵盖了大模型安全测评与防御的综合技术方案; 以及“端、边、云”为大模型安全技术的主要承载实体。

图:大模型安全实践总体框架

作为报告核心,大模型安全技术体系里,安全性意味着确保模型在所有阶段都受到保护,涉及数据安全、模型安全、系统安全、内容安全、认知安全和伦理安全等;可靠性要求大模型在各种情境下都能持续提供准确、一致、真实的结果;可控性关乎模型在提供结果和决策时能否让人类了解和介入,可根据人类需要进行调适和操作。通过这三个维度,可提升大模型的鲁棒性、可解释性、公平性、真实性、价值对齐、隐私保护等方向的能力

白皮书指出安全评测技术和安全防御技术也是保障大模型安全的有效手段,但目前大模型的安全评测绝大多数是针对内容类场景,随着大模型技术快速发展和广泛应用,对Agent这类复杂大模型应用架构和未来通用AGI的评估是当下面临的挑战。制定标准建立面向未来的大模型可信测评体系将会变得越来越重要,这需要政府、高校等机构,联合有相关经验的企业共同合作。

**白皮书以蚂蚁集团自研的大模型安全一体化解决方****案“蚁天鉴”为例,**介绍了国内机构和企业在探索大模型安全应用的优秀实践。

图:蚁天鉴大模型一体化解决方案

蚁 天 鉴 蚁天鉴是一款兼具大模型安全测评和防御的产品,目前已开放给20余家外部机构和企业,在金融、政务、医疗等重要领域得到采用,为行业大模型数据、训练、部署、应用等环节提供安全保障。

金融场景

例如,在金融场景,蚂蚁AI金融助理“支小宝”,从大模型训练与推理风险管控、大模型风险点全方位评测、大模型用户交互风险管控三个方面保障大模型应用安全;针对金融业务,通过内嵌一致性检验和金融价值对齐,确保数据的准确性和金融逻辑的严格性。

医疗场景

在医疗场景,上海市第一人民医院引入“蚁天鉴”解决方案,在其首创安全前置护栏技术保障下,可精准杜绝医院最关注的风险的出现,保障医疗大模型生成的内容更符合医疗垂类的安全和专业,有效应对大模型应用中的信息安全与隐私保护、双向内容风险防控等问题。

政务领域

在政务领域,“赣服通”政务AI助理在端侧实施的安全措施具有借鉴意义。通过千万政务预料训练来实现精准意图识别、智能追问反问和高频事项即问即办等功能;针对政务行业大模型应用中生成不可控、安全覆盖面广、内容对抗强、时效要求高等挑战,构建安全护栏和安全防御两大核心能力,覆盖数百项大模型内容生成风险,可应对单次50万量级的饱和攻击。

清华大学长聘副教授、博士生导师李琦指出,大模型安全应用是一个新兴领域,研究和应用尚处于起步阶段。不少企业是在原有的传统数据安全、信息安全、系统安全等经验基础上,进行能力迁移,应用于大模型安全。随着新的大模型安全实践的不断深入,技术也会持续升级,为大模型安全构建实践范式,打造高价值参考体系。

图:蚂蚁集团安全实验室首席科学家王维强主题演讲

蚂蚁集团安全实验室首席科学家王维强在会上做了《大模型应用安全可信实践探索》的主题演讲。王维强认为,随着大模型的深度应用,在原有可信人工智能治理体系框架基础上,提升大模型的安全、可靠、可控建设,确保技术进步服务于人类福祉,是未来人工智能可持续发展的重要保障。

白皮书最后还提出了构建集大模型安全政府监管、大模型安全生态培育、大模型安全企业自律、大模型安全人才培养、大模型安全测试验证“五维一体”多元参与、协同共治的治理框架。这有助于推进大模型安全生态形成、大模型可持续发展

成为VIP会员查看完整内容
54

针对当前军事领域知识图谱描述装备体系存在的数据规范程度不高、实体不统一和实体关系不一致等问题, 提出一种基于元模型的军事领域本体模型构建方法。该方法采用体系架构元模型技术框架下的概念数据模型和逻辑数据模型定义装备体系本体, 从而生成装备体系知识图谱, 避免不同兵种、不同业务领域装备体系本体不一致的影响。选取协同打击任务场景构建无人机集群装备体系应用本体, 导入Neo4j软件生成知识图谱。结果表明, 所提方法能够满足装备体系知识图谱构建需求。 体系对抗是现代战争的基本对抗形式, 体系建设关系到战争的胜败。装备体系作为作战体系的重要物质基础和能力支撑, 其建设发展质量直接影响作战体系效能发挥。近年来, 在高新技术的推动下, 国外先后提出了马赛克战、多域战和分布式作战等一系列作战概念, 装备体系的复杂程度逐渐增加, 体系要素类型日趋庞大, 系统交互更加密集[1]。如何构建和运用要素复杂、数据密集和信息耦合的装备体系, 支撑作战需求实现, 已经成为装备建设发展的重要课题。 知识图谱借助图形学、应用数学实现信息可视化, 以可视化的图形直观展示知识内容, 在医学、金融和智能搜索等领域取得较快发展。在军事领域, 运用知识图谱可以清晰显示装备体系的系统组成、关系和属性, 为装备体系的发展论证、运用和分析提供重要支撑。知识本体作为知识描述框架, 是知识图谱的基础, 国内外很多学者对本体构建开展了相关研究。文献[2]基于生物医学本体构建了新型冠状病毒知识图谱, 用以存储和管理病毒知识。文献[3]提出一种利用生物概念互联本体构建生命科学不同子领域知识图谱的方法, 破解概念间关系跨越不同子领域的难题。文献[4]介绍了一种动态本体构建技术, 用以描述语义物联网。文献[5]提出一种适合武器装备体系的本体构建方法, 构建武器装备体系知识图谱。文献[6]在对当前军事领域本体构建方法归纳总结的基础上, 提出了一套军事领域本体构建流程。文献[7]提出了一种基于开源和多维数据的军事领域知识图谱构建方法, 并描述了构建图谱的过程。 当前, 装备领域知识图谱的构建主要采取基于“采集领域军事语料+概念分析”的本体建模的方式, 构建的本体存在重用性不强, 知识图谱数据规范程度不高、概念不统一和关联关系不一致等问题, 且构建的图谱只能反映装备体系组成要素的静态关系, 无法有效展示装备体系基于任务的交互。针对以上问题, 本文提出一种基于元模型的装备领域本体构建方法, 采用体系架构元模型的概念数据模型和逻辑数据模型, 定义装备体系概念层次、属性及其关系, 构建装备体系领域本体模型; 结合装备体系要素构成和应用场景, 细化领域本体模型生成应用本体, 最终基于应用本体构建知识图谱。

成为VIP会员查看完整内容
46

边缘人工智能(AI)包括一个由互联系统和设备组成的网络,这些系统和设备接收、缓存、处理和分析与数据捕获位置密切相关的数据。近年来,AI效率的提升、物联网(IoT)设备的广泛使用以及边缘计算的兴起,揭示了边缘AI的巨大潜力。边缘AI的目标是优化数据处理的效率和速度,同时确保数据的机密性和完整性。尽管这一研究领域相对较新,从2014年开始到现在,但在过去五年中已经显示出显著和快速的发展。在本文中,我们对边缘AI进行了系统的文献综述,讨论了现有研究、最新进展和未来的研究方向。我们创建了一个用于云和边缘计算分析的协作边缘AI学习系统,包括对支持这一机制的架构的深入研究。边缘AI的分类法有助于边缘AI系统的分类和配置,同时还考察了其在基础设施、云计算、雾计算、服务、使用案例、机器学习和深度学习以及资源管理等诸多领域的潜在影响。本研究强调了边缘AI在网络边缘处理实时数据的重要性。此外,它还突出了边缘AI系统面临的研究挑战,包括资源限制、安全威胁的脆弱性以及可扩展性问题。最后,本研究强调了旨在通过提供创新解决方案来解决边缘AI当前局限性的潜在未来研究方向。

关键词:边缘计算、人工智能、云计算、机器学习、边缘AI

I. 介绍

近年来,人工智能(AI)效率的提升、物联网(IoT)设备的采用以及边缘计算能力的增强,正在共同释放边缘人工智能(Edge AI)的潜力【1】。众多分析师和企业正在讨论和实施边缘计算,其起源可以追溯到20世纪90年代,当时位于客户附近的边缘服务器被用于通过内容分发网络提供网页和视频内容【2】。在这一边缘AI中,边缘计算是一种范式转换,它将数据存储和处理更接近数据源,从而提高响应时间并减少带宽使用。与传统云计算不同的是,边缘计算在网络的边缘处理数据【3】。这种接近性降低了延迟,提高了实时数据处理能力,并支持IoT设备和服务的扩展【4】。边缘计算的主要优势包括服务灵活性提高、低延迟、增强的一致性以及消除单点故障,使其在智能城市、自主车辆和工业自动化应用中高度相关【5】。通过地理分布计算资源,边缘计算确保数据处理发生在数据源附近,满足实时分析和决策的需求。

另一方面,AI包含广泛的技术和方法,使机器能够执行通常需要人类智能的任务,如学习、推理和自我纠正【6】。AI的应用涉及多个领域,包括医疗、金融、交通等,在这些领域,AI用于分析大型数据集、自动化任务和提供预测性见解【7】。将AI整合到不同部门中,已经通过提高效率、改进决策和创造创新机会,彻底改变了流程。随着机器学习(ML)或深度学习(DL)的改进,AI方法在执行需要人类认知功能的复杂任务方面变得越来越有能力【8】。特别是涉及神经网络的AI算法在图像和语音识别、自动驾驶和预测性维护等领域取得了显著成功。

**A. 用于AI的边缘计算

边缘计算与AI的融合涉及在用户设备上处理AI算法,提供如降低延迟、能源效率和实时应用等益处。这种集成允许在源头进行实时数据处理和决策,显著减少延迟和带宽使用【9】。边缘计算与AI的结合使得更智能和更灵敏的应用成为可能,如自主车辆、工业物联网、智能家居系统等。通过利用边缘AI,组织可以实现更高的效率、增强的隐私和更快的洞察力,推动各个领域的创新【10】。边缘AI是指在网络边缘集成AI功能,使边缘设备具备分布式智能。其目的是改善网络连接性,支持具有定义质量目标的AI流水线部署,并允许数据驱动应用的适应【11】。在边缘嵌入AI功能解决了基于云处理IoT的局限性,如隐私问题和网络连接问题。边缘AI的部署增强了对延迟敏感的任务,并减少了网络拥塞,提高了无线网络的效率和安全性。

此外,基于AI的技术在解决边缘环境中的服务质量(QoS)感知调度和资源分配挑战方面起着至关重要的作用,确保服务质量和用户体验。边缘AI支持作为服务的AI(AIaaS)部署,具有可配置的模型复杂性和数据质量,提高了性能并降低了成本【12】【13】。这种创新方法通过在边缘利用AI功能,支持智能安全应用并增强分布式系统的安全措施。边缘智能,一种有前途的技术,通过将计算从云服务器转移到IoT边缘设备,赋能实时应用,创造了拥有广阔可能性的智能企业【14】。在边缘而非集中位置利用AI,释放了与IoT设备和边缘计算结合的AI潜力,在资源受限的边缘设备上部署AI算法,用于各种应用如自主车辆、医疗保健和监控。 边缘AI的重要性在于它能够在不将大量数据发送到多个集中位置的情况下提供即时的洞察和行动【15】。这种能力在延迟和带宽是重大限制的情况下尤为关键,如在自主驾驶中,必须实时做出决策,或在医疗保健中,必须快速处理患者数据以提供及时的干预【16】。边缘AI的崛起也得益于硬件的进步,如更强大和高效能的处理器,使得在智能手机和IoT传感器等设备上运行复杂的AI模型成为可能【17】。

**B. 动机和贡献

将边缘计算与AI结合的动机是多方面的,主要驱动因素是实时处理数据的迫切需求以及解决集中云计算系统固有局限性【18】。随着连接设备数量的指数级增长和数据量的激增,传统的云中心模型越来越多地面临如延迟、带宽限制和显著的数据隐私问题。边缘AI作为解决这些挑战的关键方案,倡导本地化数据处理【19】。这种转变不仅减少了对远程云基础设施的依赖,从而大幅降低延迟,还显著增强了应用对实时数据输入的响应能力。这种范式转变对于推动需要瞬时数据分析和决策的下一代技术发展尤为重要,涵盖了如自主车辆、智能城市基础设施和尖端医疗系统等领域。

此外,边缘AI使得即使在稀疏连接的情况下,应用也能高效运行,通过在源头直接处理数据。这种能力在远程或高度移动的环境中至关重要,在这些环境中,持续和可靠的互联网访问并不总是有保障的【20】。通过现场处理数据,边缘AI显著增强了数据隐私和安全措施,减少了将敏感信息传输到远程服务器的需求。在如医疗和金融等领域,数据的机密性和完整性至关重要,这一特性尤为关键。边缘AI还通过减少需要通过网络传输的数据量,支持带宽效率,是数据密集型应用的经济选择【21】。这种效率不仅降低了运营成本,还缓解了网络拥堵,促进了更顺畅和可靠的数据流。可扩展性是边缘AI提供的另一个重要优势【6】。随着设备网络的扩展,边缘计算允许无缝扩展,而不会因集中处理能力的瓶颈而受限,使企业和技术能够在不受基础设施限制的情况下增长。

总的来说,边缘计算与AI的结合不仅是技术进步,也是满足现代应用动态需求的战略必要。通过提倡降低延迟、增强隐私和安全、提高带宽效率和可扩展性,边缘AI将彻底改变数据驱动决策的方式,迎来一个高效且以隐私为中心的智能时代。

本文的主要贡献是:

  • 我们提供了对边缘AI的全面介绍,涵盖其历史、挑战和前景。
  • 我们进行了系统的文献综述,基于多个应用领域对边缘AI研究进行了详尽的审查,突出当前趋势和未来可能的方向。
  • 我们提出了一个边缘AI的分类法,有助于边缘AI系统的分类和排列,并通过各种应用探索其跨学科的潜在影响。
  • 我们强调了边缘AI在网络边缘实时处理数据的重要性,同时指出了边缘AI系统面临的挑战,如资源限制、安全风险和扩展问题。
  • 我们提出了旨在通过提供创新解决方案和未来研究机会来解决边缘AI当前局限性的有前途的未来方向。

****

**C. 文章组织结构

第二部分讨论了一个相关的调查,重点关注与边缘AI集成的不同应用中的算法、优化技术、安全和隐私问题。第三部分介绍了边缘AI的背景和现状。第四部分详细描述了采用的审查方法。第五部分概述了涵盖基础设施、云计算、雾计算、服务、用例、机器学习和深度学习以及资源管理的分类法。第六部分基于分类法比较了现有的边缘AI实现。第七部分呈现了分析和获得的结果,并在第八部分讨论了未来的研究方向。最后,第九部分总结了这项调查。

边缘AI:背景与现状

本节为读者解释了与边缘AI背景和现状相关的一些概念。子节III-A解释了边缘计算及其历史起源。子节III-B提供了有关AI与边缘技术整合的信息。接下来通过子节III-C和子节III-D分别解释边缘AI应用和挑战。

**A. 边缘计算的历史起源

边缘计算的概念是一种范式,将计算资源更接近数据源,而不是通过远程服务器提供服务的云计算【51】。这样可以在如今需要处理大量数据的世界中减少不必要的带宽占用和延迟问题【52】。为了理解边缘计算的出现,更有用的是考察之前的范式,如云计算和雾计算。图1显示了云计算、雾计算和边缘计算各自的优点及其层次安排。现在简要介绍这些概念:

  • 云计算:云计算是一种可以追溯到1970年代的范式,指的是用户通过互联网在服务器上使用公共计算资源【53】。今天,主要由大公司如微软Azure、谷歌云平台和IBM云提供给用户的各种服务模式。云计算的优点如下【54】:

  • 高处理能力和集中存储,使用户可以轻松访问资源,只要有互联网。这减少了用户的数据丢失风险,并为用户提供了从任何有互联网的地方工作的自由。

  • 可扩展性,如果计算资源需求增加(需求波动),云计算通过扩展资源提供更多的处理能力和存储服务。这样,保证了SLA和QoS等性能指标。

  • 按使用付费,通过云计算提供的无服务器(功能即服务(FaaS)+ 后端即服务(BaaS))服务模式,用户只为使用的计算资源付费。这样提供了一种经济的模式,吸引更多用户。

  • 雾计算:雾计算的概念由思科在2012年提出【55】。这种范式建议将计算资源更接近网络的终端(如路由器和网关),以减少云计算中的延迟和带宽问题。当查看图1时,雾计算作为云和边缘之间的一层。雾计算的优点如下【56】:

  • 由于将计算资源更接近网络边缘,雾计算的延迟低于云计算。

  • 作为云和终端设备之间的一层,通过处理部分需要发送到云的大量数据,减少不必要的带宽使用。

  • 边缘计算:物联网和传感器技术的发展使得需要处理的数据量增加到巨大的水平。在云计算资源上处理所有这些数据可能导致不必要的带宽占用和延迟问题。因此,边缘计算的概念作为一种通过在数据源附近处理数据来优化延迟和带宽使用的范式应运而生【57】。此外,边缘计算是解决雾计算所带来的复杂性、安全性和管理挑战(额外一层)的良好解决方案【58】。边缘计算的优点如下【59】:

  • 通过将数据处理移到网络边缘,减少延迟和带宽使用,

  • 相比雾计算,提供了如更少的复杂性和更好的安全性等优点。

**B. AI与边缘技术的整合

将AI与边缘计算的概念结合起来是最近的热门话题之一。图2显示了一个解释边缘AI概念的主要图示。边缘AI是在靠近数据源的边缘节点(物联网和移动设备)上分布处理AI算法数据,而不是在集中式云平台上处理数据【60】。这两种技术提供的优点如下【6】:

  • 在如低延迟、时间敏感的自主车辆和监测患者的电子健康等应用中,延迟量至关重要。通过边缘和AI整合,可以通过实时处理数据来克服这个问题。
  • 在数据安全方面,由于数据将在靠近源的点进行处理,敏感数据如生物特征数据将在网络内的本地设备上处理。这样可以消除如数据泄漏等安全隐患。
  • 可扩展资源,边缘范式由由同质或异质设备组成的节点组成。这样,可以根据处理能力需求进行任务调度。

**C. 边缘AI应用

由边缘和AI概念结合创建的边缘AI应用比基于云的AI应用提供了更低的延迟和更高的安全性。图3展示了其中一些应用。让我们解释这些应用:

  • 医疗保健:边缘AI应用基于在网络边缘的分布式AI模型中处理从可穿戴设备收集的数据。此外,使用便携式医学成像技术进行的早期诊断研究可以作为例子【54】。
  • 智能停车:随着交通工具的增加,停车已成为一个大问题,特别是在大城市。可以利用传感器和物联网的帮助解决这些问题的边缘AI解决方案【61】。
  • 智能家居:用于现代家庭的解决方案如家庭照明系统和智能冰箱可以作为这些应用的例子。通过防止城市中不必要的电力消耗,可以优化能源消耗【56】。
  • 计算机视觉:边缘AI可以使用如生物特征认证的方法识别人员【51】。此外,边缘AI在需要实时决策的工业应用中提供了巨大优势【58】。
  • 网络安全:可以使用基于边缘AI的安全应用检测未经授权的访问、可疑物品和持武人员。此外,可以通过检测网络上的可疑流量来进行异常检测,以防止网络攻击【62】。
  • 交通运输:可以将基于边缘AI的解决方案用于现代复杂的交通信号灯操作【63】。

**D. 边缘AI实施挑战

结合边缘和AI而产生的边缘AI带来了其提供的优点,但也带来了仍需解决的挑战。这些挑战显示在图4中。让我们解释这些挑战:

  • 能效:边缘设备通常由具有低处理和存储能力的同质和异质设备组成。需要自然语言处理(NLP)和密集图像处理的应用将导致边缘设备上过度的资源消耗【64】。因此,需要如专用AI芯片或任务工程等新解决方案。
  • 维护和更新:由于边缘设备由分布在不同位置的设备组成,这意味着黑客的更多攻击目标【65】。此外,边缘节点中的所有设备并非都是同质结构,这意味着每个节点需要单独的系统维护和更新【66】。可以采取如自动更新等措施来解决这些问题。
  • 可扩展性:由于边缘设备通常由异质设备组成,将单个应用分配到不同设备仍然是一个挑战(任务调度等)【67】。此外,难以在所有设备之间同步数据。可以使用有效的微服务架构和负载均衡算法来防止节点过载,解决这个问题。
成为VIP会员查看完整内容
46

人工智能(AI)和机器学习(ML)技术的进步有可能彻底改变军事组织在日益复杂和充满竞争的未来作战环境中如何确定情报的优先次序、收集、处理、分析、传播和利用情报。通过快速整合大量不同的数据集,人工智能/ML 算法可以加快传统情报流程,快速识别相关趋势和异常情况,并协助人类分析人员对潜在威胁和机遇做出有据可依的判断。当海军陆战队在竞争激烈的信息环境(IE)中持续作战时,将机器生成的知识与人类的洞察力相结合的能力对于保持认知优势至关重要。

随着 “信息 ”被指定为第七项作战功能,美海军陆战队已认识到信息在规划和成功实施军事行动中的重要作用。海军陆战队顶层作战概念(MOC)进一步认识到,需要利用新兴技术在所有领域成功发动信息战。虽然已经提出了一些支持性概念来解决 IE 的各个方面,但要确定如何系统地整合 AI/ML 技术以增强现有的情报能力和流程,仍有许多工作要做。这份拟议的未来作战概念文件探讨了一些新技术和人机界面可为海军陆战队情报部门带来重大红利的初步领域,因为这些部门在快速发展的信息环境中运作并预测变化。

作为一个具有适应和创新历史的机构,海军陆战队完全有能力在决定如何采用和整合新兴人工智能和 ML 技术以支持各种军事行动方面发挥主导作用。虽然政策辩论通常集中在人工智能是否应用于致命的自主或半自主武器上,但人工智能技术可用于许多非动能用途,在提高情报和信息行动效率的同时,也不会引起太多道德问题。虽然人工智能机器无法取代海军陆战队员和其他军人固有的智慧和决心,但人类分析师与机器之间的新合作模式可以大大提高情报分析的及时性和实用性,为未来的军事行动提供支持。

本概念文件探讨了人工智能(AI)和机器学习(ML)技术如何帮助解决在未来作战环境中可能变得更加普遍和复杂的新兴军事问题。它描述了人工智能和 ML 应用如何增强当前的情报收集和分析流程与能力,为在这些复杂环境中工作的军事决策者提供更快速、更有洞察力的情报支持。尽管这些技术在帮助解决挑战方面拥有巨大潜力,但任何技术解决方案或解决方案集都不应被视为万能药,因为竞争对手将无情地寻求利用漏洞,而人的创造力和性格将继续是获得优势和赢得未来战斗所需的最具决定性的要素。

成为VIP会员查看完整内容
46

美空军未来作战概念(AFFOC)阐明了未来空军将如何成功作战,如何提供空中力量以威慑对手,并在必要时阻止对手的侵略。AFFOC 是实现布朗将军的 "加速、变革或失败 "概念中所需 "变革 "的关键组成部分,指导美国空军在新时代飞行、作战并取得胜利。具体而言,AFFOC 解释了空军如何为联合部队以及盟国和合作伙伴的部队做出独特贡献,以支持国家安全战略、国防战略和联合作战概念。

在与同级对手发起军事冲突的情况下,美国空军将派出飞行员和先进的能力来完成其五大核心职能: 空中优势;全球打击;全球快速机动;情报、监视和侦察;指挥与控制。在此过程中,美国空军为联合部队的其他成员创造机会。任何军种或部队都不能单独行动,但面对先进威胁,是空军打开了大门......还是被踢倒。

AFFOC 将当前的军事问题概括为六场关键且同时发生的战斗,空军通过 "脉冲式空中力量 "打赢这六场战斗。"脉冲式空中力量 "是指在时间和空间上集中空中力量,为其他部队创造机会之窗。空军部对七项 "作战要务 "的投资将提供关键能力,使这些脉冲成为可能。空军行动指挥中心指出,打赢六场战斗取决于空军人员是否有权在任务指挥的条令和文化下做出决策。

AFFOC 的主要受众是空军人员,包括空军总部(HAF)工作人员、空军主要司令部(MAJCOMs)以及在所有地域和职能作战司令部领导战略、规划和任务执行的整个联合部队的空军人员。当飞行员应用 AFFOC 的原则时,将使联合部队能够以不可阻挡的全域脉冲方式凝聚战斗力。

为此,空军须能够在六场关键的 "战斗 "中取得胜利,运用空中力量维护盟国、合作伙伴和国家利益。

  • (1)通过冲突竞争和威慑。即使在战斗中,空军飞行员也要在整个冲突过程中通过竞争来培养伙伴关系、加强联盟、阻止横向和纵向升级。在竞争和威慑的同时,空军按照 "空军世代 "模式进行部署,促进与盟国和合作伙伴的关系,共享设计集成的能力和概念。他们预先部署关键作战物资,建立弹性基础设施,并实践敏捷作战部署。

  • 当准备好在全球范围内行动时,空军将克服对手的攻击,(2)为进入战区而战。对手已经研究过作战方式--空军应从任何危机一开始就预料到阻力和干扰。进入战区后,飞行员将执行敏捷战斗部署。这将需要先进的战斗管理系统能力、由可部署的战术作战中心提供的灵活控制能力以及适应性防御能力,以保护飞行员和作战地点免受多领域的动能和非动能威胁。

  • 无论是直接支持盟国和合作伙伴,还是远距离提供战斗力,飞行员都必须(3)为升空而战。任何空军基地,即使是在本国,都不会是避难所。即使面对敌人的阻挠,飞行员也要发挥战斗力。关键的支持概念包括先进的战斗管理系统和全域感知网格,这将在空降战斗中发挥关键作用,因为联合部队将在时间和空间上同步努力和效果。

  • 明天的对手将争夺制空权,企图阻止向联合部队、盟国和合作伙伴提供有效支持;因此,空军必须(4)争取空中优势,为所有作战领域的团队合作创造机会。争取空中优势的关键概念是下一代弹药、协同作战飞机、先进作战管理系统、敏捷电子攻击和感知网格。

  • 为了向侵略者提供毁灭性的战斗力,空军作为联合部队的一部分,(5) 通过阻止攻击或入侵来拒止对手的目标。飞行员必须通过下一代和托盘化弹药,以及由可实现分布式控制的高级战斗管理系统提供支持的对峙和待命打击能力,阻止对手达到目标。这场战斗还需要全域情报、监视和侦察、全域感知网格、电子战以及网络防御和攻击小组。

  • 空军人员必须(6)在竞争和冲突中为维持自己、盟国和合作伙伴而战。进行大规模后勤保障的能力一直是美军的关键优势,这将是未来冲突中的主要目标。飞行员必须比对手更聪明、更敏捷、反应更迅速、更灵活,才能在联合部队中生存并维持战斗力。飞行员通过在攻击下开展后勤工作、采用创新方法利用无人机系统开展后勤工作、抵御包括远程导弹威胁在内的全域影响以及在攻击后迅速恢复作战地点来维持战斗,确保以无情的战斗压力阻止侵略。

飞行员必须做好同时参与其中几场战斗的准备。因此,只擅长单一核心职能的飞行员将无法在与同级对手的较量中获胜。空军飞行员仍将是技术专家,但他们还将接受其他技能培训,使他们能够作为灵活的团队作战并取得胜利。未来的飞行员必须具备多种能力,才能在多场战斗中获胜。

没有精通任务指挥的飞行员,AFFOC 将无法发挥作用。任务指挥是一种领导哲学,通过信任、共同意识和对指挥官意图的理解,使飞行员能够在不确定、复杂和快速变化的环境中开展行动。在获得这种授权后,飞行员不必等待上级总部的命令,就能做出大胆的决定并利用稍纵即逝的机会。这种类型的领导力不是说有就有的。它需要有意识的培养和实践。

空中力量的优势在于空军飞行员。该AFFOC通过提供不可阻挡的空中力量来威慑、对抗、打击和制止侵略,体现了空军为联合部队带来的价值。

成为VIP会员查看完整内容
47

分布式海上作战(DMO)是美国海军部(或称 DON,包括海军和海军陆战队)在作战行动中使用美国海军(即海军和海军陆战队)部队对付对手(尤其是中国)的作战概念,因为对手拥有强大的能力,可以用反舰导弹和其他武器探测和攻击美国海军水面舰艇。国会面临的一个问题是,国会是否有足够的信息来评估 DMO 的优点,以及美国海军部是否已将其计划和预算与 DMO 充分地结合起来。

术语: 作战概念

作战概念是关于如何使用特定军事力量(此处指美国海军部队)开展行动,特别是在作战情况下开展行动的总体想法。作战概念可以支持实施打击特定冲突的战略或战争计划,单个军事单元(如海军舰艇和飞机)使用的战术可以反映作战概念。

DMO: 简介

美海军作战部长的一份 2022 年文件将 DMO 称作 "海军的基础作战概念"(海军作战部长,《2022 年航行计划》,第 8 页)。美国海军部尚未发布关于 DMO 的详细非机密描述。美国海军部官员的声明表明,DMO 的一个关键目标是提高美国海军部队对抗中国海上反介入/反雷达(A2/AD)系统(即探测和攻击美国海军水面舰艇和飞机的能力)的能力,从而使美国海军部队在与中国冲突期间能在中国 A2/AD 系统射程内的水域有效行动。DMO 的主要特点似乎包括以下几点:

  • 将海军单元分散到战区内更大的区域,使敌方更难发现和瞄准海军单元,同时仍允许海军单元相互支援并集中火力打击敌方目标。

  • 将海军的传感器和武器分散到更多的舰船和飞机上,以减少因任何一艘海军舰船或飞机被摧毁而损失的海军传感器和武器的比例(即避免 "把太多鸡蛋放在一个篮子里")。

  • 更多地使用射程更远的武器、无人舰艇和无人飞机,以支持前两点。

  • 使用弹性通信链路和网络技术,将广泛分散的有人和无人舰船和飞机编成一支协调的战斗部队,能够抵御和适应敌方对海军通信和网络的攻击。

一位观察家在撰写有关 DMO 的文章时(见下文 "其他资源 "方框中的 Filipoff)指出:"[海军]对 DMO 的解释包含几个决定性特征,这些特征在海军对这一概念的公开定义中一直占有重要地位。它们包括分布式部队的火力集结和汇聚、使对手的目标定位和决策复杂化以及跨平台和跨领域的网络效应"。

美国其他军种的作战概念

美国其他军种也有在未来潜在冲突中开展自身行动的作战概念。空军的概念是 "敏捷作战部署"(ACE),陆军的概念是 "多域作战"(MDO)。在美国海军部内部,海军陆战队有一个名为 "远征先进基地行动"(EABO)的概念,与 DMO 相辅相成。各军种的作战概念有一些共同点,包括更多地使用无人系统,以及利用通信和网络技术将分散的单元整合成协调的作战部队。

与 DMO 有关的一些海军采购计划

与《国防现代化条例》有关的海军采购计划包括以下几个例子:

  • 获取更远程武器的计划,如 "海上攻击战斧"("战斧 "巡航导弹的新型反舰变体)和远程反舰导弹(LRASM)。

  • 大型无人水面舰艇(LUSV)将配备垂直发射系统(VLS),用于储存和发射反舰导弹和其他武器。LUSV 旨在充当有人驾驶的海军水面作战舰艇的辅助导弹库。

  • 中型无人水面舰艇(MUSV),将配备雷达或其他传感器。中型无人水面舰艇旨在帮助形成一个分布式传感器网络,为海军行动提供支持。

  • 轻型补给油船(TAOL)造船计划,用于建造新一级的小型油船。轻型补给油船旨在提高海军向在更广阔海域以更分散方式行动的海军舰艇提供燃料和补给的能力。

  • 中型登陆舰(LSM)计划旨在建造一种小型两栖舰艇。LSM 计划是实施 EABO 的核心。

美国会可能面临的问题

国会对 DMO 的潜在监督问题包括但不一定限于以下方面:

  • 国会是否从海军那里获得足够的关于DMO的信息来评估其优点?海军是否向国会提供了详细描述 DMO 的机密报告?海军是否应公布关于 DMO 的非机密描述?
  • 海军进行了哪些分析,导致海军采用 DMO 作为其基本作战概念?海军演习在多大程度上证实了这些分析?
  • DMO 是否与空军的 ACE 概念和陆军的 MDO 概念充分协调?各军种正在采取哪些措施协调其概念?
  • 美国海军部的预算和计划是否与 DMO 充分协调?国会是否有足够的关于 DMO 的信息来评估这个问题?DMO可能对海军造船和武器采购项目及相关工业基础产生什么影响?
  • 在未来5到10年中,海军库存中远程武器数量的限制会在多大程度上制约海军实施DMO的能力?根据目前海军采购新武器的计划,这种限制会以多快的速度得到缓解?
  • DMO 所需的通信和网络技术有哪些技术挑战和风险?DMO 是否充分考虑了战时因敌方攻击而导致网络退化的可能性?
  • 一位观察家在撰写有关 DMO 的文章时指出(见本 "聚焦 "末尾 "其他资源 "框中的 Filipoff): "作战概念可能会被滥用,只不过是为先入为主的利益服务的举措上的保险杠贴纸"。DMO 发生这种情况的风险有多大?
  • 为了帮助实施 DMO,一些观察家建议在两栖或辅助舰艇等目前没有导弹电池的舰艇上增加导弹电池,或为濒海战斗舰(LCS)配备射程比 LCS 目前携带的导弹更远的导弹。这些建议的相对优点是什么?

成为VIP会员查看完整内容
45

俄乌战争让人们看到了现代战争的未来。俄罗斯和乌克兰的做法表明,现代战争的特征已经发生变化,美军正处于战略拐点。在本书中,作者从不同角度分析了俄乌战争,包括作战功能或指挥官用来完成任务的系统组、战争领域和历史。本书指出了美国陆军当前的弱点以及必须从俄乌战争中汲取的教训,因为美国陆军正在重新审视其构成的各个方面,为未来的冲突做好准备。

冲突叙事是现代战争的关键组成部分。自俄乌战争开始以来,围绕谁应合法控制乌克兰的历史一直是核心问题,公众的看法影响了对乌克兰的支持。此外,威胁的沟通或缺乏威胁的沟通在威慑中发挥了重要作用,在威慑中,一个国家使用武力威胁来阻止对手的攻击。乌克兰的经验表明,美国可以如何控制一场正在进行的战争的叙事,既装备美国的盟友,又激励公众心甘情愿地提供援助。

这场战争显示了领导力是如何有效实施的,以及它在未来冲突中将发挥怎样的作用。在国际上,盟国对乌克兰的补给至关重要,盟国之间显然需要更多的联合训练和互操作性。在乌克兰陆军内部,基于新采用的任务指挥原则的领导战略在对抗等级森严的俄罗斯军队时屡屡取得成功。由于指挥官可以采取有纪律的主动行动,在没有命令的情况下按照指挥官的意图行事,乌克兰在机动、火力、敏捷性和其他方面都比俄罗斯更加有效。乌克兰的成功凸显了美国陆军发展任务指挥和风险接受能力的重要性。

战争特点的一些最大变化是技术性的,例如无人机的使用、电磁探测、信号拦截和开源情报。无人机的监视作用和瞄准传统安全地点的潜力改变了战场。此外,战争还显示了网络战如何使军事和民用基础设施遭受攻击,暴露了美国当前战场后勤保障的漏洞。乌克兰人利用人工智能识别潜在威胁,并更有效地使用火炮瞄准目标。人工智能提高了部队的整合能力,随着多域作战--海陆空联合防御--在冲突中发挥越来越大的作用,这一点变得越来越重要。

在俄乌战争中,维持功能往往被忽视,但事实证明它至关重要。乌克兰和俄罗斯在装备和人力维持方面都举步维艰。在战争的第一年,俄罗斯的后勤准备不足导致了该国未能完成目标。由于美国的弹药制造能力不足及其人力危机,美国在大规模作战行动中很可能会面临类似的困难。

成为VIP会员查看完整内容
46

实践使用GPT 3.5、GPT 4、LangChain、Llama 2、Falcon LLM等构建LLM驱动的复杂AI应用

**关键特点

  • 将大型语言模型(LLMs)嵌入实际应用中
  • 使用LangChain在应用中协调LLMs及其组件
  • 掌握基本和高级的提示工程技术

**图书简介

《构建LLM应用》深入探讨了LLMs提供的基本概念、前沿技术和实际应用,最终为扩展AI能力的大型基础模型(LFMs)的出现铺平了道路。 本书首先深入介绍了LLMs。接着,我们探索了各种主流的架构框架,包括专有模型(GPT 3.5/4)和开源模型(Falcon LLM),分析它们的独特优势和差异。随后,重点介绍了基于Python的轻量级框架LangChain。我们引导读者通过使用LLMs和强大的工具包创建能够从非结构化数据中检索信息并与结构化数据交互的智能代理。此外,书中还探讨了超越语言建模的LFMs领域,涵盖各种AI任务和模态,如视觉和音频。 无论你是经验丰富的AI专家还是该领域的新手,这本书都是你解锁LLMs全部潜力并开启智能机器新时代的路线图。

**你将学到什么

  • LLMs架构的核心组件,包括编码-解码块、嵌入等
  • 熟悉GPT-3.5/4、Llama 2和Falcon LLM等LLMs的独特功能
  • 使用LangChain等AI协调器,Streamlit作为前端
  • 熟悉LLMs组件,如内存、提示和工具
  • 学习非参数化知识、嵌入和向量数据库
  • 了解LFMs对AI研究和行业应用的影响
  • 通过微调自定义你的LLMs
  • 学习LLM驱动应用的伦理影响

**适合对象

本书适合希望通过LLMs构建应用的软件工程师和数据科学家。本书也适合对应用LLM主题感兴趣的技术领导者、学生和研究人员。 我们不假设读者之前有LLM的相关经验,但读者应具备基本的机器学习/软件工程基础,以理解和应用内容。

**目录

  1. 介绍LLMs
  2. LLMs用于AI驱动的应用
  3. 为你的应用选择LLM
  4. 在应用中嵌入LLMs
  5. 构建对话应用
  6. 开发搜索和推荐引擎
  7. 生成文本应用
  8. 处理结构化数据的LLMs
  9. 生成代码和结构化输出
  10. 构建多模态代理
  11. 微调LLMs
  12. 负责任的AI
  13. 新兴趋势和创新

**关于作者

在完成了金融学学士学位后,Valentina Alto于2021年获得数据科学硕士学位。她在微软开始了职业生涯,担任Azure解决方案专家,自2022年以来,主要专注于在制造和制药行业工作,与数据和AI解决方案相关。Valentina与系统集成商紧密合作,特别关注部署结合现代数据平台、数据网格框架和机器学习及人工智能应用的云架构。 在学术研究过程中,她热衷于AI和Python编程,积极撰写有关统计、机器学习、深度学习和AI的技术文章,并在各种出版物上发表。

成为VIP会员查看完整内容
40

空战是一个复杂多变的领域,人类飞行员面临着严峻的挑战。整合人工智能,特别是强化学习(RL),有可能彻底改变空战行动的有效性。通过利用 RL 技术,自主智能体可以根据不断变化的战场条件制定新战术。在这项研究中,使用先进的 RL 技术训练了空战智能体,同时考虑到了不同的初始作战几何形状和相对位置。结果表明,空战几何形状的变化对智能体的能力有显著影响。为了评估其能力和应变能力,对具有对称战斗几何形状的相同智能体进行了检查。任何与预期对称结果的偏差都会被检测到,这可能意味着在训练探索阶段遇到了挑战。在这一框架内对不同的代理进行比较时,它们在特定空战场景中的优势就会凸显出来,从而为加强更多智能代理的开发提供有价值的信息。

图 7. 根据敌方和空战几何图形选择智能体的整体视图

人工智能(AI)在航空航天领域的应用取得了重大进展,尤其是在安全关键型系统中,可解释性和安全性至关重要。随着无人战斗飞行器(UCAV)的发展,空战已成为需要人工智能集成的突出领域之一。

已有多个项目致力于推动这些自主系统(AS)的发展,其中包括 DARPA AlphaDogFight Trial [1]。在这个项目中,人工智能体的任务是在模拟的可视范围内(WVR)与对方进行斗狗。最终参赛队与人类飞行员进行了角逐,结果人工智能获胜。竞技团队是利用深度强化学习(DRL)方法来训练和发现新颖稳健的空战战术。

文献中对使用 RL 生成空战战术进行了广泛研究。值得注意的是,[2]的一项研究探索了使用深度确定性策略梯度(DDPG)训练 RL 智能体,结果在视距内(WVR)作战中大大提高了性能。另一项研究[3]深入研究了多智能体强化学习(MARL),以模拟涉及多架飞机的复杂合作空战策略,展示了 RL 在复杂场景中的潜力。[4] 采用分层强化学习(HRL)将空战任务分解为易于管理的子任务,从而简化了训练和决策过程。[5]研究了基于模型的 RL 在空战智能体训练过程中加速收敛和提高采样效率的功效,有助于在动态环境中发挥卓越性能。最后,[6] 应用了先进的深度强化技术--近端策略优化(PPO)和软行为批判(SAC),并比较了它们的性能。

在文献中,多种 RL 方法都显示出了优于其他方法的性能。然而,还没有研究关注如何分析和比较 RL 智能体在所有搜索空间(包括不同方向和距离组合)中不同空战几何条件下的胜任能力和鲁棒性。

本文提出了一种新颖的分析工具,旨在管理所有训练参数和奖励,从而能够执行智能体对智能体场景进行综合分析。我们采用最先进的 RL 方法,在不同的初始空战几何条件下训练空战智能体,如不同的相对位置和方向,使自己的飞机处于优势、中立或劣势位置。事实证明,相对空战几何形状的差异是影响智能体能力和鲁棒性的主要因素。我们通过启动具有对称作战几何形状的相同人工智能代理来测试空战代理的稳健性,并发现了与对称结果预期的偏差,这可能表明训练的探索阶段存在问题。我们的分析工具还测试了智能体的泛化能力以及在遇到训练外情况时的偏离趋势。此外,在这一框架内对不同代理进行的比较表明了每个智能体在特定空战场景中的优越性,为开发更智能的空战代理库提供了有价值的信息。最终,我们提出的分析工具通过提高空战场景中的可解释性、安全性和性能,推动了航空航天领域人工智能的发展。

成为VIP会员查看完整内容
46

介绍了战术战斗管理器(TBM),它是一种智能体,使用多种综合人工智能技术在模拟超视距(BVR)空战场景中控制自主无人飞行器。TBM 结合了目标推理、自动规划、对手行为识别、状态预测和差异检测等技术,可在实时、动态、不确定和敌对的环境中运行。通过实证研究证明,在 BVR 场景中,TBM 的表现明显优于专家编写的智能体。还报告了一项消融研究的结果,该结果表明智能体架构的所有组件都需要最大限度地提高任务性能。

图 1:由共享资源(灰色)、推理组件(橙色)和差异检测器(黄色)组成的战术战斗管理器(TBM)概念图。箭头表示信息在各个组件之间的移动。

超视距(BVR)空战是现代空对空战斗的一种形式,在这种战斗中,飞机之间的交战距离较远,通常可达数百公里。与第一次和第二次世界大战期间常见的近距离犬牙交错的战斗相比,BVR 战斗往往不那么被动,而是涉及更多的长期规划和战略。在本文中,我们介绍了一种名为 "战术战斗管理器"(TBM)的智能体,其设计目的是在 BVR 战斗场景中利用大量综合人工智能技术控制无人驾驶飞行器(UAV)。

BVR 空中格斗有几个关键特性,使其成为一个有趣的研究领域,需要采用综合设计而不是任何单一的人工智能技术。交战涉及多架飞机,既有队友,也有对手,在有争议的空域中作战。环境是连续的、部分可观测的(即由于传感器范围有限)和嘈杂的(即由于传感器误差)。此外,飞机需要满足严格的实时约束条件,以躲避对手的攻击和避免危险动作(例如飞得太低、与队友相撞)。

我们的集成架构使用多个并行组件,每个组件都可以访问、创建和修改共享数据源中的信息。这种并行设计允许各组件实时处理信息,避免了速度较慢的组件造成的延迟。TBM 使用目标推理 [Aha 等人,2013 年;Roberts 等人,2016 年] 来动态推理其目标,并根据突发事件或机会(如对手攻击、对手与中队分离)修改目标。自动规划用于根据 TBM 的目标生成计划。由于对手飞机的计划最初是未知的,并可能随着时间的推移而改变,因此 TBM 会持续监控对手飞机的行动,并进行行为识别,以预测其当前计划和目标。

TBM 利用自己的计划以及友机和敌机的行为进行状态预测(即预测环境可能发生的变化)。然而,由于 TBM 可能使用不完整的感知信息、错误的传感器值或对对手行为的不正确假设,因此它会持续执行差异检测,以确定其预测、假设或对手模型是否存在任何缺陷。本文的其余部分将介绍我们的智能体架构,并说明包含每个集成组件的理由。在第 2 节中,我们描述了 BVR 空中格斗领域,并正式提出了要解决的问题。第 3 节介绍了我们的集成智能体设计和每个组件的作用。我们将在第 4 部分对 TBM 的设计进行实证评估,并在第 5 部分讨论相关工作。最后,我们在第 6 节讨论了我们工作的方方面面,并在第 7 节总结了我们的贡献和未来工作领域。

成为VIP会员查看完整内容
42

本文综述了有人/无人系统协同作战任务规划方法,首先介绍了研究背景,从有人/无人系统的人 机关系和任务规划流程两个方面对问题进行了分析,进而引出任务理解、任务分解、任务分配、行动序列 生成和方案评估五个方面的关键技术,并分别对相关研究进行全面综述。最后综合全文对有人/无人系统 协同作战任务规划的研究现状进行了总结和分析,并对该领域的未来提出展望。随着人工智能和人机共融技术的快速发展,有 人/无人系统协同作战成为作战研究领域的一大热 点,正在加速改变体系作战模式和战争形态。无人 系统因其低成本、无伤亡、高机动的特性,能够在 恶劣的环境下代替人类执行危险、繁琐的任务,但 其当前的智能化水平还无法适应战场环境的动态不确定性以及任务的复杂性,而融入人的智慧和综 合判断能力的有人系统有效弥补了这个缺陷。将二 者有机结合,有人/无人系统协同作战理念应运而生, 将逐渐成为未来战争中的主流样式。 近年来世界各军事强国充分利用有人系统和 无人系统的优势,围绕最大发挥有人/无人系统综合 作战效能的目标开展了大量研究。在政策层面,美 国国防部在 2014 年发布了《无人系统综合路线图 ( 2013-2038 ) 》 , 把 有 人 / 无 人 系 统 编 组 (Manned-Unmanned System Teaming,MUM-T)列 为重点关注的五个主题之一。在项目实施层面,英 国国防部和 QinetiQ 公司于 2007 年用一架“狂风”综 合航空电子研究样机(TIARA)作为指控飞机与三 架仿真无人机进行编队飞行实验,实现了有人战机 中一位飞行员直接控制 4 架飞机对地攻击的过程。 而最具代表性的研究始于 2015 年美国国防部提出 的“忠诚僚机”概念,针对这一概念,美国空军研究 实 验 室 和 克 瑞 托 斯 防 务 公 司 联 合 开 发 了 XQ-58A“女武神”无人机,并于 2020 年成功与 F-22 和 F-35 有人机一起进行了半自主飞行试验。 从作战过程的主要阶段进行分析,有人/无人系 统协同作战研究涉及到协同感知、认知、决策和控 制等方面,其中任务规划作为协同决策技术的中心 环节和发挥协同作战效能的关键环节,能够衔接作 战构想与作战任务的落实执行,实现对作战资源的 配置优化,提供科学准确的作战方案与计划[1]。与 纯无人系统相比,有人/无人作战体系规模大、成 员异构多样,特别是有人平台的加入增强了系统之 间的耦合性,其任务规划建模过程需考虑人机配比、 人机分工等因素,使得问题更加复杂。只有将人和 机器的能力、有人系统和无人系统的能力以及其内 部的相互关系充分体现出来,才得以更好地契合实 际作战场景。 各军事强国对有人/无人系统协同作战的任务 规划能力高度重视,视之为实现杀伤链快速闭合的 关键力量。当前与有人/无人系统协同作战任务规划 相关的文献主要以研究型论文为主,而综述论文鲜 有发表。鉴于此,本文从概念分析、协同模式和关 键技术三个方面对有人/无人系统协同作战的任务 规划方法进行了全面综述,对已有研究成果进行综 合分析并提出未来展望,旨在为该领域的研究人员 提供参考。在文献检索阶段,本研究主要依托中国 知网全文数据库,辅以 EI 数据库和 WOS 平台进行 交叉检索,以确保检索结果的全面性。

成为VIP会员查看完整内容
40

这篇论文探讨了自动化推理和大型语言模型(LLMs),通过创新算法研究如何提高这两个领域的效率和有效性。论文由三个主要部分组成,每一部分都关注人工智能的不同但相互关联的方面。 在第一部分,论文深入探讨了自动化推理领域,该领域通过计算方法模仿人类的逻辑推理。研究解决了该领域中的重大挑战,特别是随着问题复杂性的增加,计算需求呈指数级增长的情况。值得注意的是,这一部分强调了可满足性模理论(SMT)方面的进展,重点是提高在复杂性增加时的解决效率。论文通过探索理论组合、代数数据类型和序列,贡献了更高效的推理框架。

转到第二部分,焦点转向LLMs,它们在各种应用中变得至关重要,从内容生成到企业决策支持。尽管LLMs功能强大,但由于巨大的计算资源需求和用户提示的多样性,实现这些模型的高效部署仍是一个挑战。这部分论文提出了新颖的算法和服务基础设施,旨在优化LLMs的性能,特别是在减少延迟和提高实时应用吞吐量方面。创新如FlexGen和S-LoRA被引入,旨在使LLMs在个人计算设备上更加可用,并提供个性化的高吞吐量服务。这一部分还介绍了虚拟令牌计数器(VTC),一种新颖的公平调度算法,确保在高需求的LLM推理环境中公平分配资源,解决服务公平性的问题。

论文的第三部分将前两部分桥接起来,展示了将形式验证和代码生成与LLMs集成的初步结果。该集成旨在利用两个领域的优势,创建更强大和多功能的AI系统。

引言

本论文展示了实现自动推理和大型语言模型(LLM)系统高效算法的几种方法。本章将首先描述这两个领域中的问题及其效率挑战,然后概述论文中提出的研究贡献。

1.1 问题与动机

1.1.1 符号推理与神经网络

人工智能研究传统上遵循两种主要范式:符号推理和神经网络。符号推理,也称为符号AI,利用逻辑和知识表示来解决问题。这种方法在需要显式规则和推理的任务中表现出色,但在处理复杂的非结构化数据时可能会遇到困难。相反,神经网络则松散地受到大脑结构的启发,擅长模式识别和从大量数据中学习。然而,神经网络在推理过程中可能不透明,导致其可解释性较差。随着研究的进展,越来越多的研究集中在结合这两种方法,利用符号推理和神经网络的优势,开发更强大和多功能的AI系统。为了充分利用每种方法的优势,运行它们需要高效的算法和系统。在本论文中,我们首先分别关注加速自动推理的技术(第一部分)和加速大型语言模型推理的技术(第二部分)。然后,在第三部分中,我们展示了利用两者力量的初步结果。 1.1.2 自动化推理与效率挑战

自动化推理通过计算方法模拟人类逻辑推理的挑战。该领域致力于开发能够自动分析和操作逻辑表达式等形式化表示的算法。这种能力远远超出简单计算,允许计算机处理具有复杂逻辑结构的问题。 自动化推理的应用领域与其解决的问题一样多样。在软件和硬件设计中,自动化推理工具用于确保电路的正确性。通过分析组件之间的逻辑关系,这些工具可以识别设计中的潜在错误和逻辑不一致,防止在开发过程中出现昂贵的错误。同样,自动化推理在形式验证中也起着关键作用,这是一种通过数学证明关键系统中不存在错误的技术。在这里,自动化推理工具仔细分析系统的规范和行为,确保其遵循所需属性,消除意外故障的可能性。 自动化推理的关键挑战之一是解决时间问题。随着所处理问题复杂性的增加,找到解决方案所需的计算资源可能呈指数级增长。这在可满足性模理论(SMT)领域尤为突出,在该领域中,任务是确定给定的一阶逻辑公式相对于背景理论(如线性算术或位向量)是否可满足。SMT问题的解决时间可能高度可变,取决于具体理论、公式的复杂性以及底层SMT求解器的性能。自动化推理研究人员在开发更高效的算法和启发式方法以应对这一挑战方面取得了显著进展,但该领域中许多问题的固有复杂性意味着解决时间仍然是一个关键考虑因素。

1.1.3 大型语言模型与服务挑战

基础模型,特别是大型语言模型(LLM),已成为各种应用的核心,彻底改变了各行业中任务的处理和执行方式。除了它们的功能外,LLMs已演变为广泛使用的服务,受到从个人用户到大型企业的多样化客户的采用。这种广泛的应用在多个领域中尤为明显,从个人助手和创意内容生成到高级企业数据分析和决策支持。尽管LLMs具有巨大的力量和能力,但关键在于利用它们的潜力来增强人类生活和生产力。 尽管大型语言模型(LLM)提供了引人注目的能力,但将其有效部署于实际应用中仍存在显著挑战。主要障碍在于硬件资源限制。LLMs由于其复杂的架构和庞大的参数空间,在推理过程中需要大量计算资源。此外,用户提示的不确定性破坏了传统的优化技术。与具有控制格式的训练数据不同,用户提示在长度和复杂性上可能有很大差异。此外,由于LLM生成的迭代性质,实现实时应用的低延迟和高吞吐量变得困难。与单步任务不同,LLM可能需要多次来回交流才能完成一个响应。这些因素需要开发专门的服务基础设施和新颖的调度算法,以优化LLM性能并提供无缝的用户体验。

1.2 我们的方法

1.2.1 走向高效且具表现力的SMT求解

可满足性模理论(SMT)求解在自动化推理中是一种强大的技术,专门解决结合命题逻辑和背景理论的问题。与只处理真假命题的经典命题逻辑不同,SMT结合了可判定的一阶逻辑理论,如算术或等式约束。这允许对涉及整数、实数或特定数据结构的问题进行推理。SMT求解器通过系统地探索搜索空间,在指定的理论下评估公式的真值。由于将逻辑与这些理论相结合的内在复杂性,高效的求解算法和专门的决策过程对于解决现实世界的SMT问题至关重要。可满足性模理论(SMT)求解的最新技术不断发展,重点是提高效率和处理日益复杂的问题。尽管已经取得了令人瞩目的进展,但对于高度复杂的SMT问题实现可处理的解决时间仍然是一个活跃的研究领域。 本论文的第一部分涵盖了这一范围内的三个研究课题,包括更好地理解和提高理论组合的效率以及利用代数数据类型和序列的两种特定理论。在第二章中,我们对SMT中礼貌组合的研究做出了两项贡献。首先是一个困难结果,通过展示一个礼貌理论但不是强礼貌的例子,揭示了礼貌和强礼貌之间的区别。第二项贡献是对礼貌组合方法的优化,借鉴了Nelson-Oppen方法。我们展示了在某些条件下,可以减少礼貌组合所需的枚举安排的复杂性。在第三章中,我们研究了数据类型理论,并证明其是强礼貌的,展示了如何使用礼貌组合将其与其他任意不相交的理论相结合。在第四章中,我们介绍了一种用于推理向量的序列理论。与使用现有的数组理论相比,新的序列理论更具表现力,并且推理速度更快。

1.2.2 走向高效且公平的LLM服务

LLM的一个不可避免的方面是使其能够被各个领域的更多用户访问。扩大访问的目的是赋能各类个人和组织,使他们能够利用这些强大的工具满足其独特的应用和需求。本论文的第二部分探讨了如何提高LLM对所有用户的可访问性。自2022年底LLM在日常生活中被广泛使用以来,对更易于访问的LLM的需求不断增长,这包括:(1)能够在个人计算机上运行LLM,(2)访问个性化服务,以及(3)需要公平的资源分配以防止重度用户的垄断。

第五章(FlexGen)旨在解决第一个需求:在个人计算机上运行LLM。由于高计算和内存需求,传统上只能通过多个高级加速器实现,在内存有限的设备上运行LLM需要卸载,除了传统的模型压缩优化外。尽管激进的卸载会严重影响推理延迟,但FlexGen受到对批处理延迟不敏感任务的需求的驱动。它开始研究在有限资源下的高吞吐量LLM推理。它聚合了GPU、CPU和磁盘的内存和计算资源,并展示了如何在给定设置中获得最佳的卸载策略。我们的方法也是第一个提出使用4位量化KV缓存的,这与卸载策略相结合,使吞吐量比以前的方法高出100倍。

第六章(S-LoRA)旨在解决第二个需求:个性化LLM服务。低秩适应(LoRA)技术可以提供高效的、任务特定的适应,从一个基础模型中创建许多适配器,以实现成本效益高的个性化服务。LoRA适配器通过将适配器与模型参数合并来提供服务,这使得单个适配器的低延迟成为可能,但在同时服务多个适配器时会降低整体吞吐量。S-LoRA探索了LoRA适配器的可扩展服务,通过更好的内存管理、为异构批处理定制的CUDA内核和新颖的张量并行策略,实现了高吞吐量的多适配器服务。与之前的引擎相比,S-LoRA的吞吐量提高了4倍,服务的适配器数量增加了几个数量级。

第七章(VTC)旨在解决第三个需求:公平地为用户服务。LLM推理服务在高需求下处理各种请求。为了保持公平,大多数主要服务实施请求速率限制,防止任何单个客户端垄断队列。然而,这种基本的公平方法在容量可用时可能导致服务未充分利用和客户体验不佳。我们展示了如何将传统网络和操作系统中的公平排队概念应用于LLM服务领域,达到令牌粒度的公平性。我们定义了LLM服务中的公平性问题,并提出了虚拟令牌计数器(VTC)算法,这是一种具有理论保证的新型公平调度算法。广泛的评估展示了VTC在保持公平性方面的有效性,与传统方法相比,为更加公平高效的LLM服务系统铺平了道路。

成为VIP会员查看完整内容
37

新兴的 5G 和低地球轨道 (LEO) 卫星通信商业技术有能力提供低延迟发送大量数据的链接。随着国防部门继续探索如何最好地利用这些技术,开发军方内部的潜在用例非常重要。本文描述了传感器到射手的作战场景,以及目前用于将数据从海军传感器传输到陆军射手的网络传输链路。然后将当前传感器到射击手的网络传输链路与新兴的 5G 和低地轨道卫星通信等商业替代方案在吞吐量、延迟和范围方面进行比较。该分析表明了 5G 和低地轨道技术与当前链路相比的优缺点。

本研究探讨了一种假想情况,即海军机载传感器对敌方特征进行目标捕获,并将原始数据发送到最近的指挥节点。在这种情况下,最近的指挥节点是一艘 "阿利-伯克 "级驱逐舰,它负责处理目标定位数据,并将其转发给陆基指挥所的相关联合指挥官或联合后勤指挥中心进行分析和确认。一旦目标数据得到确认,就会以可操作目标数据的形式发送到陆军野战炮兵数据系统。作战场景各阶段的直观图见图 2。

  • 第 1 阶段:传感器到阿利-伯克级驱逐舰--本研究使用海军机载传感器获取敌方特征目标,并将数据发送到最近的节点进行进一步传播。虽然传感器数据类型可能因 ISR 平台类型而异(海军信息战中心,2021 年),但本研究将主要利用目标图像。在这种情况下,目标图像将被发送到阿利-伯克级驱逐舰上。

  • 第 2 阶段:阿利-伯克级驱逐舰到 JFC 或 JFLCC--一旦阿利-伯克级驱逐舰接收到原始目标数据,就会将其发送到 JFC、JFLCC 或 JFE 进行分析。决定目标数据是否可操作的指挥关系和角色由联合司令部定义,并可根据战区要求进行更改(JP 309,2019 年,第 viii 页)。在特定战区,联合指挥官可以驻扎在各种 C2 节点,包括舰载或陆基。然而,在本研究中,陆基 C2 节点被用作分析目标数据并将其转化为可操作目标数据的节点。见图 2。

  • 第 3 阶段:JFE 至 AFATDS/HIMARS--JFE 或 JFLCC 确定收到的目标数据是可操作的,并将其发送至 FSCOORD 以协调火力。然后,FSCOORD 将可操作的目标数据以可变信息格式 (VMF) 的形式发送到 AFATDS 系统,这是一种基于自由文本的格式。这种基于自由文本的格式允许火力平台只接收执行火力任务所需的数据(Joslin 等人,2018 年)。一旦通过 AFATDS 接收到可操作的目标定位数据,火力平台就能进行火力攻击以消灭目标。

图9.传感器到射手情景概述--各阶段的网络传输链路

成为VIP会员查看完整内容
35

大多数军事大国--无论是单独还是合作--都在设计基于新一代有人驾驶战斗机和无人驾驶飞机系统协同作战的未来空战系统。

这一领域的标准制定者以美国为首。经过多年,美国空军(USAF)和美国海军(USN)现在正集中精力在中期内发展大量的协同作战飞机(CCA),以增加其作战飞机机队的深度,因为他们认为机队已经缩减到无法对抗大国行动的水平。目前的概念是 "负担得起的规模",即在控制成本的前提下增加规模性。这些 CCA 将被整合到美国空军和海军的下一代空中主导(NGAD)系统中。这一庞大的协同作战体系结构所涉及的首要任务是对空作战,实现空中优势(即定位和压制敌方防空系统--SEAD),但美国空军为 CCA 设想了 "100 种角色"(拦截、CAS、通信中继)。尽管如此,关于如何权衡这些系统的成本和作战性能的辩论仍在继续。

美国人目前正在研制陆基、大部分可回收的飞机,其基础是 Kratos XQ-58、GA-ASI 的 Gambit 系列或波音公司的 MQ-28 幽灵蝙蝠,但尚不确定这些系统是否能胜任这一任务。尽管如此,此类系统很可能会成为 CCA 初期增量的主力,并在中期内转化为美国空军采购至少一千个单元,与 F-35 和 NGAD 战斗机组成有人-无人联队(MUM-T)。虽然所使用的平台将取决于所需的性能水平,但似乎可以肯定的是,这些系统将基于模块化开放式架构和 Skyborg 人工智能系统(其开发工作已经完成)。美国人也在开发无人驾驶空射飞行器(如美国国防部高级研究计划局的 "长枪 "计划)。洛克希德-马丁公司的设计和米切尔研究所的兵棋推演表明,美国最终很可能会确定一系列性能各异的 CCA,有些是消耗型,有些是可回收型,发射方案多种多样,其中包括少量 "精致 "的可回收系统--高度复杂的无人情报平台或无人战斗飞行器(UCAV)。参与米切尔研究所几项对空作战任务研究的专家赞成在作战初期大量使用消耗性 CCA,用于诱饵、ISR、协同空战和通信中继,先于第五代战斗机飞行,一旦敌方能力被削弱,再使用更先进的可回收 CCA,以扩大友军系统的覆盖范围。他们没有使用现有的 UCAV 解决方案。

许多国家正在效仿美国的做法,尽管资源更为有限:

  • 英国正在与 BAE 系统公司合作,结合 "暴风雪 "全球空中作战计划 (GCAP),开发遥控解决方案--轻型和重型两类陆基可回收遥控飞机,提供不同的先进程度。

  • 澳大利亚正与波音公司合作研制 MQ-28 "幽灵蝙蝠",其概念与美国的 CCA 相似。澳大利亚的这一模型也启发了韩国人,他们正在研制一种忠诚的僚机无人机,以配合其先进版本的 KF-21 Boramea 战斗机。

  • 在美国的支持下,日本也正在研发一种能够在 2030 年代与其未来的 F-X 战斗机配合使用的遥控无人机。

  • 在战略竞争对手中,俄罗斯的情况最为不确定。莫斯科正在研制 UCAV 型忠诚僚机,如 S-70 Okhotnik 和 Grom,但西方的制裁和推进解决方案的缺乏大大减缓了这些项目的进展。

  • 中国的情况要好得多,在各种无人机中,中国正在开发一系列协同作战系统,与有人驾驶战斗机,特别是歼-20 战斗机一起以 MUM-T 模式作战:飞鸿 FH-95 涡轮螺旋桨 ISR 和电子战无人机以及 FH-97 战斗无人机,与可回收的美国 CCA 设计相似。

  • 印度也在开发自己的系统体系,即印度斯坦航空有限公司的 "战斗空中联合系统"(CATS),包括作为 "母机 "的 "泰贾斯 "有人驾驶战斗机和几种遥控飞机,特别是与 MQ-28 和 XQ-58 非常相似的 "勇士"(CATS Warrior)、可回收巡航导弹型遥控飞机 "猎人"(CATS Hunter)和 ALFA 漂浮弹药。

  • 土耳其已经建立了广泛依赖无人机的空中力量模式,既用于 DITB,也用于弥补其作战飞机项目的问题,土耳其还在寻求开发自己的 MUM-T 遥控技术模块,以及未来的 F-X Kaan 战斗机: Bayraktar 公司的超音速 Kizilelma UCAV、Anka-3 隐身无人机、Super Simsek 消耗型无人机和土耳其航空航天公司的自主僚机概念。

注意到,对于大多数空军来说,开发无人飞行器技术构件和 MUM-T 系统是为了满足弥补常规作战飞机数量不足的迫切需要,而造成这种不足的原因可能是多方面的。

对于未来空中作战系统(FCAS)及其协同作战飞机系统,可以得出哪些结论?在许多方面,法国的情况与上述几个国家相似。诚然,考虑到多年期 LPM 军费法案所确定的趋势,法国未来的空中力量应受益于多种能力的进步,包括下一代战斗机(NGF),它提供了新一代战斗机的所有附加值,在未来战场上不可或缺。尽管如此,RCs 面临的首要挑战是纠正空中力量深度不足的问题,随着越来越多的国家实施 IADS(综合防空系统)升级,或者美国的保证变得越来越不确定,这一问题可能会继续恶化,并将变得越来越棘手。这种衰退的后果是众所周知的:它影响到满足各种战略职能要求的能力;更具体地说,在干预方面,它使减员难以为继,减少了可供选择的行动范围,并使其无法保持永久态势,如动态瞄准。

除了深度问题,遥控飞行器还能从质量上提高空中作战力量的能力:通过提供 "替身 "能力(可在敌方系统的交战范围内使用),它们能提高空中力量的穿透力;它们能使情报和交战/作战能力分散和分解,使后者更具弹性,并改善空间和时间覆盖。发射解决方案的多样性是真正意义上的多领域,增强了空中力量的灵活性和可用性。

在许多方面,空中客车公司和 MBDA 公司的想法与美国专家的想法(上述米切尔研究所的工作突出表明了这一点)在 FCAS 体系结构的框架内趋向于相当类似的解决方案类型,而 FCAS 体系结构与美国 NGAD 体系结构的顺序相同。这适用于通过混合使用可消耗或可回收系统,提供各种发射解决方案来降低 "单位效应成本 "的需要。在实施这些系统之前,必须满足一些条件。这些条件包括:确定作战性能与成本之间的权衡、开发特定设备和弹药的必要性、不可或缺的连接架构,以及载人平台(其乘员必须管理这些遥控任务)和飞行器本身的自主解决方案。这些飞行器的自主性必须遵守非常严格的交战规则。这些无人机的行动可以在两个层面上进行管理:当然是在任务领导者层面上,这也是最常见的设想(因此有了忠诚僚机的概念),但也有可能在战斗管理指挥与控制(BMC2)功能层面上进行管理,而这一功能本身将越来越分散。美国人强调,在这些交战规则范围内赋予无人驾驶飞机的自主程度以及对其行动的管理水平是可变和相互依存的。特别是,它们将取决于作战环境,包括可能在不同程度上断开、间歇、有限(DIL)的电磁环境,这将影响作为系统之系统的连接组织的作战云的运作。

从作战角度看,这些 RC 可以改变所有任务的执行情况,包括以下方面:

  • 在情报功能方面,提供穿透性传感器网络,大大扩展了 ISR 系统的覆盖范围;

  • 在反空领域,通过与驻扎在远离前线的战斗机合作,提供远程诱饵、干扰、瞄准和交战能力,一方面可以采取必要的迷惑和饱和行动,使敌方综合防空系统失明和瓦解(通过 SEAD 和战斗机扫射);另一方面,可以建立动态瞄准能力,在半隐蔽环境中长时间持续开展 SEAD 工作;

  • 在进攻性反陆(OCL)领域,通过在战役开始时增加穿透力,然后在较长时间内保持对大片区域的覆盖,实现拦截动态目标能力的倍增,这对于提高近距离空中支援的可用性也是必要的;

  • 提供先进的传感器网络和传输中继器,以扩大作战管理 C2(BMC2)功能的范围并增强其稳定性。

总之,在未来空战中,RC 不乏潜在用途,可以重新创造美国人所谈论的、欧洲所急需的 "负担得起的大规模"。然而,如果要充分挖掘这些系统的潜力,还需要克服许多挑战。

在看来,必须研究这些系统相对于有人驾驶战斗机的效率。这种效率取决于一种微妙的妥协:一方面,如果要获得足够的数量,这些机器必须保持其消耗性;另一方面,性能和可靠性阈值--考虑到需要预测与综合防空系统(IADS)的对抗等问题,这种妥协就更难找到了,因为综合防空系统(IADS)已转变为饱和状态。其次,RC 的使用概念必须基于出色的多领域整合,以优化协同作用。这就提出了实施这些无人机的部队的 C2 灵活性问题,以及 FCAS、NGAD、GCAP 和其他系统之间的多国互操作性问题。就技术资源而言,其前提是战斗云确实按计划发展。在这方面,虽然 MUM-T 的建设将部分基于现有技术,例如在连接方面,但它也基于尚待证明的技术前提,特别是在人工智能领域,尤其是管理任务的载人平台。

正如已经进行或计划进行的演示所幸运地表明的那样,这些不同的条件自然支持尽快开始对驻地协调员和作战云进行渐进式开发,以便为这些多重挑战的具体解决方案开辟道路。

成为VIP会员查看完整内容
36
Top
微信扫码咨询专知VIP会员