《人工智能趋势报告(2025年)》的详细核心内容总结,按报告结构系统梳理关键数据和观点:

一、AI变革速度空前

技术迭代加速

  • 算力增长:AI模型训练算力年均增长360%(2010-2025),2024年顶级模型训练成本超1亿美元(较2016年增长2400倍)。
  • 算法效率:算法改进推动性能年均提升200%(2014-2023),模型参数量年均增长167%(2020-2024)。
  • 性能突破:2024年AI在MMLU基准测试准确率达89.8%,超越人类水平(73%对话被误认为人类生成)。

用户采用史无前例

  • ChatGPT里程碑:5天获100万用户,17个月达8亿周活用户(增长8倍),用户留存率80%(vs 谷歌搜索58%)。
  • 全球渗透:上线3年覆盖90%非北美用户,速度超互联网(需23年)。
  • 使用强度:用户日均使用时长21个月增长202%,会话量增长106%。

二、AI用户、使用量与资本支出激增

生态扩张

  • 开发者生态:NVIDIA开发者6年增长6倍至600万;谷歌Gemini开发者1年增长5倍至700万。
  • 企业应用:75%全球CMO使用AI工具;摩根大通AI价值贡献年增65%;Kaiser医疗AI scribe覆盖1万医生。

资本支出爆发

  • 科技巨头投入:六大美国科技公司(苹果、英伟达等)2024年AI相关资本支出3500亿美元(占收入15%,较2014年8%翻倍)。
  • 数据中心建设:美国数据中心建设价值年增49%,xAI孟菲斯超算中心75万平方英尺仅122天建成(对比美国房屋平均建造234天)。

能源挑战

  • 数据中心占全球用电量1.5%(2024),美国占全球数据中心能耗45%,AI算力需求与电网压力形成“杰文斯悖论”。

**

**

三、AI成本与性能动态(#129-152)

成本两极分化

  • 训练成本飙升:顶级模型训练达1亿美元(Anthropic称2025年或达10亿美元)。
  • 推理成本暴跌:每百万token推理成本两年下降99.7%,NVIDIA Blackwell GPU能耗比2014年降105,000倍。

性能趋同与开发者崛起

  • 模型收敛:2025年头部模型(GPT-4.5/Claude 3.5)性能差异<5%(LMSYS竞技场排名)。
  • 开发普惠化:63%开发者使用AI工具(2024年vs 44%);GitHub AI代码库16个月增长175%。

**

**

四、AI商业化与竞争格局(#153-247)

硬件垄断与挑战

  • 英伟达主导:数据中心芯片市占率25%(2024),季度营收390亿美元(年增78%)。
  • 定制芯片崛起:谷歌TPU 2024年营收89亿美元(年增116%);亚马逊Trainium芯片性价比超GPU 30-40%。

云服务与新玩家

  • CoreWeave:AI云服务商年收入19亿美元(年增730%),Q1 2025营收9.82亿美元。
  • Oracle:AI基础设施收入两年增长50倍至9.48亿美元。

开源与中国竞争

  • 开源模型:Meta Llama 3、阿里Qwen 2.5等性能比肩闭源模型。
  • 中国进展:深度求索(DeepSeek)开源模型推理能力超GPT-4o;美国AI专利2024年激增6000项(较2023年)。

**

**

五、AI与物理世界融合

  1. 医疗突破
  • FDA批准AI医疗设备数量2023年达223台(较1995年增长222倍);AI将药物研发周期缩短30-80%(Insilico案例)。
  1. 工业与能源
  • 全球工业机器人存量年增15%(2024);AI优化电网降低能耗12%(IEA数据)。

**

**

六、AI重塑工作与知识

  1. 生产力变革
  • 72%美国员工称AI提升工作效率;AI自动化处理报销、客服等任务(Bank of America年处理20亿次交互)。
  1. 知识民主化
  • 2023年6万篇科学论文含AI生成内容(占总量1%);6.96%全球新闻为AI生成(日均6万篇)。

**

**

核心结论

  • 技术拐点:AI发展速度超越互联网/移动互联网,成本下降与性能提升形成“自我强化循环”。
  • 地缘竞争:中美AI竞赛加剧,OpenAI CEO称“AI领导力或决定地缘领导力”。
  • 风险与机遇:训练成本高企与推理成本暴跌催生商业模型创新;能源约束与伦理问题需全球治理。
  • 未来展望:AGI(通用人工智能)路径渐明,OpenAI称“已掌握构建方法”;2030年AI或实现跨领域自主决策。

图片 图片 图片 图片 图片 图片 图片 图片

成为VIP会员查看完整内容
47

了解 GPT、Gemini 等大型语言模型的原理(通俗易懂)

《How Large Language Models Work》(大型语言模型的工作原理)将多年关于大型语言模型(LLMs)的专家研究成果,转化为一本可读性强、内容聚焦的入门读物,帮助你掌握这些令人惊叹的系统。书中清晰解释了 LLM 的工作机制,介绍了优化与微调方法,以及如何构建高效、可靠的 AI 应用流程和管道。

**你将在本书中学到:

如何测试与评估 LLM * 如何使用人类反馈、监督微调和检索增强生成(RAG)技术 * 如何降低错误输出、高风险失误和自动化偏差的风险 * 如何构建人机交互系统 * 如何将 LLM 与传统机器学习方法相结合

本书由 Booz Allen Hamilton 的顶尖机器学习研究人员撰写,包括研究员 Stella Biderman、AI/ML 研究总监 Drew Farris 和新兴 AI 研究总监 Edward Raff。他们用通俗易懂的语言,深入浅出地讲解了 LLM 和 GPT 技术的运作原理,适合所有读者阅读和理解。


技术背景介绍

大型语言模型为“人工智能”中的“I”(智能)赋予了实质含义。通过连接来自数十亿文档中的词语、概念与模式,LLM 能够生成类似人类的自然语言回应,这正是 ChatGPT、Claude 和 Deep-Seek 等工具令人惊艳的原因所在。在这本内容翔实又富有趣味的书中,来自 Booz Allen Hamilton 的全球顶尖机器学习研究人员将带你探讨 LLM 的基本原理、机遇与局限,并介绍如何将 AI 融入组织与应用中。


图书内容简介

《How Large Language Models Work》将带你深入了解 LLM 的内部运作机制,逐步揭示从自然语言提示到清晰文本生成的全过程。书中采用平实语言,讲解 LLM 的构建方式、错误成因,以及如何设计可靠的 AI 解决方案。同时你还将了解 LLM 的“思维方式”、如何构建基于 LLM 的智能体与问答系统,以及如何处理相关的伦理、法律与安全问题。

**书中内容包括:

如何定制 LLM 以满足具体应用需求 * 如何降低错误输出和偏差风险 * 破解 LLM 的常见误解 * LLM 在语言处理之外的更多能力


适读人群

无需具备机器学习或人工智能相关知识,初学者亦可放心阅读。


作者简介

Edward Raff 是 Booz Allen Hamilton 的新兴 AI 总监,领导该公司机器学习研究团队。他在医疗、自然语言处理、计算机视觉和网络安全等多个领域从事 AI/ML 基础研究,著有《Inside Deep Learning》。Raff 博士已在顶级 AI 会议发表超过 100 篇研究论文,是 Java Statistical Analysis Tool 库的作者,美国人工智能促进协会资深会员,曾两度担任“应用机器学习与信息技术大会”及“网络安全人工智能研讨会”主席。他的研究成果已被全球多个杀毒软件厂商采纳并部署。 Drew Farris 是一位资深软件开发者与技术顾问,专注于大规模分析、分布式计算与机器学习。曾在 TextWise 公司工作,开发结合自然语言处理、分类与可视化的文本管理与检索系统。他参与多个开源项目,包括 Apache Mahout、Lucene 和 Solr,并拥有雪城大学信息学院的信息资源管理硕士学位与计算机图形学学士学位。 Stella Biderman 是 Booz Allen Hamilton 的机器学习研究员,同时担任非营利研究机构 EleutherAI 的执行董事。她是开源人工智能的重要倡导者,参与训练了多个世界领先的开源 AI 模型。Biderman 拥有佐治亚理工学院计算机科学硕士学位,以及芝加哥大学的数学与哲学学士学位。


目录一览

大局观:LLM 是什么? 1. 分词器:LLM 如何“看”世界 1. Transformer:输入如何变成输出 1. LLM 是如何学习的 1. 如何约束 LLM 的行为 1. 超越自然语言处理 1. 对 LLM 的误解、局限与能力 1. 如何用 LLM 设计解决方案 1. 构建与使用 LLM 的伦理问题

成为VIP会员查看完整内容
35

书籍描述

《AI产品开发的艺术》是一本实践指南,旨在帮助您通过人工智能驱动的产品交付商业价值!了解AI如何改善内容创作、加速数据分析以及提升流程自动化。 《AI产品开发的艺术》提供了一种清晰、实用的方法来创建使用AI的产品。它为您提供了关于如何定义AI战略、开发有用的AI功能并支持用户信任和采用的现实指导。与其追逐潮流,本书专注于核心原则和长期思维——这些基础在该领域不断发展的过程中始终保持相关性。 在《AI产品开发的艺术》一书中,您将学习到以下重要技能: • 识别AI的市场和商业机会 • 深入了解现代AI方法,包括预测AI、LLM(大型语言模型)、增强生成检索(RAG)和代理系统 • 组建有效的AI解决方案,避免炒作 • 高效与数据科学家和机器学习工程师沟通 • 设计注重信任和透明度的用户友好型AI界面 • 实施安全、道德的AI,并确保适当的治理流程 《AI产品开发的艺术》是为产品经理、技术高管、UX设计师以及任何负责AI驱动产品成功的人群所写的。它介绍了广泛的AI机会,并通过来自不同领域的案例研究,如营销、供应链和物流,展示了实践经验。您将从最初的设计讨论开始,逐步进行高效且安全的开发,最终进入部署及日常管理AI驱动应用程序的阶段。 关于技术

将AI集成到您的软件和流程中,可以为您的业务和客户创造真正的价值——前提是您做对了。当您负责交付AI支持的产品时,您需要识别具有高影响力的机会,与工程师高效合作,设计以用户为中心的功能,避免常见的项目失败,并管理现实中的发布。本书将教您如何做到这一点。 关于本书

《AI产品开发的艺术》为您提供了清晰的框架、实用的工具和现实世界的例子,帮助您在新的AI项目中建立信心并获得成功——即使您是第一次接触AI。您将喜欢来自营销、供应链管理和可持续发展等领域的实践用例和端到端场景。 书中内容

• 创意、塑造并优先考虑AI机会 • 使用提示工程、RAG和预测AI等技术开发AI系统 • 与不同的AI利益相关者沟通并促进AI的采纳 目标读者

本书面向软件产品经理、面向商业的工程师、UX设计师、创业公司创始人以及任何负责开发、设计或营销AI产品的人群。无需AI经验。 关于作者

Janna Lipenkova博士是AI和分析业务的创始人,她成功地为宝马、汉莎航空和大众等世界级公司管理AI项目。 目录

第一部分

使用AI驱动的产品创造价值 1. 发现并优先考虑AI机会 1. 绘制AI解决方案图谱

第二部分

  1. 预测AI

  2. 探索和评估语言模型

  3. 提示工程

  4. 搜索与增强生成检索(RAG)

  5. 微调语言模型

  6. 使用代理AI自动化工作流 第三部分

  7. AI用户体验:为不确定性设计

  8. AI治理

  9. 与您的利益相关者合作 附录A AI开发工具箱 购买印刷版书籍后,您可以获得Manning的免费电子书(PDF或ePub)以及在线liveBook格式的访问权限(其中包括AI助手,可以用任何语言回答您的问题)。 关于作者

Janna Lipenkova博士拥有中文学和经济学硕士学位以及计算语言学博士学位。在学术界和工业界从事AI和自然语言处理的多年工作后,她创办了自己的AI和分析公司。她获得并管理了全球公司的项目,积累了通过AI实现商业成功的第一手经验。目前,她专注于利用AI为公司在创新、数字化和可持续发展等核心领域生成战略建议。

成为VIP会员查看完整内容
31

美海军已明确需要利用人工智能优势,特别是在通用战术态势图(CTP)、作战识别(CID)及战场管理辅助领域。海军高度关注对“未知的未知”——即未知存在或难以追踪目标的作战识别。人工智能及其相关机器学习、深度学习与深度分析工具,为指挥官处理信息以识别此类“未知的未知”目标提供了技术支持。当前CID系统的局限性,加之传感器数据激增使值勤人员难以识别规律模式与异常现象,为技术应用创造了减轻人工负担的机遇。机器学习等AI系统可填补这一空白,协助判定“未知的未知”目标。针对机器学习与深度学习技术的研究,已确定水面舰艇部队CID应用的潜在方向,而技术获取与集成成为主要制约因素。需持续开展传统系统与新技术融合研究,以充分释放AI在识别“未知的未知”目标领域的潜力。

美海军已明确需借助人工智能(AI)提升通用战术态势图(CTP)与作战识别(CID)的战场感知能力。战术指挥官依赖精准完整的战场态势图以理解作战环境、识别威胁并制定有效战术决策。该过程面临多重挑战:战场态势的动态时效性、敌方蓄意实施的感知干扰、信息过载/错误/缺失/失准,以及基于传感器数据与物理特性识别高速移动目标的内在困难。战术决策常关乎生死存亡的关键性,进一步凸显了最大限度提升战场感知能力的必要性。

“未知的未知”目标对战术决策者构成严峻挑战。对敌方新战力或其他可能破坏战术行动要素的完全未知状态,加剧了战场事件与结果的不确定性。战术决策者需要分析工具支持识别“未知的未知”目标并辅助决策。人工智能有望提供技术解决方案,协助指挥官处理信息并制定决策。为深入理解该技术应用路径,需开展研究以明确当前及未来所需AI技术,通过精准识别敌方威胁与理解战场态势来增强CID与CTP能力。这要求具备识别并理解环境中“未知的未知”目标的能力。“未知的未知”指战场中影响战术行动的任意物体或事件。本研究采用定性方法评估AI技术在识别"未知的未知"目标中提供相关信息的能力,并分析该应用领域当前与未来的AI技术投资回报率(ROI)。

本论文识别并评估了具有决策应用价值的AI方法,包括机器学习、深度学习、认知处理与智能数据分析等技术方案,以支持战术环境中"未知的未知"目标识别。

研究问题为:(1)AI与数据分析如何协助识别“未知的未知”目标?(2)AI应在哪些环节集成以最优支持“未知的未知”目标识别?

本研究深入阐释了AI如何协助决策者理解战术传感器等多源信息的海量数据,以及如何通过分析识别“未知的未知”目标。研究潜在局限包括AI技术处理信息的广度与相关性:战术决策者可能无法获取识别“未知的未知”所需的完整信息,导致未知目标持续处于未知状态;此外决策者可能因接收过量"已知的未知"信息而陷入感知过载。本研究将为海军作战部情报与信息战处(OPNAV N2/N6)及其他战场感知解决方案研发机构提供参考。针对四类战场感知特征的深度剖析,为AI与数据分析方法的应用构建了框架;而将这些方法映射至具体战术感知场景,则是解决方案开发的关键步骤。

本文共分五章。第一章绪论阐述研究问题、目标、研究问题、研究方法及研究效益与局限;第二章文献综述系统论述“未知的未知”概念定义,以及AI、机器学习与深度学习方法的技术背景;第三章详述数据构建、收集与分析的研究方法;第四章讨论研究分析与结果并提出建议;第五章总结结论并提出后续研究方向。

成为VIP会员查看完整内容
32

多模态大型语言模型(Multimodal Large Language Models,MLLMs)已迅速发展,超越了文本生成的范畴,如今能够覆盖图像、音乐、视频、人类动作以及三维物体等多种输出模态。它们通过在统一架构下将语言与其他感知模态整合,实现了跨模态的生成能力。本文综述将六大主要生成模态进行分类,并探讨了若干核心技术——包括自监督学习(Self-Supervised Learning, SSL)、专家混合机制(Mixture of Experts, MoE)、基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)以及思维链提示(Chain-of-Thought, CoT)——如何赋能跨模态能力。我们分析了关键模型、架构趋势及其涌现的跨模态协同效应,并重点指出了可迁移的技术路径与尚未解决的挑战。诸如 Transformer 和扩散模型等架构创新为这种融合奠定了基础,使得跨模态迁移与模块化专精成为可能。本文还总结了跨模态协同的最新发展趋势,并指出了评估方式、模块化设计及结构化推理等方面的开放性难题。该综述旨在提供一个关于 MLLM 发展的统一视角,并指明实现更通用、可适应、可解释的多模态系统的关键路径。

1 引言

自 2022 年底首次亮相以来,基于文本的大型语言模型(Large Language Models,LLMs)已成为人工智能领域的基础支柱。这些模型不仅重塑了人工智能的格局,也深刻融入了我们的日常生活。它们的演进推动了自然语言处理、人机交互以及多模态应用等方面的创新,为各个领域的无缝集成铺平了道路。随着发展,LLMs 已从最初的简单文本生成模型,演进为支持上下文学习(in-context learning)【16, 109, 149, 51】、指令跟随(instruction following)【110, 147, 146】以及多步推理(multi-step reasoning)【33】的复杂系统,正在重塑我们与计算机交互、完成任务和创造数字内容的方式。

然而,智能并不局限于语言本身。人类通过丰富的模态——文本、视觉、音频、动作等——来感知和理解世界。硬件的进步使得机器具备了处理、解释和生成这些多样化数据流的能力。这一技术趋势正推动研究社区迈向更加整体化的多模态方法,促使人工智能与人类复杂的感知方式更紧密对齐。因此,先进模型不仅擅长理解和生成文本,还能将文本与视觉结合【123】,或与音频整合【40】。这种演进也体现在输出形式上,它们正日益呈现出多模态和通用化的特征,突破了传统单一模态的响应模式。如今的模型常常以混合类型的数据作为输入【109, 147】,这一多模态集成正在推动人工智能系统逐步理解现实世界的复杂性【1】,不断逼近人类通用理解的能力。

虽然文本依然是这些模型处理的核心要素,但其生成能力已扩展至多个输出模态。为更好地理解这种多样性,本文提出了一个全新的分类方式,将多模态大型语言模型(Multimodal Large Language Models,MLLMs)的主要生成输出划分为六大关键类别:

文本生成文本(Text-to-Text, T2T):为所有语言类任务及自然语言处理的基础,支撑着信息检索、摘要生成、翻译与对话系统。

文本生成图像(Text-to-Image, T2I):用于视觉内容的生成与分析,是各类视觉生成任务的核心。 * 文本生成音乐(Text-to-Music, T2M):音乐是一种复杂的听觉媒介,包含多种乐器与情感表达,其建模难度高于一般音频。 * 文本生成视频(Text-to-Video, T2V):结合时间与视觉信息以生成动态场景,涉及现实物理规律,类似一个世界模型。 * 文本生成人类动作(Text-to-Human-Motion, T2HM):广泛应用于动画、机器人与虚拟人等场景,是实现直观人机交互的重要方式。 * 文本生成三维物体(Text-to-3D-Objects, T2-3D):对虚拟现实、游戏与设计等应用至关重要,有助于在沉浸式环境中实现想象与交互。

这六大类别代表了当前生成模型所涉及的主要模态,每种模态对应一种独特的数据输出形式与应用场景。本文将音乐单独归为 Text-to-Music(T2M),而非更广义的 Text-to-Audio,这是因为语音与文本关系密切,本质上是一种可直接相互转换的形式;而音乐则拥有与语言截然不同的结构、节奏、和声与创作元素,建模复杂性更高,因此值得单独对待。通过明确划分这些能力,我们希望强调生成模型所能覆盖的广泛输出范式,每种模式既有独特的应用场景,也伴随着专属的技术挑战。

支撑这些多模态生成能力的,是一系列基础性的架构创新,主要包括 Transformer【152】及其核心的注意力机制【5】,以及在众多视觉生成任务中表现突出的扩散模型(diffusion models)【106】。随着模态复杂度的不断提升,人工智能系统所需应对的问题日益复杂,模型结构与训练方法也在不断演进。这种演进往往是解锁模型涌现能力的关键【165】。其中有四项技术在提升模型推理能力方面起到了决定性作用:三项主要用于训练阶段,分别是自监督学习(Self-Supervised Learning,SSL)【121】、专家混合机制(Mixture of Experts,MoE)【62】以及基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)【26】;第四项是用于推理阶段的思维链提示(Chain-of-Thought,CoT)【164】。

自监督学习(SSL):在训练阶段使模型从海量未标注数据中学习,通过预测输入中被遮蔽的信息,建立起对语言、模式与世界知识的基础理解,为复杂推理提供必需支持。 * 专家混合机制(MoE):通过选择性激活不同“专家”子网络,以较低的计算开销显著提升模型容量,能更高效地学习多样知识与复杂模式,是增强高级推理能力的关键手段。 * 基于人类反馈的强化学习(RLHF):一种训练阶段的微调方法,使模型更符合人类偏好与行为预期。通过人类排名数据训练,RLHF 能提升模型输出的一致性、可靠性与指令理解能力。 * 思维链提示(CoT):在推理阶段引导模型生成一系列中间步骤,以增强多步推理能力。这种显式的思维过程有助于更准确且透明地处理复杂问题。

已有的综述文献也为理解 MLLMs 的发展提供了重要参考。[8] 提出了多模态学习的核心框架,并总结了代表性挑战,包括表示学习、模态翻译、模态对齐、模态融合与协同学习,奠定了 MLLM 研究的基础。[17] 评述了以视觉为中心的 MLLMs,涵盖其架构、模态对齐策略以及视觉定位、图像生成等应用。[183] 关注多模态模型中的人类偏好对齐机制,[30] 则深入探讨了模型的可解释性与可理解性,是可信 AI 的关键因素。[182] 详尽梳理了 MLLMs 在粒度、多模态与多语言覆盖及应用场景上的演进,并进一步推进了如多模态上下文学习、思维链推理、LLM 辅助视觉理解等新方法。[95] 系统地回顾了 MLLMs 在多种模态下的应用与安全性问题,[158] 则深入探讨了多模态思维链推理(Multimodal Chain-of-Thought, MCoT)在不同任务中的潜力。

为全面理解这一不断演化的研究图景,本文结构如下:第 2 节介绍背景知识与基本概念,并定义本文的综述范围与方法论;第 3 节对前述六大生成模态(T2T, T2I, T2M, T2V, T2HM, T2-3D)的历史发展进行梳理;第 4 节讨论四项核心技术(SSL, MoE, RLHF, CoT)的发展过程与关键作用;第 5 节综合分析跨模态的趋势、面临的挑战以及架构层面的共性,探索模态与技术之间的协同效应;第 6 节展望未来研究方向,如扩展 SSL 至新模态、模块化专家机制、以及非文本模态的思维链推理等;第 7 节总结全文核心观点,并探讨通向统一多模态系统的发展路径。

成为VIP会员查看完整内容
36

本文阐述了一种“低成本地基反无人机系统”的设计开发及测试环境,该系统致力于在资源受限场景提供有效空域安防方案。研究选用“动力学拦截技术”作为最具可行性、低成本的“末端防御手段”。基于“易获取材料”构建的系统包含自制气动装置、“可重复使用三维打印弹体”及互换零件架构,重点探索“经济型无人机防御”的可行性并引入“短程精度度量”评估弹道特性。在“普渡大学4号机库”的严格室内测试中,通过多环境下的“弹体高度”、“射程”及“精度”三维度评估系统性能;针对气动发射装置测试了“90度射界”并建立“小误差边际对照表”以明确技术改进方向。实验确定“热塑性聚氨酯线材”(TPU)为最优弹体材料,采用“10%填充率”、“225摄氏度(437华氏度)打印温度”及“70毫米/秒打印速度”参数。研究结果为“低成本无人机防御技术”提供了影响系统性能的材料选型与设计依据,表明气候温度变化将导致系统表现波动,为应用同类技术加强“非授权无人机防御”提供了实践指导。该研究填补了当前“动力学拦截式无人机防御技术”的空白,证实“高效解决方案”可实现经济性与可及性统一,不仅推动“反无人机技术”进步,更为发展“可扩展适配型无人机防御系统”的研究创新铺平道路。

在国际近期武装冲突中,乌克兰士兵在针对俄罗斯的行动中使用“改良商用现货无人机”,以及哈马斯武装在以色列实施的“自杀式无人机袭击”,向公众揭示了这种新型“无人机作战”(drone warfare)的潜在威力与风险。这两场冲突凸显了人们对低成本、易获取部件改造“商用现货无人机”(COTS drones)的担忧——这些改造使其转变为可摧毁坦克与作战单元且难以被侦测的致命武器。该技术在公私领域拥有多种名称:“无人航空器”、“无人机系统”、“遥控飞行器”、“遥控飞行器系统”、“遥控飞机”、“无人飞机”,更常简称为“无人机”(drones)。作为二十世纪发展的重要军事应用,无人机技术旨在减少对人类飞行员的依赖,避免“作战人员伤亡”、“战俘”问题及“军事情报泄露”。

尽管文献展示了“商用现货无人机”在多规格多场景中的先进能力,但该技术也吸引恶意行为者实施各类“非法滥用”,破坏民用及私域的“安全防护”与“隐私保障”。同步研究揭示了恶意行为者在无人机领域的创造性利用:从“商用无人机擅闯关键基础设施”与大型集会,到向设施边境“走私违禁品”,从扰乱公共服务到利用无人机“暗杀公众人物”,乃至全球范围内针对重要资产的“无人机袭击”——这些威胁亟需更严苛的法规约束及“反无人机产品”创新。尽管联邦机构严惩违法者,仍无法阻止恶意行为者钻营法规“灰色地带”和漏洞。根据“联邦航空管理局”预测,实际注册的商用无人机数量远低于市场销量。FAA虽强制实施“无人机注册制”(COTS drone registration)并要求加装用于空域定位的“远程识别广播系统”,但该规定不适用于重量低于0.55磅的“娱乐用途无人机”。

2015年“白宫无人机入侵事件”——一架商用无人机在未被发现情况下降落在全球安防等级最高的建筑群——充分暴露了“1类轻型商用无人机”的安全威胁。文献记载的全球类似事件,促使公私领域寻求不同“反制措施”应对恶意无人机挑战。由此催生的“反无人机产品”及预防手段,构建起新兴“反无人机市场”,其技术体系被称作“反无人航空器系统”或“反无人航空器”。公众更常使用“反无人机系统”等通用术语。依据文献定义,这是通过合法手段“安全瘫痪”、“信号干扰”或“夺取控制权”应对“恶意无人机袭击”的核心防御系统。

问题陈述

趋势分析所示,自2017年起公共与私营部门在“反无人航空器系统”(CUAV)领域开展了多样研究。尽管多家机构发布众多“评述报告”、“调查研究”及“学术研究”,但极少披露市售CUAV系统的“验证效能”与“可靠性数据”。此类报告虽阐述CUAV系统的“优势劣势”及“局限特性”,却鲜少提供真实威胁场景下的“系统效能实证”与“可信度分析”。更重要的是,对具备“探测拦截能力”的各类CUAV系统,其测试方法中“威胁场景分类”及“可靠性判定准则”均未详尽说明。

2017年美国“桑迪亚国家实验室”研究者提出CUAV系统“性能测试指标框架”,但未明确具体“威胁情景测试类型”。该机构2019年市场调查报告收集测试了多国供应商的“技术参数”,却仅呈现“调查问卷”及“系统特性汇总表”。研究承认存在“测试指标漏洞”,需持续更新以应对“商用无人机技术”的快速迭代。各CUAV系统架构迥异,配置单/双模“探测拦截体系”,针对不同威胁场景采用差异化方案。因此,基于“气动发射装置”与“三维打印弹体”的“地基固定式CUAV系统”亟需开展“小规模实景验证”,通过“实测约束数据”检验“射程效能”、“可行性”及“可信度”,此为反无人机领域的关键基石。

现存研究表明,当前CUAV领域尚无“通用解决方案”或“银弹技术”。恶意操作者可多向突破系统局限:通过关闭无人机“全球定位系统”(GPS)、预设“低空航点”规避“雷达”与“声学传感器”,并采用“高速变轨飞行”取代直线路径突破拦截。当前市场充斥各类CUAV系统的“性能宣传”,但因“商业保密条款”,鲜有供应商公开系统在真实威胁下的“精确性”、“生存性”与“可靠性”验证数据。2023年美军采用“系留无人机”及“气球标靶”进行反无人机训练——这与主流演示模式高度雷同:自2017年来网络公开的“反无人机演示影像”中,超九成案例仅展示击落悬停单机,未见有效对抗“集群无人机”的实证记录。

研究意义

多数“地基固定抛射式反无人机系统”存在共性缺陷:“射程范围”与“部署高度”受限。开放式解决方案公司的“天墙300”(Skywall 300)技术参数书声称其固定式系统具备250米“最大动力学拦截射程”[50],但未提供不同环境下的“精确性验证”与“可行性实证报告”。2015-2019年公开的“反无人机系统测试”及当前可获取报告均未基于“实境约束条件”验证系统效能。本研究探索利用“低成本易获取部件”构建可行“地基固定式抛射反无人机系统”,通过在“密闭小尺度实验场”测试“三维打印迫击炮弹”的“弹道行为特性”以检验其“有效拦截范围”与“命中精度”。

在无人机攻击激增的冲突背景下,采用“经济型材料”构建“低成本反制系统”至关重要——尤其当资源有限需应对“商用无人机威胁”时。现有“高端防御技术”因“高昂运维成本”难以成为长效解决方案。为检验固定系统的“有效作用范围”与“打击精度”,本研究基于“天墙300”概念构建系统,集成“云台转向机构”、“气动发射装置”及“三维打印弹体”。实验弹体运用“计算机辅助设计”(CAD)优化“气动外形”,通过“三维打印技术”实现“可互换式低成本构件”。核心目标在于设计建造并评估系统性能,聚焦“弹体射高”、“有效距离”、“命中精度”及“系统一致性”等关键参数,重点探究:“倾角-压力最优组合”对性能的影响、不同射距的“系统精确度”表现、“重复测试稳定性”。该“低成本自制固定式反无人机系统”通过以下自变量验证“有效射高”、“作用范围”与“打击精度”,填补当前固定式系统在“实境应用限制”中的效能空白:

  1. 观测三维打印弹体在“弹道轨迹”中动能耗尽前的“最大射高”与“射程极值”,分析不同“倾角参数”和“压力值”下的性能表现。
  2. 通过“标靶板测试”评估弹体与系统的“命中精度特性”及“运行稳定性”,采用本研究提出的“精度度量标准”进行数据分析。
成为VIP会员查看完整内容
30

本研究报告记载了由美国陆军未来司令部资助的“机协同与人工智能”项目研究分析工作。项目旨在调查陆军试图将士兵与人工智能(AI)算法配对以完成特定作战任务时可能遭遇的困境,并提出克服潜在障碍的建议,确保陆军有效开发能与士兵良好协同的AI系统。本研究在兰德阿罗约中心战略、条令与资源项目框架下实施。兰德阿罗约中心作为兰德公司分支,是由美国陆军资助的联邦研发中心。

人工智能、机器学习与机器人领域的最新进展表明,军事专业领域即将实现人类士兵与AI赋能的机器及应用系统的深度融合。AI赋能的机器与软件应用正展现适用于军事场景的能力,例如在复杂城市交通中自主行进、通过大语言模型生成类人化衍生作品等。但这并不意味着相关技术可顺利应用于军事领域:构建凝聚力强的微型作战单位本就艰巨——最优作战单元能在巡逻基地微光条件下凭借轮廓剪影和步态特征瞬间识别同伴;优秀参谋人员需长期内化指挥官的作战风格与特定需求。军事领域人机协同虽可借鉴民用经验,仍需大量场景化适配。为此,陆军未来司令部要求本研究团队评估人机协同的潜在影响,核心目标是探究陆军在配置"士兵-AI算法"作战单元执行特定任务时可能面临的困难,并提出克服障碍的建议,确保陆军有效构建能与士兵实现深度交互的AI系统。

方法论

本研究主要采用定性分析法,包含两大核心环节。首先基于文献综述探究陆军当前对人机协同的认知框架,将研究成果提炼为"接触行进"与"城市作战"两则探索性案例。通过这些案例识别陆军思维模式的关键特征。其次开展关于AI新兴原则的全面文献研究,涵盖人类与机器认知的"初始条件"、现有方法的实践挑战以及更具潜力的人机协同路径。

​​核心发现​​

• 可解释AI与认知强制功能效果不及预期。学术研究中最显著的发现是:当前通过工程化解决方案提升人类对AI信任度的尝试存在缺陷。提高透明度的信任构建措施反而导致人类过度依赖AI输出(即便在AI判断不准确时)。这种信任构建困境尤为关键,因对AI的信任度是陆军首要关注点。

• 设计理念、信号传递与心智模型的持久价值值得关注。实现人机融合需更系统化地构建共享心智模型,并随时间推移在人与机器间建立交互记忆系统。这表明协同过程应显著延长——人类成员须更明确共享其心智模型,并将部队内隐性的交互记忆系统显性化以促进机器融合。人本化设计与人机信号传递虽能积极影响交互界面,但仅当人类深度参与解释自身行为(使机器学习适应)时才具实际价值。

• 地面作战筹划与执行领域的人机协同进程将慢于商业领域。主因在于陆军对信任机制的严苛要求、作战安全保密需要以及"人类参与关键决策"的政策导向。这在叙事研究中可见端倪:鉴于信任是职业军人的核心素养(亦是任务指挥哲学的根基),陆军需更长时间积累AI系统应用经验,使作战团队对人类元素建立充分适应。

• 陆军人机协同重点仍聚焦"机器适配人类"路径。但变革人类组织架构以适应机器的尝试同样值得探索:战术层面建议调整编组形式(如设立"机器监管岗");基础组织层面应改革研究开发测试评估(RDT&E)与采办体系(提升对AI迭代优化的响应速度)。深化协同更要求加强官兵对机器的专业培训:正如先前论断——人机协同作为社会技术系统,需在特定场景中积累设备操作经验。全体官兵须通过专业军事教育理解AI运作原理,这对指挥集成化人机单元(需实时解读机器输出行为)的分队指挥员尤为必要。特定岗位官兵(如部队AI系统管理员)则需精研专项设备操作,此培训体系应参照其他武器系统的进阶训练模式构建。

建议措施​​

• ​​将新部署设备视同新兵编入作战单元​​。当陆军准备在作战单位部署机器系统时,其整合模式不应简单照搬武器系统列装流程。该过程应借鉴新兵完成基础训练后编入部队的模式:先承担复杂性较低的必备任务,待适应后再执行高阶任务。人类需主动向机器阐明操作细节以构建共享心智模型,包括详细解释"指挥官关键信息需求"(CCIR)、决策边界及标准作战程序。机器AI升级节奏须与部队训练周期同步——此时维护现有人机交互记忆与共享心智模型的价值,远高于追求AI准确率的边际提升。

• ​​预判差异化表现特性​​。若采取新兵编入式整合策略,陆军应接受同类部队间AI特性、性能及价值存在差异的必然性。本研究证实人机协同属社会技术建构体系,而人类个体差异本就导致各部队的标准程序、表现及文化存在区别,这将直接影响AI增强单元构建交互记忆与共享心智模型的方式。陆军对此应有充分预案。

• ​​监控信任建立与维系机制​​。尽管陆军在作战编成中整合机器面临诸多技术程序挑战(多数可通过设备优化解决),唯有人类方能应对的核心难题是建立并维持人机互信。随着机器深度融入作战编组与参谋体系,陆军须严密监控信任关系发展。可参照国防部监控"女性融入作战岗位"项目的双重框架:(1)追踪整合进程(2)预判重大挑战。这种方法虽与快速列装设备的战术需求存在张力,但人类对机器的信任只能通过渐进节奏构建。建议由训练与条令司令部主导监控工作,突显人机协同兼具技术性与行为科学双重属性。

• ​​坚守人类在协同体系的主导地位​​。随着国防部持续开发AI赋能的作战系统,美军陆军人机协同进程必将伴随希望、挑战、进步与挫折。多数技术演进源自民用领域,但军事行动中机器的角色必须始终定位于"辅助人类履行军事职责"。若人类丧失战场主导权,战术行动将脱离战争政治目的,沦为毫无意义的精妙暴力。

成为VIP会员查看完整内容
30

自主智能体技术的进步正通过支持侦察、障碍规避、路径规划与目标探测等多样化任务,变革多域作战模式。然而组建人类与自主智能体混合团队时,因双方“认知模型”及世界理解方式存在差异而产生挑战。本研究着力构建“联合认知系统”,旨在融合人类与自主智能体优势以提升“情报监视侦察(ISR)”“协同作战”“搜索救援(SAR)”及战场“医疗后送”等任务的协作效能。此类军事行动需协调具备多元能力与复杂“依存关系”的多智能体系统,对决策与资源管理构成严峻挑战。本文提出基于“协同设计”的方法优化指挥控制决策,聚焦多智能体系统内部任务分配与协调的“可观察性、可预测性与可导控性”(OPD)原则。该协同设计方法通过评估多智能体在各子任务中的相互“依存关系”及所需“能力”(如目标感知、障碍规避或区域值守),适用于“无人机”“有人驾驶载具”及“地面控制站人员”等多元团队。

所提出的“联合认知系统”(JCS)框架综合评估人机智能体的能力与依存关系,结合环境参数、任务要素及“在线监测”(状态与行为感知),动态推荐特定任务的最佳执行主体。研究通过在三维模拟环境中组织不同能力配置的人机混合团队执行“搜索救援任务”展开实验。团队配对设计旨在考察操作员如何发展差异化“能力水平”,进而促使自主智能体在各任务阶段提供相应层级的“支援”。测试八种机器学习算法后,最优模型的“任务分配预测准确率”达80%以上。研究核心在于探寻“人机控制权”的最优平衡,通过“预判失误”或检测操作员“失能状态”,最大限度避免“自动化滥用”以保障“有效人类决策权”。这有望推动未来“C2指挥控制系统”实现:采集感知数据(“观察”);辅助解析并“预判”态势(“预测”);优化团队内部任务“导控”(“可导控性”)。此类系统可增强“联合全域指挥控制”(JADC2)在分布式团队与混合编队资源管理中的作战效能,依托“人工智能”支撑加速决策进程。

联合全域指挥控制(JADC2)的未来

“联合全域指挥控制”(JADC2)代表一种复杂的决策模式,旨在快速整合全域作战能力以获取“竞争”与“冲突”场景中的战略优势[1]。根据文献[2]阐述,JADC2涵盖“感知”“研判”“行动”三大核心功能,贯穿“太空”“网络”“空中”“陆地”及“海洋”五大作战域[3]。该系统依托由先进传感技术构成的“多域传感体系”,包含“光电/红外成像”“高光谱成像”“雷达(无源/有源)”“声学传感器”及“侦察卫星”等设备。跨域数据流生成分布于不同时空维度的海量信息。“有效管理”这些数据对支持“作战管理”与“指挥决策”至关重要,需确保“精准情报”及时送达相应团队或“智能体”以实现预期作战效果。此类“数据点”要求构建统一的“多域网络”——通过整合“多源信息”(取代孤立数据管道)形成“全域联合态势感知图景”。这种“集成化路径”有助于“全面把握作战环境”。如图1所示,应用“机器学习”“人工智能”与“预测分析”能进一步优化该流程,提供“数据融合”与“快速解析”的高级能力,将感知图景转化为作战行动[2][3]。文献[4]强调,“指挥控制”的根本目标是确保“精准情报”及时交付相应决策者,从而彰显“敏捷性”并促进团队间“互操作性”。实现此目标需依托“量子通信”“人工智能(AI)”及“自主系统”等关键技术。未来JADC2将构筑“类云环境”,实现“情报共享”“态势监视”及“高速数据通信”以加速决策[2]至[5]。这些技术以远超人类的“处理速度”与“规模”实现数据快速解析。文献[4]着重指出“AI”与“机器学习(ML)”在自动化处理海量信息、支持决策流程中的整合作用。二者特别擅长在“动态多变量环境”中识别快速演变的“模式特征”,通过关联“地形”“气象”“行为模式”等离散情报源预判态势并响应环境变化[2]至[5]。在“未来指挥控制系统”中,AI有望跨“梯队”“作战域”及“作战资产”同步多重行动,从而把握“关键战机窗口”。此项能力在“无人地面载具(UGV)”“无人机(UAV)”“水下潜航器(UUV)”“水面艇(USV)”等搭载智能传感器的作战平台日益普及的战场尤为重要。AI赋能的系统可评估作战环境中“多源情报”,运用“历史数据”生成行动建议,从而减轻“认知负荷”并赋能指挥官的“快速有效决策”。

1.1 多智能体系统

无人系统与自主智能体的发展深刻重塑了“联合全域指挥控制”(JADC2)框架内的团队结构与角色定位。这些进步重新定义了“指挥控制”(C2)与“任务管理”的实施路径,要求对多元化资源及团队进行精密协同。这种整合需依托先进的“C2能力”以优化资源分配并实时调整任务指令——需综合考量“性能评估”“任务修正”“动态环境条件”“人员工作负荷”“疲劳状态”及“机器性能极限”等多元因素。为应对此挑战,本节将探讨“人机自主编队”(HAT)在多智能体团队中的兴起,以及如何通过“协同设计”的HAT框架评估“有效人类决策权”。

1.1.1 人机自主编队

人工智能与自主系统的应用显著改变了团队动态,催生出“人机自主编队”(HAT)概念[6]。HAT重构了团队结构、成员角色及其在权责体系中的层级关系[6]。将自主智能体融入人类团队增加了复杂度:因其承载差异化能力与角色[7]至[8],可能导致“任务委派矛盾”“权责错配”及“责任主体验证缺失”。由此可能形成影响团队动态与绩效的“复杂依存关系网”[7]至[8]。影响该复杂性的因素包括:成员特性、任务构成、情境特征、环境条件及任务目标。有效评估HAT需建立并验证性能度量标准,涵盖:(i)单兵作战效能(ii)单机性能表现(iii)整体团队绩效[6]。“客观”与“主观”度量工具有助于判定任务能力边界[6]。传统军事团队绩效指标聚焦“安全性”与“作战能力”,包括“团队执行力”“压力水平”“信任度”及“凝聚力”[2]。这些指标可深化团队能力认知,优化“多智能体系统”协作效能以保障任务成功。

1.1.1.1 人机自主编队中的“有效人类决策权”保障

“有效人类决策权”概念包含三大核心原则:仅有人类在场不足以保证实质性控制;意向性决策贡献取决于“心理认知能力”与“系统理解度”;差异化法律责任要求不同层级的控制权,由此可能引发“责任缺失”[9]。核心矛盾源于机器人与装备从工具属性向“团队成员”的转化——这要求建立“相互依存的通信”“协同决策”及“联合作战”机制[10]。因此有效训练方法与“人因工程”研究致力于探索提升“团队效能”与“个体效能”的路径。例如“认知人机系统”研究领域正探索运用“生物标记物”作为人类“精神状态”或“生理状态”的评估指标[11]至[14]。“神经生理学数据”的运用有助于精准解析团队协作中的人类支援需求(如根据“工作负荷”“疲劳状态”或“功率谱密度”动态调整编队层级)[11]至[15]。此类认知将优化“资源配置”,通过AI或“自主智能体”在操作员“失能状态”时提供实质性支援。其还有助于提升“能力透明度”与“依存关系可见性”,发展“可调节的多智能体编队模式”。这些信息可实现“人机资源动态调配”——例如当操作员“警觉度下降”时,自主智能体可增强“贡献度”或接管特定任务“控制权”,从而提升“整体任务效能”。

当前各类“自主能力”已内嵌于无人机系统。这些能力使智能体能够实施“自主决策”,发展“专项技能”以促进任务成功。此类技能通常通过“深度强化学习”(DRL)实现:路径规划(如D3-QN算法)、导航(DQN/PPO算法)及高度控制(DDPG算法)[16]至[18]。既有研究展示了嵌入式自主智能体的应用案例:无人机系统基于“视觉导航”实现“障碍规避”[19],或依托无人机平台实施“目标定位”[20]。此外通过“卷积神经网络”(CNN)与YOLO等算法增强无人机相机的“搜救任务目标检测能力”[20]。多智能体团队还包含其他“半自主系统”:如“陆基/海基水雷”“防空反导系统组件”[22],以及支撑近距空战“基本战术机动”的无人战机“自主导引系统”[23]。但自主载具的“传感器性能局限”(目标检测置信度低、视觉识别偏差或导航执行错误)仍构成制约[24]。过度复杂的智能体模型可能引发“决策透明度”问题,导致团队成员难以维持“态势感知”[25]——例如人类操作员可能无法判断何时介入接管自主智能体任务。

这些能力使多智能体团队得以在人类与自动机器间分配“控制权”与任务。但当人机因“理解偏差”导致协作失败,或“突发异常行为”引发“指挥控制”(C2)系统混乱与模糊性时,将影响多智能体团队的“可预测性”与“作战效能”。美国陆军“训练与条令司令部”(TRADOC)强调必须识别保证任务成功的“部队作战能力”。在战场或灾区等“动态环境”中,当异构团队需与“地面传感器”“无人载具”等资产交互时,须配置“实时学习”与“自适应算法”[2]。这些算法支撑“最优博弈策略”制定,提升部队对“弹道导弹威胁”等动态条件的“响应力”与“适应性”[2]。北约“TG-HFM247工作组”指出人机编队面临“动态可调协作”挑战:因编队过程需“双向认知学习”,双方必须理解彼此“行为模式”“优势”与“短板”。随着团队成熟度提升,这种互相认知将催生“互补增效”作用[26]。该工作组强调采用“人机编队设计模式”可建构“心智模型”、明晰“角色定位”、优化“任务条件”,进而增强“团队协作透明度”与“任务分配策略”[26]。2016年瑞典海军演习中的指挥控制研究提炼出三维度框架:(i)“信息分布”(ii)“决策权分配”(iii)“交互模式”[9],凸显“灵活响应的C2系统”对管理复杂多智能体环境的核心价值。整合“人机编队框架”将提升“协同效能”,通过定义清晰角色与“任务分配策略”,释放混合编队的“互补能力潜能”,最终实现“团队作战效能”的全面增强。

1.1.1.2 协同设计框架

“协同设计框架”评估协调多智能体能力以达成任务目标所需程度。该框架界定各智能体分配的功能与任务能否独立执行,或因“执行能力缺失”必须协作完成[7]至[8]。其运作基于“依存关系”“从属关系”及“执行能力”三原则:“依存关系”定义为联合行动中两个及以上实体为满足依赖需求形成的互补关系[7]至[8];“从属关系”通过“执行能力”概念展开——涵盖实体独立胜任任务所需的技能、知识与认知水平;当实体缺乏有效执行任务的能力时,即形成需他方支援的“从属关系”。为评估任务完成所需的“能力依存状态”,该框架提出采用“依存关系分析表”(IA)[7]至[8]。此表格通过定义任务、子任务、必备能力及团队成员替代角色(执行主体或支援角色),辅助设计依存关系架构。这些能力对任务达成至关重要,指导评估人类操作员与自主智能体间的任务分配。分析结果将强化“决策回路”——该回路作为“联合全域指挥控制”(JADC2)核心要素,遵循“可观察性-可预测性-可导控性”(OPD)准则:“可观察性”确保用户清晰掌握系统内部状态与行动;“可预测性”使用户能基于实时和历史数据预判系统行为;“可导控性”赋予用户引导控制系统运作的权限,确保按需动态调整[7]至[8]。三要素协同作用旨在实现人机智能体间的无缝集成与高效协作。

2.0 研究目标

本文旨在通过聚焦集成自主智能体与人类操作员的混合多智能体团队,应对“联合全域指挥控制”(JADC2)的核心挑战。研究目标分为四方面:(1) 通过AI建议优化资源分配;(2) 建立“多模态数据管道”整合人机智能体与其他实体特征,提升互操作性与同步能力以改进信息融合;(3) 构建“人机自主协同框架”,运用3D仿真环境训练测试多智能体团队,评估性能与依存关系;(4) 应用“可观察性-可预测性-可导控性”(OPD)原则增强JADC2决策流程保障“有效人类决策权”,同时研究人类神经生理信号中的“生物标记物”与“行为模式”以优化资源分配策略。达成这些目标将推动多域作战中基于AI任务分配策略的“多智能体资源管理”进展。

3.0 方法

本方法通过名为JCS的试验性处理平台实现,整合实验设计与海量数据采集构建多模态管道及机器学习算法。该方法运用协同设计原则优化任务分配、资源管理及决策流程,强化“可观察性”“可预测性”与“可导控性”(OPD)。

3.1 联合认知系统(JCS)

所提方案将人机数据整合为统一管道,依托协同设计原则与AI优化任务分配。JCS汇聚多元数据源——含“气象数据”“地理环境地图”(GEM)“任务状态”“神经生理指标”“载具传感器”“信号情报”(SIGNIT)“人工情报”(HUMINT)及“自主智能体性能指标”——形成“多模态集成框架”,增强复杂作战环境中的透明度与动态任务分配能力。

3.1.1 组件与架构

联合认知系统框架含五大模块以提升作战效能:(i)特征采集:获取自主智能体与人类操作员数据;(ii)任务参数:定义子任务(含目标数量与位置);(iii)环境参数:监测风速、降雨、温度等关键条件;(iv)能力评估:核定各智能体能力,确定其担任“支援角色”或“主执行体”;(v)任务分配:运用机器学习技术根据评估能力与环境因素预测最佳子任务执行主体。该综合框架(基于文献[15]改进)旨在优化任务分配、资源管理及整体任务效能。

3.2 实验设计与用例

研究以“搜救任务”(SAR)为用例背景:救援队在时间资源受限条件下部署无人机最优定位灾后受困者。部署“无人机系统”(UAS)的核心目标是评估伤情(区分危重与非危重状态),据此制定救援优先级。任务执行需人类操作员、救援调度员(通常为有人驾驶飞行器)与机器协同完成。无人机必须规避障碍物,规划最优路径定位“目标区域”(即灾区)内所有受困者。任务依据协同设计框架分解,基础能力与子任务如下:S1-目标探测感知;S2-障碍物感知;S3-偏差规避障碍物;S4-抵近目标获取分析图像;S5-在规避禁区的目标区域内导航。该结构化路径确保人机组件协同应对SAR任务需求。

成为VIP会员查看完整内容
31

摘要:

本综述研究了经典软件设计模式如何提升大型语言模型(LLM)驱动的代理型人工智能系统中通信的可靠性与可扩展性,重点聚焦于模型上下文协议(Model Context Protocol,简称 MCP)。文章考察了基于 LLM 的代理的基础架构及其从孤立运行向复杂多代理协作演进的过程,分析了在这一转变中出现的关键通信难题。 本研究重新审视了多个成熟的软件设计模式,包括中介者(Mediator)、观察者(Observer)、发布-订阅(Publish-Subscribe)和代理(Broker)模式,并分析了它们在构建符合 MCP 框架的代理交互结构中的适用性。为阐明这些交互机制,文中提供了概念图示与形式模型,以描绘通信路径并优化数据流动。 此外,文章还探讨了适应不同代理自主性与系统复杂度的架构变体,并通过实时金融处理与投资银行等领域的实际应用,展示了这些设计模式与 MCP 如何满足特定的运行需求。最后,文章总结了当前尚待解决的挑战、潜在的安全风险,以及推动强健、可互操作且具备可扩展性的大型语言模型多代理生态系统发展的未来方向。

1. 引言

**1.1 基于 LLM 的智能体式 AI 与多智能体系统的兴起

大型语言模型(Large Language Models,LLMs)正经历一次范式转变——从作为静态的信息提供者(通常嵌入于对话型智能体中)演化为具备自主决策与任务执行能力的计算型智能体,即所谓的智能体式人工智能(agentic AI)[1]。这一转变标志着智能体式 AI 的兴起,LLM 被赋予了与外部系统交互、随时间存储与提取信息,以及执行可操作行为的能力[2]。

这些增强后的智能体专为完成那些需要迭代推理、规划、记忆与工具使用的任务而设计——这些能力是传统 LLM 因上下文窗口受限、易产生幻觉以及难以处理复杂行为序列等限制所无法胜任的[3]。 随着任务需求超出单一智能体的能力范围,**由多个 LLM 智能体组成的多智能体系统(LLM-MAS)**应运而生。这类系统通过在多个智能体之间分配认知任务,实现协作式问题求解与专业化分工[4]。这一演进趋势背后的动因在于:许多现实世界任务过于复杂,单一智能体难以胜任,需要通过有组织的交互实现智能的扩展[5]。关键在于,LLM-MAS 的整体表现不仅取决于个体模型的性能,而更取决于这些智能体在架构上如何实现通信、协调与知识共享[6]。

尽管早期的 LLM 在单智能体场景中表现强劲,但在涉及长期依赖、上下文连续性和工具使用策略的任务中却表现不足。智能体式 AI 通过将 LLM 嵌入具备规划、记忆和模块化推理功能的框架中来填补这些能力空缺[4]。然而,即便具备这些增强功能,孤立运行的智能体仍然存在局限。向多智能体协作的转变,反映出人们认识到:结构化的智能体间通信所产生的分布式智能[7],是应对高复杂度场景的关键。最终,LLM-MAS 所展现的智能,更源自系统层级的整体设计,而非任何单一智能体[8]。


**1.2 智能体间通信在复杂 AI 工作流中的关键作用

在多智能体系统中,尤其是由大型语言模型(LLM)驱动的系统中,智能体之间的通信是协调与共享目标的基石。正是通过通信,智能体才能对齐任务目标、共享上下文理解,并协同规划行动[5]。 然而,这种依赖通信的方式本身也带来了巨大的挑战。在多智能体系统中,相比于单个智能体自身的能力局限,智能体之间交互的复杂性更容易成为导致系统性失败的根源。常见的问题包括目标不一致、任务验证机制薄弱、系统扩展性受限、面临安全攻击威胁,以及缺乏被广泛接受的健壮通信协议架构标准。 在基于 LLM 的多智能体系统中,通信不仅仅是信息的传递媒介,它更是群体推理的基础机制。然而,正是这种优势也成为潜在的弱点:支持智能体协同工作的通信通道,同样也可能传播错误、放大设计缺陷,甚至暴露系统于诸如“中间人智能体攻击”(Agent-in-the-Middle, AiTM)等对抗性攻击之下。因此,LLM-MAS 中的通信存在一个核心张力:它既是智能涌现的关键媒介,又是潜在的系统脆弱点——如果设计不当,可能削弱整个系统的安全性与可靠性。 因此,构建具有韧性、语义一致性和结构良好的通信架构不是可选项,而是打造可信、稳健且可持续发展的下一代智能体式 AI 系统的核心前提[11]。


**1.3 模型上下文协议(MCP):一种通用互操作性标准

模型上下文协议(Model Context Protocol,MCP)由 Anthropic 于 2024 年底提出,是一种开放的互操作性标准,旨在简化并统一 AI 模型与外部工具、系统及结构化数据之间的连接方式。MCP 常被称为“AI 应用领域的 USB-C”,目标是成为通用的接口层,大幅降低在多平台间集成的复杂性。 MCP 的核心目标是解决长期存在的“N × M”集成瓶颈问题:即每一个 LLM 都需为每种数据源或工具单独编写对接代码,造成工程重复、系统脆弱且维护困难。MCP 提供了一种统一协议,使任意 AI 助手都可以与任何兼容的服务、工具或数据集交互,从而极大简化集成流程[14]。 MCP 采用客户端–主机–服务器的架构模式,使用 JSON-RPC 实现通信,支持持久化、具备状态感知的通信会话。它还定义了严格的数据摄取格式、元数据注释规则、平台无关的模型协调方式,以及安全的双向连接机制。这种结构化方法不仅提升了互操作性,也增强了系统的可追踪性与可管理性。 MCP 更深远的影响在于推动 AI 基础设施朝着模块化、可组合的方向演进。与其构建大量定制化连接导致系统混乱,不如通过 MCP 实现组件之间的清晰解耦,使工具、模型与数据层能够独立替换与升级。这种模块化架构大幅减少工程负担、加快创新速度,同时为可扩展、可审计且面向未来的 AI 部署奠定基础。 此外,MCP 还提供了明确的消息结构与通信生命周期定义,支持关键的合规性与监控功能——这是在企业级与监管密集型场景中不可或缺的能力。


**1.4 综述范围与贡献:连接设计模式、LLM 智能体与 MCP

本综述融合了大型语言模型(LLM)驱动的智能体式 AI、经典软件设计方法论,以及新兴的模型上下文协议(MCP)三方面的研究进展,目标是为构建鲁棒、可扩展的智能体间通信框架提供系统性指导。 本文探讨了如何将久经验证的软件架构设计模式,适配到以 LLM 为基础的现代多智能体系统中,并将 MCP 定位为推动互操作性与结构化协作的核心支柱。 通过理论模型与概念图示,本文分析了通信动态、系统复杂度与数据交换效率。同时,本文还评估了这些设计策略如何在面对智能体自主性提升与系统复杂化时保持可扩展性。 文章还结合实时金融系统与投资平台等现实应用场景,展示在这些关键领域中,强健的智能体协同架构如何满足运行需求。最终,本文旨在为开发者与系统架构师提供一个切实可行的框架,用于构建安全、高效、可维护的基于 LLM 的多智能体生态系统。

成为VIP会员查看完整内容
33

**

**

内容简介

本书超越了 LangChain 的基础文档,深入介绍了 LangGraph 接口、构建 AI 智能体的设计模式,以及在实际生产中使用的可扩展架构,专为构建生成式 AI 应用的 Python 开发者打造。


主要特色

架起从原型到生产系统的桥梁,掌握健壮的 LangGraph 智能体架构 * 应用企业级测试、可观测性与监控实践 * 构建专用于软件开发与数据分析的智能体 * 购买纸质书或 Kindle 版附赠免费 PDF eBook


图书描述

第二版专注于当今企业在 AI 应用中面临的最大挑战:从原型走向生产部署。内容全面更新,涵盖 LangChain 生态系统的最新进展,系统阐述现代 AI 系统在企业环境中的开发、部署与扩展方式。本版特别强调多智能体架构、LangGraph 流程与高级 RAG(检索增强生成)管道。 你将学习如何设计构建智能体系统的模式,实际实现多智能体架构以处理复杂任务。书中还涵盖诸如 Tree-of-Thoughts、结构化生成与智能体交接等推理技巧,并提供丰富的错误处理示例。针对测试、评估和部署的章节得到扩展,重点说明如何设计安全、合规的 AI 系统,并遵循负责任的开发原则。同时,RAG 章节也加入了混合检索、重排序与事实核查等方法,以提升输出的准确性。 无论你是扩展已有流程,还是从零设计多智能体系统,本书都将为你提供将 LLM 应用部署到生产环境所需的技术深度与实用指导。


你将学到的内容

使用 LangGraph 设计与实现多智能体系统 * 实施可在部署前发现问题的测试策略 * 为生产环境部署可观测性与监控方案 * 构建具备重排序能力的 agent 化 RAG 系统 * 使用 LangGraph 和 MCP 设计可扩展的生产级 AI 智能体 * 使用最新的 LLM 模型与平台,如 Google Gemini、Anthropic、Mistral、DeepSeek 和 OpenAI 的 o3-mini * 设计符合现代伦理实践的安全、合规 AI 系统


适合人群

本书适用于希望深入学习 LangChain 与 LangGraph 的开发者、研究人员等。它强调企业级部署模式,特别适合希望大规模实施 LLM 解决方案的工程团队。尽管第一版面向的是个人开发者,本版则扩展了内容,适用于负责企业级 LLM 战略的工程团队与决策者。读者需具备基本的 Python 编程能力,若对机器学习有一定了解,将更容易掌握本书内容。


目录

生成式 AI 的崛起:从语言模型到智能体 1. LangChain 入门 1. 使用 LangGraph 构建工作流 1. 基于 LangChain 构建智能 RAG 系统 1. 构建智能体 1. 高级应用与多智能体系统 1. 软件开发与数据分析智能体 1. 评估与测试 1. 可观测性与生产部署 1. LLM 应用的未来


关于作者

Ben Auffarth 是一位全栈数据科学家,拥有超过 15 年的从业经验。他拥有计算与认知神经科学博士学位,曾在 IBM 超算上运行脑模型,设计并分析大规模实验,构建日处理数十万交易的生产系统,并对大规模文本语料训练语言模型。他是 Data Science Speakers London 的联合创始人及前主席。 Leonid Kuligin 是 Google Cloud 的资深 AI 工程师,致力于生成式 AI 与传统机器学习解决方案(如需求预测与优化问题)。他是 LangChain 上 Google Cloud 集成模块的核心维护者之一,也是在慕尼黑工业大学(TUM)与路德维希-马克西米利安大学(LMU)合作开设的 CDTM 项目的客座讲师。在加入 Google 之前,他在德国、俄罗斯与美国的技术、金融和零售公司中,积累了超过 20 年的复杂 AI 系统构建经验。

成为VIP会员查看完整内容
32

本报告由美国陆军战争学院(USAWC)作为战略研究项目编撰完成。美军处于转折点——面对技术迭代加速、地缘政治格局演变及日益复杂的多域作战环境,其正在思考如何维持至2040年的机动战优势。本报告由美陆军战争学院未来研讨研究团队历时八个月(2024年10月至2025年5月)完成,重点回应联合参谋部J7安德森中将的核心关切:美军应如何通过创新延续2040年前的机动战优势?研究通过开源文献分析,结合名义组技术分析法、多准则决策法、竞争性假设分析法及米隆分析法则等结构化推演技术,在15年预测期的高度复杂性背景下取得中等分析置信度。报告锚定五大核心发现:弹性思维的必要性、快速适应的关键性、新兴技术的变革潜力、统一创新生态的迫切性以及人才管理改革的战略需求。这些发现共同规划出使美军在颠覆性时代保持敏捷性、预见性与主导地位的实施路径。

2040年的战争特征将表现为流动性、透明化与科技密集型作战,从根本上重塑机动战形态。乌克兰冲突已提供明确预演:低成本致命技术(如第一视角无人机与先进电子战系统)给外界造成防御优势倾斜的错觉,但研究表明真正决定未来机动战胜负的并非技术本身,而是保持弹性思维的能力。依赖泛在传感器与AI驱动的战场透明化体系虽能提供近实时态势感知,亦使部队暴露于更高强度的侦测与打击风险中。

人工智能、脑机接口、核热推进及激光通信等新兴技术将重新定义作战范式,使速度、生存性与决策主导成为制胜要素。乌克兰战例印证了快速适应的战略价值——去中心化创新与商用技术集成被证实是作战成功的关键。要重建进攻性机动能力,必须深度重构兵力结构、战术体系与指挥哲学,以应对未来战场日益增长的致死性与透明化挑战。

核心发现一:弹性思维是军事创新必备要素​​

弹性思维植根于实效决策逻辑,是应对混沌不确定环境的关键。实效逻辑与传统预测方法形成鲜明对比,为未知情境下的决策提供框架。其五大核心原则包括:​​掌中鸟原则​​(立足现有资源)、​​可承受损失原则​​(聚焦下行风险)、​​化柠檬为琼浆原则​​(善用突发事件)、​​百衲布原则​​(强化伙伴关系)及​​驾驶员原则​​(掌控主导权)。这些原则共同赋能决策者在不确定环境中果断行动,培育创新与适应能力。后续章节将详解各原则在军事创新中的应用及推广挑战。

相较于假定可预测性的传统因果规划,实效推演使决策者能整合现有资源、承担可控风险、协同盟友与工业伙伴共创解决方案。斯塔西模型精准刻画美军面临的双重挑战:既需在高不确定性与分歧并存的混沌象限实施作战,又要在依赖确定性与共识的复杂官僚体系中维持运作。须通过平衡快速战术适应与制度稳定的双元结构协调这两个领域。

​​掌中鸟原则​​要求决策者最大限度利用现有人才专长与现有技术推动创新;​​可承受损失原则​​通过界定可接受风险挑战军队保守文化;​​化柠檬为琼浆原则​​倡导化突发危机为转机(如乌军无人机敏捷改造案例);​​百衲布原则​​强调聚合产业与盟友资源;​​驾驶员原则​​则赋予决策者塑造结果而非预测结果的能力。截至2035年在非物理域推广实效推演的预期实现概率仅为31-45%,亟需文化与结构层面的深度变革。虽然2040年前可能取得进展,但固有思维阻力将使全面深度整合难以达成——除非采取系统性措施破除障碍。尽管部分支持者认同其实践潜力,复杂动态环境中对实证效益的刚性需求将要求超越理论承诺的强效验证与整合路径探索。

核心发现二:快速适应能力支撑机动优势​​

通过模块化部队结构与开放式架构系统实现的快速适应能力,是维持机动优势的核心要素。2040年的陆军必须从传统僵化编制转型为灵活可互换的​​标准化作战单元​​,无缝集成网络、太空与电子战能力。此类结构赋予基层指挥员自主决策权与智能化数据工具,确保战术前沿的持续适应能力。乌克兰将技术专家前置至战术分队的成功案例,验证了去中心化创新的有效性——无人机与电子战系统可根据战场需求快速迭代。硬件、软件及编组的动态组合与可调特性对满足持续演变的战术需求至关重要。报告指出美军创新体系(如机动创新实验室与CP跨域融合项目)有望在2040年前实现机动优势。但克服装备采办领域的​​技术转化断层​​(即前沿样机难以实现规模化部署),亟需灵活经费机制、流程精简及风险包容文化转型。机构惯性及资源分配失衡仍是主要障碍,必须通过系统性努力将适应性置于固有等级体系之上。

​​核心发现三:新兴技术融合将重塑机动战形态​​

人机协同、AI决策工具及韧性通信技术融合形成的新型作战体系,将彻底重塑机动战形态。基于​​马尔可夫决策过程​​等框架的AI预测模型能以超高精度预判敌行为,实现多域作战前瞻性决策。​​多传感器数据融合​​技术在无人机欺骗检测中达99.79%准确率,确保对抗环境下的自主作战安全。​​核热推进​​技术赋能卫星快速变轨,为争议域分散作战单元提供关键天基支持。陆军合成训练环境采用的​​虚拟/增强现实技术​​预计至2040年可提升30-40%训练与战备效能,通过高拟真模拟降低成本并增强适应性。脑机接口、自适应伪装与定向能武器将扩展作战能力,微型核反应堆及无线能量传输技术则将强化战场抗毁能力。集成这些技术需突破部门壁垒与迟缓采办流程等现有瓶颈。报告强调需通过兵棋推演与联合演习验证技术应用,借鉴乌克兰将商业方案敏捷转化为军事需求的实践经验。

核心发现四:必须构建统一创新生态替代碎片化发展模式​​

构建统一创新生态系统对扭转当前军事创新的碎片化格局至关重要。尽管各军种与机构在研发及作战实验领域取得进展,但缺乏衔接战略需求、新兴概念、快速适应、产业规模化与战场反馈的​​统筹框架​​,严重制约发展进程。基于《2023年国防科技战略》的预测显示:需建立联合创新条令并授权​​跨域集成机构​​协调军种、部门及工业伙伴,确保技术无缝整合。开放式架构与​​数据核心化​​模式对实现快速适应能力具有关键意义,使作战人员可实时组合调整系统。尽管美国研发投入巨大,但澳大利亚战略政策研究所数据显示美同级对手在44项关键技术中的37项占据主导地位。预测同时指出:​​国防规划想定​​存在静态化缺陷(其持续应用概率虽高却无法应对未来威胁的多样性与不确定性),必须通过自适应采办框架与多场景兵棋推演等举措突破斯塔西矩阵的单一区域局限。亟需破除官僚阻力与制度复杂性,确保创新生态系统支撑陆军2040年​​持续学习、预见性与适应性​​三大核心特质。

​​核心发现五:人才管理转型是军事创新核心枢纽​​

人才管理改革是使领导力匹配2040作战需求的关键支柱。陆军现行体系往往​​资历优先战略素养​​(如技术能力与适应性),若不实施深度改革38,难以为关键岗位配置合格领导者。报告主张培养具备高流动性智力、战略思维与求知欲的指挥人才(附件H《知识、技能与行为规范》详述)。乌军​​技术专家下沉编队​​的实践印证需具备技术整合能力的领导者。必须通过"旅级指挥员评估计划"等培训选拔机制,激励决策者践行​​风险阈值管理​​与​​突发事件转化​​等实效原则。然而惧错文化与体制惯性构成重大障碍,需融合评估数据、发展机遇与战略人力规划形成整体方案,方能培育创新文化土壤。陆军必须优先提升认知多样性与技术素养,以实现附件J规划的​​预见性、适应性与去中心化​​特质。人才管理改革若失败,将削弱新兴技术的作战效益,危及军队维持机动优势的能力。

贯通历史与未来​​

马克·布洛克《奇怪战败》的历史镜鉴为审视当前挑战提供深刻启示。该书对1940年法国战败的分析揭示了思维僵化、教条主义与组织失效的风险——这与美军当前依赖因果规划与碎片化创新模式的现状形成警示性呼应。本报告倡导的实效决策逻辑与弹性战略路径直指历史教训核心,强调适应性、去中心化与挑战传统思维的决心。过度确定性风险(尤其体现于以中国为核心的规划想定)恰如布洛克所批判法军对德军机械化作战的误判。若忽视不确定性与压制异见,美军将面临2040备战进程中的战略性失误。斯塔西矩阵揭示必须接纳复杂混沌领域,在此类充满不确定性与分歧的环境中需采用弹性规划机制。实效决策逻辑五大原则(立足既有资源、管控可承受损失、转化突发事件、协同伙伴共创、聚焦可控行动)为应对不确定性提供可靠框架,确保军队保持敏捷与创新力。

​​当前冲突启示录​​

乌克兰冲突为把握未来战争形态与维持机动优势策略提供关键洞见。乌军敏捷改造无人机与电子战系统等商用技术的成功实践,印证了去中心化创新与实效推演的战略价值——技术专家嵌入战术分队、软硬件快速迭代、北约能力整合共同彰显协同创造与战场敏捷性的作战效能。然而冲突也显现低成本的网络化技术正强化防御优势:延伸交战半径并提升战场透明度。重建进攻性机动能力需依赖网络化系统集群、实施战场欺骗及夺取电磁频谱优势;这些能力要求与本报告强调的模块化部队结构及新兴技术完全契合。美军在借鉴乌军敏捷性的同时,必须破除自身体制与文化障碍(如官僚惯性及偏好高成本高精尖装备)。

​​## 结论​​

维持至2040年的机动战优势需采取前瞻性综合举措:通过实效决策逻辑培育弹性思维、借模块化部队结构实现快速适应、整合颠覆性技术、改革人才管理体系以强化战略素养、构建贯通战略战术需求的统一创新生态。2040年的陆军必须具备规划的六大特质:持续学习、预见性、认知未知、战场吸引力、适应性及去中心化能力。尽管官僚阻力、文化惰性及对手技术优势构成严峻挑战,但针对性的改革将提升成功概率——包括以实效原则培训指挥层、精简采办流程、深化与工业界及盟友协作、在防务规划中接纳不确定性。乌克兰实战经验与《奇怪战败》的历史警告共同昭示:唯有果断行动方能避免战略过时。通过锻造韧性、敏捷与创新兼具的未来力量,将确保2040年及之后的机动战主导地位,在深刻变革的时代巩固全球引领者角色。

成为VIP会员查看完整内容
29

书籍简介

《没有标签的数据》揭示了处理未标注数据的关键算法和模型的所有实践实现,充满了案例研究,展示了如何将每项技术应用于现实世界的问题。 在《没有标签的数据》中,您将学习到: * 机器学习和无监督学习的基本构建块和概念 * 结构化和非结构化数据(如文本和图像)的数据清理 * 聚类算法,如K-means、层次聚类、DBSCAN、高斯混合模型和谱聚类 * 降维方法,如主成分分析(PCA)、SVD、多维尺度法和t-SNE * 关联规则算法,如aPriori、ECLAT、SPADE * 无监督时间序列聚类、高斯混合模型和统计方法 * 构建神经网络,如生成对抗网络(GANs)和自编码器 * 使用Python工具和库,如scikit-learn、numpy、Pandas、matplotlib、Seaborn、Keras、TensorFlow和Flask * 如何解释无监督学习的结果 * 如何为您的问题选择合适的算法 * 如何将无监督学习部署到生产环境 * 机器学习解决方案的维护与更新

《没有标签的数据》介绍了数学技巧、关键算法和Python实现,帮助您构建针对无标签数据的机器学习模型。您将发现无监督机器学习的方法,这些方法可以解开原始、现实世界的数据集,并支持您的业务做出正确的战略决策。 这本书不仅仅是理论的堆砌,它架起了复杂数学和实践Python实现之间的桥梁,涵盖了从模型开发到生产部署的全过程。您将发现机器学习和无监督学习的业务用例,并访问相关的研究论文,帮助您完善知识体系。 技术概述

生成式AI、预测算法、欺诈检测等许多分析任务都依赖廉价且丰富的无标签数据。无标签数据的机器学习——即无监督学习——将原始文本、图像和数字转化为有关客户的洞察、精确的计算机视觉和用于训练AI模型的高质量数据集。本书将向您展示如何实现这一点。 关于本书

《没有标签的数据》是一本全面介绍无监督学习的指南,深入探讨其数学基础、算法和实际应用。书中通过零售、航空和银行的实际案例,结合完整的Python代码进行讲解。您将学习到核心技术,如聚类和降维,并深入探讨自编码器和生成对抗网络(GANs)等高级主题。通过本书,您将了解如何将无监督学习应用于商业场景,并学会如何开发端到端的机器学习模型。 书中内容

精通无监督学习算法 * 实际的业务应用 * 精心策划AI训练数据集 * 探索自编码器和GANs的应用

读者对象

本书面向数据科学专业人士,假设读者具备Python和基础机器学习的知识。 作者简介

Vaibhav Verdhan 是一位资深的数据科学专业人士,拥有在大型制药公司从事数据科学项目的丰富经验。 目录

第1部分

机器学习简介 1. 聚类技术 1. 降维方法

第2部分

  1. 关联规则

  2. 聚类

  3. 降维

  4. 无监督学习在文本数据中的应用 第3部分

  5. 深度学习:基础概念

  6. 自编码器

  7. 生成对抗网络(GANs)、生成式AI和ChatGPT

  8. 端到端模型部署 附录A 数学基础 购买打印版书籍,您将免费获得电子书(PDF或ePub格式),并获得在线liveBook格式的访问权限(包括其AI助手,可以用任何语言回答您的问题)。

书评

“这是一本很好的无监督学习技术入门书。” —— Richard Vaughan “用Python深入探讨无监督学习的极佳书籍!” —— Todd Cook 封底文字

《没有标签的数据》展示了处理无标签数据的关键算法和模型的所有实践实现,充满了案例研究,展示了如何将每项技术应用于现实世界的问题。在《无监督学习的模型与算法》中,您将学习到: * 机器学习和无监督学习的基本构建块和概念 * 结构化和非结构化数据(如文本和图像)的数据清理 * 无监督时间序列聚类、高斯混合模型和统计方法 * 构建神经网络,如生成对抗网络(GANs)和自编码器 * 如何解释无监督学习的结果 * 如何为您的问题选择合适的算法 * 如何将无监督学习部署到生产环境 * 机器学习和无监督学习的业务用例

《无监督学习的模型与算法》介绍了数学技巧、关键算法和Python实现,帮助您构建针对无标签数据的机器学习模型。您将发现无监督机器学习方法,这些方法能够解开原始、现实世界的数据集,并支持您的业务做出明智的战略决策。本书避免陷入理论的泥潭——它架起了复杂数学和实践Python实现之间的桥梁,涵盖了从模型开发到生产部署的全过程。

成为VIP会员查看完整内容
27

本综述聚焦于快速演进的深度研究系统领域——这些由 AI 驱动的应用通过整合大型语言模型、先进的信息检索技术与自主推理能力,实现了复杂研究工作流的自动化。我们系统分析了自 2023 年以来出现的 80 余个商用与非商用实现,包括 OpenAI/DeepResearch、Gemini/DeepResearch、Perplexity/DeepResearch,以及众多开源替代方案。基于全面的调研,我们提出了一套新的分层分类体系,从四个核心技术维度对系统进行归类:基础模型与推理引擎、工具使用与环境交互、任务规划与执行控制、知识综合与结果生成。 文章深入探讨了这些系统在学术、科学、商业与教育场景中的架构模式、实现方法与领域适配特征。分析显示,当前实现已具备显著能力,但在信息准确性、隐私保护、知识产权与可获取性等方面仍面临技术与伦理挑战。最后,本文指出了未来值得关注的研究方向:高级推理架构、多模态集成、领域专化、人机协作以及生态系统标准化,这些方向很可能塑造这一变革性技术的未来发展。 通过构建理解深度研究系统的综合框架,本综述既为 AI 增强知识工作的理论研究提供了参考,也为开发更强大、更负责任、更易获取的研究技术奠定了实践基础。论文资源可在 https://github.com/scienceaix/deepresearch 获取。

1 引言

人工智能的快速发展引发了一场范式转变,改变了知识在学术和工业领域中被发现、验证与应用的方式。传统的研究方法依赖于人工的文献综述、实验设计和数据分析,如今正逐步被智能系统所补充——在某些情况下甚至被替代——这些系统能够自动化端到端的研究流程。这一演化催生了一个新兴领域,我们称之为“深度研究(Deep Research)”,其标志是大型语言模型(LLMs)、先进的信息检索系统与自动推理框架的融合,重新定义了学术探索与实际问题解决的边界。

1.1 深度研究的定义与范围

深度研究指的是系统性地应用人工智能技术,从三个核心维度对研究流程进行自动化和增强: 1. 智能知识发现:自动化地进行文献检索、假设生成与跨异构数据源的模式识别; 1. 端到端工作流自动化:将实验设计、数据采集、分析与结果解释集成到统一的AI驱动流程中; 1. 协同智能增强:通过自然语言界面、可视化手段和动态知识表示促进人机协作。

为了清晰界定“深度研究”的边界,我们将其与相邻的AI系统区分如下: * 区别于通用AI助手:虽然像 ChatGPT 这样的通用智能体能够回答研究问题,但它们缺乏自动化工作流能力、专用研究工具及端到端的研究编排功能,这是深度研究系统的核心特征。近期的调查强调了专用研究系统与通用AI能力之间的关键差异【73, 76】,尤其指出领域专用工具在根本上改变了研究流程,而不仅仅是提升效率【213, 318】。 * 区别于单一功能的研究工具:如文献管理器、搜索引擎或统计分析软件这类专用工具只解决了研究流程中的某一部分功能,缺乏深度研究系统所具备的集成推理与跨功能编排能力。像 scispace【242】与 You.com【313】代表了早期的研究辅助尝试,但仍不具备真正的端到端研究能力。 * 区别于纯粹的LLM应用:那些仅通过研究提示语调用LLM的应用程序,缺乏对环境的交互能力、工具集成以及工作流自动化能力,也不能归入深度研究系统的范畴。

本综述聚焦于至少具备上述三项核心维度中的两项,并以大型语言模型为基础推理引擎的系统。涵盖的系统包括商业产品(如 OpenAI/DeepResearch【197】、Google Gemini/DeepResearch【89】、Perplexity/DeepResearch【209】),以及开源实现(如 dzhng/deepresearch【321】、HKUDS/Auto-Deep-Research【112】等)。我们排除纯粹的书目信息工具或缺乏认知整合能力的单阶段自动化系统,例如 Elicit【74】、ResearchRabbit【228】、Consensus【63】、Scite【243】等。其他如 STORM【278】等专注于科学文本检索与组织的工具虽然具有价值,但不具备本综述所定义的深度研究能力。

1.2 历史背景与技术演进

深度研究的发展轨迹可分为三个阶段,反映了技术进步与实现路径的演变:

1.2.1 起源与早期探索(2023年–2025年2月)

值得注意的是,像 n8n【183】、QwenLM/Qwen-Agent【224】等工作流自动化框架在深度研究爆发之前就已存在,说明相关技术的基础早已形成。深度研究的概念来源于AI助手向智能体的演进。2024年12月,Google Gemini 首次推出具备基本多步推理与知识整合能力的 Deep Research 功能【60】,为后续更复杂的AI驱动研究工具奠定了基础。诸如 AutoGPT【250】、BabyAGI【311】等智能体框架,以及 cline2024【61】和 open_operator【36】对集成研究流程和浏览器自动化的贡献,也是早期生态的重要组成部分。

1.2.2 技术突破与竞争格局(2025年2月–3月)

2025年2月,DeepSeek 的开源模型【68】因其高效的推理能力与低成本特性引发了市场革命。OpenAI 的 Deep Research(基于 o3 模型)也在此时推出,具备自主研究规划、跨领域分析和高质量报告生成能力,在复杂任务中的准确率超过了以往基准【197】。与此同时,Perplexity 推出了免费使用的 Deep Research【209】,主打响应速度与普及性。开源社区也涌现出多个替代方案,如 nickscamara/open-deepresearch【42】、mshumer/OpenDeepResearcher【249】、btahir_open_deep_research【37】、GPT-researcher【16】等。轻量级项目如 Automated-AI-Web-Researcher-Ollama【267】适用于本地资源有限的环境,而 Langchain-AI/Open_deep_research【131】等模块化框架则支持可组合的自定义研究流程。

1.2.3 生态扩展与多模态集成(2025年3月至今)

第三阶段体现了多样化生态系统的成熟发展。Jina-AI/node-DeepResearch【121】等开源项目支持本地部署与高度定制,而 OpenAI 与 Google 的闭源版本则持续推进多模态支持与多智能体协作。先进的搜索技术与报告生成框架的集成,使这些工具在学术研究、金融分析等多个领域具备实际应用价值。与此同时,Manus【164】、AutoGLM-Research【330】、MGX【171】、Devin【62】等平台也开始集成AI研究能力。Anthropic 于2025年4月推出 Claude/Research【13】,引入具备系统化探索与可验证引文能力的智能体搜索。OpenManus【193】、Camel-AI/OWL【43】、TARS【39】等智能体框架则在专业化能力与领域优化方面进一步拓展生态版图。

1.3 意义与实际影响

深度研究在多个领域展现出变革性潜力: 1. 学术创新:通过自动文献综合(如 HotpotQA【307】基准)加速假设验证,帮助研究者发现可能被忽视的跨学科关联。Sourati 与 Evans【256】指出,以人为中心的人工智能可增强研究者能力,并适应其理论与方法框架,代表了从传统自动化向协同智能的根本转变。Khalili 与 Bouchachia【128】进一步展示了如何通过系统化方法构建科学发现机器,从而重塑假设生成、实验设计与理论精炼流程。 1. 企业转型:系统如 Agent-RL/ReSearch【2】与 smolagents/open_deep_research【115】可深入分析市场趋势、竞争格局与战略机会,提升数据驱动决策的规模与效率。 1. 知识民主化:开源项目如 grapeot/deep_research_agent【263】与 OpenManus【193】降低了技术门槛,使个人与资源有限的组织也能获取先进研究能力。

1.4 本综述的研究问题与贡献

本文旨在解答以下三个核心问题: 1. 系统架构、实现方法与功能能力的设计如何影响深度研究系统的有效性? 1. 深度研究实现中,LLM 微调、检索机制与工作流编排方面有哪些技术创新? 1. 不同系统如何平衡性能、可用性与伦理考量?从如 n8n【183】与 OpenAI/AgentsSDK【199】等系统中能观察到哪些共性模式?

我们的贡献体现在三个维度: 1. 方法论:提出一套新颖的分类体系,从基础模型到知识综合能力对系统进行技术架构划分; 1. 分析性:基于评估指标对代表性系统进行比较分析,揭示各类方法的优劣; 1. 实践性:识别关键挑战,提出未来发展路线图,特别关注新兴架构与集成机会。

本文其余部分将按以下结构展开:第二节介绍概念框架,第三至四节分析技术创新与对比研究,第五节讨论实现技术,第六节介绍评估方法,第七节列举应用场景,第八节探讨伦理问题,第九节提出未来发展方向。

成为VIP会员查看完整内容
29

本书的核心观点是:自人工智能(AI)发展以来,我们能够且应当将过去40至50年视作重大变革来临前的“前奏”。人类认知曾是推动人类发展的核心动力。因此,机器执行人类认知的能力,以及人机团队共同学习、协同思考的能力,将塑造一个崭新的世界。这场变革开创的现实,让我们得以构想这样的未来:后人会将我们生活的时代视为新阶段智人(或无论何种称谓)的起源。唯有数十年后——甚或更久——人类才能获得理解这些变革的恰当视角。在我们这一代,技术不仅是辅助人类的工具;是AI在改变人类。是AI在重构知识与传播的本质。有生以来第一次,改写DNA的可能性不再属于科幻范畴。我们正处于数字时代变革加速的临界点。

本文探讨当AI颠覆基本规则时,如何在此数字时代(DE)加速期引领国家与组织。书中案例源自国家安全领域的经验与视角,但其洞见同样适用于经济、医疗健康、个人安全等其他领域。任何国家、机构及学科均可借鉴本书观点并应用于自身领域。本书遵循一条既宽广又聚焦的道路——宽广到足以引领我们迈向未来,聚焦到贴合现实、切实可行,并阐明我们能够且真正应当采取的行动。我们当下构建的理念、概念与实践,将成为下一代发展的基石。因此,在此阶段赢得竞争的国家或组织,将具备定义并主宰未来的潜力。

本书面向高级领导人、高级军官与高层管理者;面向期望精准把握组织所面临挑战、风险与机遇的国家安全官员及管理者;亦面向所有渴望理解AI潜力与应用的人们。

成为VIP会员查看完整内容
28

本文旨在建立无人机探测、追踪与识别系统的标准化测试框架。此套标准化评估体系将促进对反无人机系统性能的深度认知。鉴于无人机威胁态势日益严峻,且当前缺乏统一的系统评估政策应对风险管控,该框架建设迫在眉睫。本方法论于欧盟“内部安全基金警务部门”(Internal Security Fund Police)资助的“勇气项目”(COURAGEOUS)框架内开发。标准化测试架构基于系列用户定制场景构建,涵盖各类实战环境。现阶段标准场景侧重民用安防终端用户,但该框架采用开放式架构设计,支持模块化扩展标准场景体系,赋予用户便捷添加新场景的能力。各场景均配套明确的作战需求与功能性指标要求。基于此,本文提出综合测试方法学,实现不同反无人机系统的公平定性与定量比较。该标准测试体系聚焦反无人机系统的定性定量评估,已通过三轮用户脚本化验证测试实现效能验证。

本文组织结构​​

本文章节安排如下:为厘清问题本质,第3章解析无人机系统(UAS)关联事故案例并评估现役反无人机能力缺口;第4章探究当前反无人机作战的技术与方法体系,深化现状认知。基于前述研究基础,第5章提出10项标准化反无人机应用场景,该场景框架将作为全流程标准化工作的指导准则。第6章详述各标准场景的风险分析流程。通过平行工作路径并结合终端用户研讨,第7章提出反无人机覆盖的作战需求体系,同步制定系列系统性能要求与量化指标。综合上述成果,第8章构建反无人机系统评估方法论。该方案在希腊、比利时及西班牙开展的三次大规模试验中完成验证(详见第9章)。第10章作为总结,通过实证结果研讨指出现存研究缺口,并规划未来研究方向。

反无人机技术体系​​

反无人机领域的新技术研发已成为普遍研究方向。欧盟H2020-ALFA、H2020-ALADDIN及H2020-SafeShore项目代表典型范例,均针对特定应用场景开发无人机探测系统。构建高效探测系统普遍面临两大核心挑战:首先,无论采用何种传感技术,无人机平台普遍具备极小反射截面与探测基线——具体表现为采用公共无线电频段、有效距离内声学特征微弱、可见光/红外信号强度低、雷达反射截面微小等特性;其次,因多数无人机与鸟类特征相似,误报率控制成为显著技术瓶颈。雷达探测、声学侦测、可见光识别、红外识别(含热成像与短波)、无线电频谱感知、激光雷达等多种传感方案可用于应对无人机探测难题。然而因实际工况的复杂性,现行主流解决方案普遍融合多类传感技术,并结合源自计算机视觉的传统检测追踪算法,最终实现多传感器协同追踪。​​执法机构操作规范整合​​同为关键考量要素。此背景下,SkyFall与DroneWise项目具有重要实践意义:通过评估多类反无人机系统,将最优系统集成至执法机构培训体系,并提供系列终端用户导向措施以强化应对无人机恐怖袭击的能力。

反无人机系统标准化测试​​

在反无人机系统标准化测试方法开发领域,既往已取得多项进展。核心矛盾在于:评估无人机探测系统性能的标准化测试技术存在两项对立需求。因系统通常依赖复杂数据融合与传感器数据处理,需严格规范测试环境以识别性能边界,此第一需求要求受控环境下的可重复测试。然而无人机探测系统需满足全天候全时域作战需求,故第二需求要求评估其在复杂环境下的实战效能,二者存在根本性矛盾。标准化测试方法必须审慎平衡这两类需求,目标是建立同时满足开发者定量统计验证与终端用户定性实战验证的评估体系。

在机器人领域,美国国家标准与技术研究院(NIST)曾提出此类定性与定量验证方案。基于NIST成果,首次提出验证方法论并完成验证。该方案于2017至2018年在SafeShore项目框架下首次应用于反无人机标准化测试。同期美国能源部核安全管理局也在本土开展反无人机测试评估方法论研究。虽未最终成为标准,但其定义的技术路线涵盖测试方法、性能度量、测试无人机类型、关键变量及数据分析规范,为可靠评估反无人机技术奠定基础。

标准缺失问题在2020年左右显现:随着多款反无人机系统上市,终端用户愈发难以甄别性能差异。执法机构与政府部门在关键基础设施保护场景开展多项测试,但此类试验成本高昂且结果难以跨场景迁移。

该挑战推动国际组织开展多项标准化工作。欧洲民航设备组织(EUROCAE)WG-115工作组积极推进标准建设:ED-286标准提供管制空域反无人机操作的"作战服务与环境定义"(OSED),ED-322标准设定非合作无人机探测系统的"系统性能与互操作性要求"。这些聚焦机场环境的成果在欧洲与美国的紧密协调下推进——美国联邦航空管理局(FAA)设立SC-238特别委员会制定反无人机技术综合评估指南。EUROCAE与FAA协同确保反无人机系统在保持有效探测能力的同时安全融入现有航空体系。

北约是反无人机测试标准化的关键力量,其反无人机工作组聚焦:(i)建立技术共同体;(ii)政策、理念、条令及战术规程;(iii)标准化建设;(iv)研发与作战活动。年度"技术互操作性演习"(TIE)即为促进多系统互操作性的典范[31]。

德国标准化学会(DIN)正制定DIN 5452-9(专注无人机探测)及配套符合性测试规程。英国国家保护安全局(NPSA)同步开发"反无人机测试评估标准",旨在构建结构化性能评估框架。国际标准化组织(ISO)通过ISO/CD 16746[33](终端用户设备部署指南)与ISO/CD 16747(制造商合规解决方案指引)推动全球标准统一。

上述行动体现国际社会对标准化测试的共识,但国别法规差异与作战需求分歧仍存挑战。"勇气项目"制定的技术协议18150(CWA 18150)致力于整合各国成果,在确保与国际新标兼容前提下,为采购机构与安全主体提供透明可复现的技术评估框架。

现行反无人机框架综述​​

反无人机领域在商军两用无人机激增的推动下取得显著进展。本节概述现役探测、追踪与识别(DTI)技术及其在反无人机系统中的组合应用。

  1. 探测-追踪-识别(DTI)技术体系​​

本研究初始收集260套反无人机系统数据,经数据详实度与适用性筛选后保留144套系统样本。这些解决方案融合多种DTI技术,图3展示技术分布格局,其中主流方法包括:

  • ​​微波雷达​​:55%系统采用,通过主动发射无线电波探测目标。核心优势包括:全天候作战能力(昼夜无休)、中强度恶劣天气维持功能(暴雨/雾/雪环境下性能可能衰减)、可同步提供目标距离/径向速度/高度数据(部分构型)、结合机械或电子扫描天线阵实现广域监控。主要局限在于:低频雷达对小截面微型无人机探测困难;高频雷达在大气衰减下探测距离锐减;易受电磁干扰(含蓄意干扰);主动发射特性易暴露自身位置。

  • ​​可见光摄像机​​:47%系统采用,多作为辅助传感手段支持威胁识别或操作员视觉确认。其高空间分辨率特性(配合适用光学器件)支持远距离小目标识别,被动传感模式利于隐蔽作战。但效能高度依赖环境光照——夜间或浓云条件下需人工补光(牺牲隐蔽性);雾霾/雨雪等环境因素显著降低探测概率与识别精度。

  • ​​热成像仪​​:35%系统集成,基于目标红外特征实施探测。优势体现在:全黑暗环境有效监控;通过电机/电池等热源特征识别目标;对烟雾/伪装等视觉遮蔽抗性强。局限包括:暴雨/浓雾/高温环境削弱热对比度;空间分辨率低于可见光设备;长距探测模式视场角收窄,需多传感器协同保障覆盖。

  • ​​频率监测设备​​:64%系统配置,通过截获分析无人机与控制台射频信号实现探测。优势特性有:非视距探测能力(射频可穿透部分障碍物);通过射频指纹/遥测解码识别机型状态;被动探测不暴露自身。核心制约为:仅能监测主动发射信号的无人机(预编程自主飞行目标无效);射频饱和的城区环境误报率高且定位困难。

  • ​​声学传感器​​:10%系统采用,通过捕捉螺旋桨声纹特征实施识别。优势在于:不受电磁频谱制约;非视距短距探测能力;设备紧凑利于机动部署。但存在严重缺陷:环境噪声(风噪/车流/工业设备)易掩盖目标特征;理想条件下有效探测距离不足300米,难以满足早期预警需求。

  • ​​红外传感器与激光雷达​​:分别占2%与4%。红外传感器(本文指非热成像类的简易设备)通过监测场景红外辐射变化探测目标,优势是冷背景下热目标识别能力,常作为高精度系统触发装置;局限为无成像功能(仅支持探测)、易受雨雾干扰。激光雷达基于激光测距实现三维环境建模,优势体现在:复杂环境精准定位(降低误报)、中短距场景解析能力强;制约因素包括:主动发射易暴露、雨雪雾导致信号衰减、人眼安全标准限制功率(影响作用距离)。

这些技术的流行表明了多传感器融合的趋势,以提高可靠性和鲁棒性。用于检测和跟踪的传感器融合领域,特别是在反无人机应用中,正在通过基于人工智能的方法和对经典技术的增强而迅速发展。目标是增加系统的健壮性,减少误报,并在不同的环境条件下提供持续的操作能力。目前影响该领域的关键算法方法包括:

  • ​​探测追踪数据融合算法新动向​​。反无人机领域的传感器融合技术正通过人工智能方法与经典算法优化实现高速演进,核心目标为增强系统稳健性、降低误报率并保障多变环境下的持续作战能力。当前主导该领域的关键算法如下:

  • ​​​​人工智能增强型多传感器融合​​。新一代反无人机系统(C-UAS)日益采用AI增强的传感器融合方案:通过机器学习模型整合雷达、光电/红外摄像机、声学阵列、射频探测器等多源异构传感器数据。基于神经网络(CNN处理图像输入,RNN及变换器处理时序数据)的融合算法实现探测追踪信息的协同优化。此类方法通过多模态数据集训练模型以识别复杂威胁模式,补偿传感器固有缺陷,并实现概率化威胁分类。AI技术可动态调整传感器权重系数,有效应对气象/地形等环境变量导致的数据缺失或异常。

  • ​​​​卡尔曼滤波器及其现代演进​​。卡尔曼滤波器及其扩展型(EKF/UKF)仍是移动目标追踪的基础。反无人机系统借此融合雷达、光电/红外及射频输入,精确测算无人机位态信息。最新趋势包含:基于传感器可靠性指标在线调整过程/测量噪声协方差的"自适应卡尔曼滤波器",以及依据无人机行为切换悬停/机动/俯冲等运动模型的"交互多模型滤波器"。

  • ​​​​贝叶斯数据融合​​。贝叶斯网络与粒子滤波器通过概率分布建模管理不确定性,在接收新传感器观测值时持续更新状态概率。现代粒子滤波器整合多假设追踪技术应对多目标及模糊观测场景,显著降低误识别率。贝叶斯融合还能整合冲突传感器输出,实现非二元化的柔性决策。

  • ​​​​证据融合的邓普斯特-谢弗理论​​。邓普斯特-谢弗证据理论在异构传感器融合中日益普及,其显性建模传感器间的不确定性及冲突。该方法提供置信区间(非单点估值),增强不确定情境下的决策可靠性,尤其在射频拒止/视觉降级等传感器可靠性动态波动的环境中具突出价值。

  • ​​​​图谱化拓扑融合​​。新兴方法将多传感器输出转化为图谱节点关系,利用图神经网络(GNN)或拓扑数据分析建立连续追踪路径与检测关联性。该技术在传统算法失效的场景(如蜂群无人机、建筑遮蔽频繁的城市场景)展现显著优势,有效应对目标遮挡与传感器信号中断。

  1. 反无人机解决方案的技术组合​​

现代反无人机系统常集成多种探测技术以提升发现概率与追踪精度。图4展示不同技术组合的占比分布,具体构成如下:

  • ​​单一技术系统​​:53%的反无人机解决方案仅依赖一种探测方法,主要为频率监测或雷达探测。
  • ​​双技术系统​​:9%的方案融合两种技术(如雷达与可见光摄像机组合)。
  • ​​三技术系统​​:15%的方案整合三种独立技术以强化多模态探测能力。
  • ​​四技术及以上系统​​:23%的方案采用四种以上技术,典型组合包含雷达、摄像机、射频监测及其他传感器。

多技术系统趋势凸显对鲁棒数据融合方法的迫切需求,以有效降低误报与漏检率。

完成目标探测识别后,可部署下列压制手段:

  • ​​电子对抗​​:射频干扰、信号欺骗及协议操控以切断通信或接管目标;
  • 动能方案​​:需即刻消除威胁时部署网捕系统、拦截无人机或高能激光武器;
  • ​​定向能系统​​:微波/激光武器通过非接触方式瘫痪无人机电子系统或结构。
  1. 反无人机技术选型的挑战与考量​​

反无人机系统选型需综合评估以下要素:

  • ​​​​探测范围​​:技术效能受制于距离与环境约束;
  • ​​​​抗气候能力​​:雷达与频率监测比光学/红外系统更耐恶劣气候;
  • ​​​​误报控制​​:声学传感器与频率监测易受环境噪声或射频干扰影响;
  • ​​​​部署可行性​​:移动平台、车载系统与固定设施需差异化运维方案;
  • ​​​​现役系统兼容​​:多数方案需对接现有安防框架的软硬件组件;
  • ​​​​法规限制​​:国家及国际法规制约特定探测压制技术的运用;
  • ​​​​作战环境​​:城区射频拥塞与障碍物增大探测难度,开阔地带更具优势;
  • ​​​​无人机技术演进​​:自主飞行、加密通信及低可观测设计的普及持续推动反制技术升级。

当前反无人机技术格局呈现无人机能力与反制方案的持续军备竞赛。人工智能、传感器融合及自主对抗技术的突破将对反无人机体系韧性升级产生决定性影响。

成为VIP会员查看完整内容
26
登陆后查看更多精品内容
VIP会员
本周荟萃主题
区块链
区块链(Blockchain)是由节点参与的分布式数据库系统,它的特点是不可更改,不可伪造,也可以将其理解为账簿系统(ledger)。它是比特币的一个重要概念,完整比特币区块链的副本,记录了其代币(token)的每一笔交易。通过这些信息,我们可以找到每一个地址,在历史上任何一点所拥有的价值。
深度学习
机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。
机器学习
“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科
强化学习
强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。
推荐系统
推荐系统,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
卷积神经网络
在深度学习中,卷积神经网络(CNN或ConvNet)是一类深度神经网络,最常用于分析视觉图像。基于它们的共享权重架构和平移不变性特征,它们也被称为位移不变或空间不变的人工神经网络(SIANN)。它们在图像和视频识别,推荐系统,图像分类,医学图像分析,自然语言处理,和财务时间序列中都有应用。
计算机网络
计算机网络( Computer Networks )指将地理位置不同的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。
命名实体识别
命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。
机器翻译
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
计算机视觉
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
微信扫码咨询专知VIP会员