这份报告是由东华大学图书馆策划,名为《人工智能国外大模型使用手册》,发布于2024年8月25日。报告的目的是提供一个全面的指南,帮助用户了解和使用国外的人工智能大型模型(AI大模型),以便在学术研究、教学发展等领域中应用这些技术,提高效率和创新能力。

报告的主要内容包括:

  1. 前言:

    • 介绍了人工智能(AI)技术的普及和影响,以及国外大模型在自然语言处理(NLP)和深度学习领域的领先地位。

    • 强调了东华大学图书馆编写此手册的目的,即普及AI大模型知识,帮助师生选择合适的工具,赋能学术研究和教学。

  2. 大模型概述:

    • 定义了大模型,并讨论了它们的特点,如庞大的参数规模、复杂的网络结构、高计算资源需求等。

    • 探讨了大模型在不同领域的应用,包括自然语言处理、图像识别、语音识别和推荐系统。

    • 分析了大模型的发展趋势,如模型压缩、跨模态学习、隐私保护和可持续性。

  3. 国外AI大模型:

    • 详细介绍了几款知名的国外AI大模型,包括GPT系列、Gemini系列、Claude系列和LLaMA。

    • 讨论了这些模型的基本功能、特点、应用领域和发展趋势。

  4. 高教领域大模型应用:

    • 探讨了AI大模型在高等教育领域的应用,如智能教学辅助、科研支持、行政管理、创新课程和国际合作。
  5. GPT系列模型(OpenAI):

    • 详细介绍了GPT系列模型的基本功能、特点、安装与使用方法、使用技巧和注意事项。
  6. Gemini系列模型(Google):

    • 介绍了Gemini系列模型的基本功能、特点、安装与使用方法、使用技巧和注意事项。
  7. Claude系列模型(Anthropic):

    • 介绍了Claude系列模型的基本功能、特点、安装与使用方法、使用技巧和注意事项。
  8. LLaMA(Meta AI):

    • 介绍了LLaMA模型的基本功能、特点、安装与使用方法、使用技巧和注意事项。
  9. 其他模型:

    • 简要介绍了其他一些有特色的AI模型,如Grok、Otter.ai、ChatPDF、POE、Sora和Midjourney等。

报告的最后部分提供了参考文献,供读者进一步研究和探索。

整体来看,这份报告为用户提供了一个全面的国外AI大模型的概览,包括它们的功能、应用、安装和使用方法,以及在使用过程中可能遇到的注意事项和安全问题。报告旨在帮助用户更好地理解和利用这些先进的AI技术,以促进学术研究和教学活动的创新和发展。

成为VIP会员查看完整内容
63

【导读】MIT科学家Dimitri P. Bertsekas在ASU开设了2024《强化学习》课程,讲述了强化学习一系列主题。Dimitri 的专著《强化学习》讲义,是一本探讨人工智能与最优控制的共同边界的著作。

这是我在亚利桑那州立大学(ASU)课程中使用的主要教材。它基于我在2019至2024年间编写的课堂笔记。虽然它是一本独立的书籍,但也可以结合我的视频讲座和幻灯片(可在本网站找到)一起使用。 该书的第二版可以免费下载并用于教学目的。印刷版将在4个月内由出版公司发行,数字版也将在Google Play上提供。 本教材约480页,并在每章末附有练习题。书中主要强调基于动态规划(Dynamic Programming, DP)数学框架的直观推理。尽管数学证明并未被重点展示,但本教材依赖于我在此网站列出的《动态规划》和《强化学习》书籍中的理论发展和分析。这些书籍在符号和术语上保持一致。 本教材的重要结构特点是以模块化方式组织,具有灵活性,可以适应课程内容的变化和不同的内容选择。具体来说,本书分为两部分: (1) 一个基础平台,即第1章。该章节提供了对近似动态规划/强化学习(RL)领域的精选概览,并为更详细的课堂RL主题发展提供了起点,具体选择可由讲师决定。 (2) 选定方法的深入覆盖。在第2章中,我们讨论了一步或多步前瞻的值空间近似方法。特别关注了确定性和随机性的展开算法和前瞻树搜索。其他有趣的主题包括多智能体展开、自适应控制中的重优化展开、贝叶斯优化和极小极大问题。在第3章中,我们讨论了神经网络和其他近似架构的离线训练,以及与策略迭代/自学习、Q学习、策略梯度和聚合方法的结合。 在其他课程中,可以使用相同的基础平台进行不同的深入覆盖选择。例如,一个关于最优控制/MPC/自适应控制的课程可以基于第1章的平台构建。同样,基于该平台还可以设计数学导向程度不同的课程。 第1章,精确和近似动态规划。内容包括:AlphaZero的离线训练和在线对局、确定性动态规划、随机精确和近似动态规划、无限时域问题——概览、无限时域线性二次问题、例子重构与简化、强化学习与决策/控制。 第2章,值空间近似——展开算法。内容包括:确定性有限时域问题、值空间近似——确定性问题、离散优化的展开算法、带多步前瞻的值空间展开和近似、约束形式的展开算法、小阶段成本和长时域——连续时间展开、随机展开与蒙特卡洛树搜索、无限空间问题的展开优化、多智能体展开、贝叶斯优化和序贯估计的展开、基于POMDP(部分可观测马尔可夫决策过程)形式的自适应控制、极小极大控制的展开。 第3章,学习值和策略。内容包括:参数化近似架构、神经网络、近似动态规划中代价函数的训练、近似动态规划中策略的训练、策略梯度及相关方法、聚合。 关于第二版 第二版包含了一些重大补充,包括2024年在ASU课程中涵盖的内容。特别是建立了与Transformer、大型语言模型(LLM)以及HMM(隐马尔可夫模型)推理方法的联系(第2.3.7节),并大幅扩展了确定性问题的多步搜索内容(第2.4节)。此外,对MPC的讨论有所拓展,增加了其在极小极大问题和计算机象棋中的应用(第2.12节)。同时,第一版的结构和目标保持不变。

成为VIP会员查看完整内容
50

生成式AI已经彻底改变了组织应对问题的方式,加速了从概念到原型再到解决方案的过程。尽管这些应用程序提高了效率,它们通常需要进行详细的规划、起草和修改以完成复杂的任务。通过整合这些行动,AI代理提供了更高的自主性和效率,但理解和部署它们对于许多组织来说仍然是一个挑战,尤其是在技术和研究快速发展的情况下。 本书将是您穿越这个复杂且快速发展的领域的必备指南。作者迈克尔·阿尔巴达(Michael Albada)提供了一种实用且基于研究的方法,用于设计和实现单代理和多代理系统。书中简化了这些复杂性,并为您提供了从概念到解决方案高效过渡的工具。读完本书,您将能够: * 了解基于基础模型的AI代理的独特特性 * 探索AI代理的核心组件和设计原则 * 探讨设计权衡并实现有效的多代理系统 * 设计和部署定制的AI解决方案,提升您所在领域的效率和创新能力

成为VIP会员查看完整内容
47

**让AI助手立即将您的想法变为现实!**曾经,要成为程序员,您必须自己编写每一行代码。而现在,像GitHub Copilot这样的工具可以根据您用简单英语描述的内容,立即生成可运行的程序。畅销书《学习AI辅助的Python编程》已经帮助成千上万的有志程序员学习如何通过AI轻松编写Python程序。它非常适合初学者,或那些在传统编程陡峭学习曲线上挣扎的人。在《学习AI辅助的Python编程(第2版)》中,您将学到:

  • 编写有趣且实用的Python应用程序——无需编程经验!

  • 使用GitHub Copilot AI编码助手创建Python程序

  • 编写告诉Copilot该做什么的提示

  • 阅读Python代码并理解它的功能

  • 测试您的程序,以确保它们按预期工作

  • 通过提示工程或手动修改修复代码

  • 创造性地应用Python来帮助工作 AI发展迅速,因此《学习AI辅助的Python编程(第2版)》已全面更新,以利用最新的模型和AI编码工具。由两位著名的计算机科学大学教授撰写,它教授您在AI优先的世界中开始Python编程所需的一切技能。您将学会使用这些技能创建用于数据分析、自动化繁琐任务,甚至视频游戏的工作应用程序。此外,在这本新版中,您将找到将大型软件项目分解为AI可以轻松完成的小任务的突破性技术。序言由Beth Simon撰写。购买纸质书可免费获得Manning Publications提供的PDF和ePub格式的电子书。关于技术人们编写计算机程序的方式已经永远改变。使用GitHub Copilot,您可以用简单的英语描述您希望程序执行的操作,AI会立即生成它。关于本书本书展示了如何使用AI创建和改进Python程序——即使您之前从未写过一行代码。您可以减少处理缓慢、底层编程细节的时间,学习如何让AI助手立即将您的想法变为现实。在此过程中,您还将学到足够的Python语言知识,以理解和改进您的AI助手创建的内容。内容包括

  • 可运行代码的提示

  • 手动修改代码并利用AI帮助

  • AI测试您的程序

  • 让AI处理繁琐的细节 关于读者如果您可以在计算机上移动文件并安装新程序,您就可以学习编写实用的软件!关于作者Dr. Leo Porter是加州大学圣地亚哥分校的计算机科学教学教授,拥有十年以上的教学经验,并因其在计算机科学中有效教学法和评估的获奖研究而闻名。 Dr. Daniel Zingaro是多伦多大学的计算机科学副教学教授及获奖教师,他的主要研究领域是计算机科学教育研究,研究学生如何学习计算机科学内容。本书的技术编辑是Peter Morgan。目录

  1. 引入AI辅助编程和GitHub Copilot
  2. 开始使用Copilot
  3. 设计函数
  4. 阅读Python代码:第一部分
  5. 阅读Python代码:第二部分
  6. 测试与提示工程
  7. 问题分解
  8. 调试和更好地理解代码
  9. 自动化繁琐的任务
  10. 制作一些游戏
  11. 创建作者身份识别程序
  12. 未来方向

成为VIP会员查看完整内容
45

在过去15年中,空间和时空统计中的几个重要主题在教材中未得到足够的重视。《空间-时间数据建模:马尔可夫随机场、客观贝叶斯与多尺度模型》旨在填补这一空白,概述了近期提出的多种分析空间和时空数据集的方法,包括规范的高斯马尔可夫随机场、动态多尺度时空模型以及适用于空间和时空模型的客观先验。该书的目标是让这些方法更加易于实践者使用,并激发在空间和时空统计这一重要领域中的进一步研究。

主要主题:

  • 规范的高斯马尔可夫随机场及其作为时空模型和多尺度模型构建模块的应用。
  • 含有内在条件自回归先验的空间随机效应层次模型,包括参考先验、快速计算的结果以及客观贝叶斯模型选择。
  • 状态空间模型的客观先验,以及一种用于具有动态时空随机效应的时空模型的新近似参考先验。
  • 基于规范高斯马尔可夫随机场的用于泊松观测的时空模型。
  • 用于空间聚类和数据压缩的动态多尺度时空阈值法。
  • 多尺度时空同化计算机模型输出和监测站数据。
  • 动态多尺度异方差多元时空模型。
  • M-开放多重最优悖论及其对多尺度建模的一些实际影响。
  • 用于平滑时空过程的动态多尺度时空模型集成。 本书的读者包括统计学、数据科学、机器学习及相关领域的实践者、研究人员和研究生。本书的先修课程要求为硕士水平的统计推断、线性模型和贝叶斯统计课程。本书可以用作空间和时空统计专题课程的教材,也可以作为空间和时空建模研究生课程的补充材料。

关于作者

Marco A. R. Ferreira是弗吉尼亚理工大学统计学系教授。他曾在多个科学期刊的编辑委员会中为统计学界服务,包括《贝叶斯分析》期刊,并参与了国际贝叶斯分析学会和美国统计协会的多个委员会,以及许多国内和国际会议的科学委员会。Marco目前的研究领域包括时间序列和时空数据的动态模型、多尺度模型、客观贝叶斯方法、随机搜索算法以及统计计算。其主要应用领域包括生物信息学、经济学、流行病学和环境科学。Marco的研究得到了行业、国家科学基金会和国家卫生研究院的资助。他在顶级期刊上发表了重要的科学论文,如《美国统计学会杂志》、《皇家统计学会杂志》、《Biometrika》和《贝叶斯分析》。截至撰写本文时,Marco已指导了超过15名博士生和博士后,他们现任职于学术界、工业界和政府部门。

成为VIP会员查看完整内容
41

“人工智能与人类思维战场”题目有三种不同的解释:

第一种解释是,题目指的是人工智能已经获得了我们认为是人脑独有的能力。不可否认,在许多领域,人工智能正在成功地与人类个体和集体的智慧力量进行竞争--对抗。问问 ChatGPT 就知道了!这是否意味着,在不远的将来,人工智能可能会与人类完全相似,并发展出某种形式的智商或意识?要回答这个问题,我们需要了解意识的含义。尽管我们每个人都是这一深刻主观体验的专家,但要将其转化为科学术语却相当困难。我如何知道 “你 ”是什么样子,或者如何解释 “你就像我一样”?如果 “对于有意识的有机体来说,存在着成为该有机体的感觉”(Nagel,1974 年),那么这种体验与当前的人工智能能力有什么关系呢?也许与我们的直觉相反,拥有语言并不是先决条件。即使是非常简单的蠕虫,如生活在土壤中的优雅猫科动物,也有 “优雅的头脑”,为它们提供了惊人的感官、社交和学习能力(Ardiel & Rankin,2010 年)。许多认知科学家认为,意识的基本构成要素是我们感知外部和内部世界的能力,以及根据这些信息采取行动的能力,从而使你我这个奇妙的细胞集合体得以生存。根据这种观点,意识是一种为支持平衡而进化出的机制--生物系统维持其生命参数(如温度、葡萄糖水平、血压或水平衡)稳定值的过程。如果我们将人工智能系统的运行参数(如 CPU 温度或内存使用率)视为人工智能的内部状态,为其提供外部传感器,并在其设计中加入自我监测和维护功能,人工智能会变得有意识吗?在这种情况下,人工智能与人类是否仍有本质区别,抑或只是人类中心主义的空想?

第二种解释是,人工智能正日益增强人类的能力。在这个需要持续关注的世界里,不同的认知过程都在争夺资源。与人工智能联手带来的结果要优于人类认知本身所能完成的结果。例如,在放射学领域,如果由经过训练的人工智能系统来解读医学影像,并与过滤掉假阳性结果的人类专家合作,就能检测出人类视觉认知无法发现的细微差别,从而达到最高的准确率--我的同事 Sharon Ong 和她的团队就证明了这一点。人工智能在应对认知超载方面也非常有用。让我们考虑这样一个事实:人类感知系统收集的外部感官信息每秒大约有 1100 万比特。这些信息被提交给大脑进行处理,但我们的意识却无法处理如此庞大的数据。根据《大英百科全书》,它实际上每秒只能处理大约 50 个比特。你可能会问,剩下的 10 999 950 比特会怎么处理呢?我们的认知系统在设计上似乎可以进行大量的数据压缩和过滤,而不会危及我们的生存机会。然而,这样一来,人类的感知就变成了一种 “骗局”,一种 “受控幻觉”,而不是对现实的直接反映。大脑在构建我们的感知体验时,会将预测(基于过去的经验和背景)与只需修正的有限感官输入相结合。得益于这一可控过程,尽管我没有清楚地表达每一个字,而且你们中的一些人坐在房间的后面,但你们还是有可能听懂我在唱什么。尽管你们并没有持续监控环境的每一个细节,也没有从头开始构建环境的图像,但你们对这个舞台和草裙舞的印象还是相当不错的。这也很可能意味着,你刚刚忽略了我用动词 “唱 ”而不是 “说 ”来指代我正在从事的活动。这并不是什么大问题,除非必须根据我们的感知精确度做出生死攸关的决定。在这种情况下,让我们假设今年不是 2024 年,而是 1953 年,现在是 2 月 1 日,泽兰省、南荷兰省和北布拉班特省的大片地区被洪水淹没。许多人躲在屋顶和屋子里,还有一些农场的牲畜处于危险之中。一些人受伤,需要紧急医疗救助。当时,荷兰只有一架直升机可供使用。现在想象一下,你正在驾驶这架直升机。由于天色昏暗,你很难发现所有等待救援的生灵。在几分之一秒的时间内,你需要做出决定,将急救人员派往何处。你的认知系统正在为如何分配稀缺的注意力资源而战斗,你也越来越疲惫。但是,如果有数百架配备了计算机视觉、红外和声学传感器的无人机,经过训练后可以半自动地扫描大片区域并探测到有生命的动物,只需要人类操作员的快速确认。在决定向何处求助时,这难道不是一件非常有价值的事情吗?然而,在这种人类与人工智能合作的情况下,究竟谁应该承担道德和法律责任?是你、操作员、整个人类-人工智能团队、人工智能系统、训练它的工程师,还是决定使用这项技术的政府?

最后,第三种解释指的是,人类的思想是利用人工智能来吸引我们的注意力并影响我们的信仰和行为的战争场地。通常认为国家间的冲突涉及实体武器,但现代战争主要是一种社会现象,战斗发生在搜索引擎和社交媒体上。在过去的 10-15 年里,民众都受到了这些系统性混合战争的影响,这些战争破坏了民主结构的稳定。人工智能和认知神经科学领域的进步为借助所谓的认知战争影响人脑带来了新的可能性。“认知战是一种战略,其重点是改变目标人群的思维方式--并通过这种方式改变其行为方式"(Burda,2023 年)。通过收集和分析我们的在线行为和偏好数据,人工智能算法已经比我们自己更了解我们。巧妙定制的信息,无论真假,都能迎合我们的情绪,吸引我们的注意力,正如我们在 COVID-19 大流行中清楚体验到的那样。我们如何才能让人工智能加入我们的团队,帮助我们提高感知力,发现虚假信息,保护我们免受认知操纵?人工智能在道义上是否有义务做到实事求是?

要回答所有这些问题,不仅需要计算认知科学领域的能力,还需要人类学、政治学、哲学和传播学方面的能力。在这方面,本研究活动所在的人文与数字科学学院提供了一个独特的机会,来研究这种有能力影响人类安全和我们的民主(无论好坏)的技术。本文依次阐述关于人工智能和人类思维的三个视角。人工智能是当前的热门话题,很多人认为它既是巨大的机遇,也是一种威胁。作者认为人工智能研究的主要价值在于,它让我们更深入地了解我们是谁,超越了常识所提供给我们的条件。它伴随着风险,但在其最佳状态下,人工智能技术为我们提供了一种精神体验: 从隐喻的角度来说,因为它为人类的认知提供了一面镜子,让我们有可能与原本无法触及的事物进行交流。从字面意义上讲,因为我们可以用它来实现改变的意识状态。

成为VIP会员查看完整内容
42

使用 GitHub Actions 自动化您的构建、测试和部署流水线!持续交付 (CI/CD) 流水线可以帮助您自动化软件开发过程,并最大化团队的效率。**《GitHub Actions 实战》**通过动手实验和项目,教您如何在 GitHub Actions 中构建实际的构建、测试和部署流水线。 在《GitHub Actions 实战》中,您将学习如何:

  • 创建和共享 GitHub Actions 工作流
  • 自动化 CI/CD 工作负载和其他 GitHub 任务
  • 使用机密、变量和环境来保护发布流水线
  • 支持合规框架
  • 创建安全且可扩展的自托管运行器

**《GitHub Actions 实战》**充满了用于自动化交付流水线的实战方法,帮助更快速地交付新功能。DevOps 工程师将特别喜欢关于基础设施即代码(Infrastructure-as-Code)和自动化云环境的可靠方法。本书由三位微软 MVP 编写,并由 GitHub 的 DevOps 架构师技术审核,提供了您在实际工作中取得成功所需的技能和建议。 购买本书的印刷版,您将获得 Manning 出版社免费提供的 PDF 和 ePub 格式的电子书。

关于本书

**《GitHub Actions 实战》**向您展示了如何仅使用 GitHub 中可用的工具来实现安全可靠的持续交付过程——无需复杂的 CI/CD 框架!您将跟随一个销售票务的扩展示例应用程序,完成从初始构建到云端部署的全过程。 本书的第一部分介绍了工作流和 actions 的基础知识,所有内容都通过简单的示例进行说明。然后,您将深入了解平台的架构、安全考量以及工作流运行时的详细讲解。最后,您将学习如何交付完整的 CI/CD 流水线,包括合规性、性能和成本优化。您甚至将学习如何创建您自己的 actions,并在 GitHub 市场中共享!

关于读者

适合已经使用 GitHub 并希望扩展到 GitHub Actions 的软件开发人员和 DevOps 工程师。

关于作者

Michael Kaufmann 荣获微软区域总监 (RD) 和微软最有价值专家 (MVP) 称号。 Rob Bos 是一名培训师(Azure 和 GitHub),微软 MVP 和 LinkedIn Learning 讲师。 Marcel de Vries 是 Xebia Microsoft 服务线的联合创始人、全球总经理兼 CTO,连续 17 年获得微软 MVP 称号,自 2008 年以来一直担任微软区域总监。

成为VIP会员查看完整内容
38

随着空军从以反恐为重点调整为应对具有潜在生存后果的近邻竞争,“一切照旧 ”的系统开发方法将不再适用:无法继续在几十年前开发的概念上循序渐进。相反,需要新的技术,为提供新的能力,以及运用这些能力的新的作战概念。目前在信息科学领域,特别是在自主系统(AS)开发及其相关基础技术--人工智能(AI)领域,存在着广泛而深入的技术推动力。随着新的人工智能算法和学习技术的开发和以新颖的方式加以应用,对认知和神经生理学的了解--大多数时候之所以 “聪明 ”的基础--也在以令人目眩的速度增长,而构建自主系统(如自动驾驶汽车和游戏机器人)的能力也不断成为头版新闻。此外,随着计算能力、内存、网络和数据可用性的摩尔定律增长,底层计算基础设施的爆炸性增长也加剧了这些进步。

在此的目标有两个:为空军高层领导提供自主系统潜力的愿景,以及自主系统如何在各级作战中发挥变革性作用;为科技界提供一个总体框架和路线图,以推动技术发展,同时支持其向现有和即将获得的系统过渡。与其他人一样,也认为使用这些系统将带来可观的回报,原因很简单,这些自主系统的单项能力将为提供更大的使用自由度和新的作战概念机会。但这只是一种传统观点。更深远的潜在回报将来自于以信息为中心的发展和自主系统的激增,这样,就可以抛弃传统的以平台为中心的思维方式,成为一个以服务为导向、无处不在的网络化和信息密集型的企业。

本文方法是首先阐述在 AS “行为 ”方面的需求:也就是说,无论底层技术手段如何,这些系统在熟练程度、信任度和灵活性等关键维度上的行为结果是什么?然后,将重点关注有可能将致力于解决这一问题的多个不同群体聚集在一起的架构方法,然后讨论可以将这些架构变为现实的使能技术。最后,提出了一些建议,这些建议不仅涉及技术问题,还涉及应该解决的问题集类型、解决这些问题所需的开发流程和组织结构,以及能够实现所提出愿景的知识平台的更广泛结构。

建议涉及六个具体领域,概述如下。

R1. 行为目标

这些基本上是概括性的设计要求,规定了希望 AS 在熟练性、可信性和灵活性方面的行为方式。

  • 建议 1a: 自主系统(AS)的设计应确保其在特定环境、任务和队友中的熟练操作。熟练性的理想属性包括情境代理、自适应认知能力、允许多代理出现以及从经验中学习的能力。

  • 建议 1b: 自主系统(AS)应确保由人类同行操作或与人类同行合作时的信任。理想的信任原则包括:认知一致和/或决策透明、情境感知、可实现自然的人-系统互动的设计以及有效的人-系统团队合作和培训能力。

  • 建议 1c:自主系统(AS)应以实现熟练程度和信任为目标,并能推动不同任务、同伴和认知方法之间的行为灵活性。人工智能系统所需的灵活性原则包括:能够根据整体任务的要求和所面临的情况改变其任务或目标。它应该能够扮演下属、同级或上级的角色,并与人类或组织内的其他自主系统一起改变这种角色。它还应能够改变执行任务的方式,既能在短期内应对不断变化的情况,也能在长期内积累经验和学习。

R2. 架构和技术

这包括支持跨学科研究与开发的统一框架和架构,以及支持架构内预期功能所需的技术投资。

  • 建议 2a: 开发一个或多个通用的自主系统架构,以涵盖目前在不同社区使用的多个框架。架构至少应提供 “端到端 ”功能,即为自主系统提供感知能力,使其能够捕捉环境的关键方面;提供认知能力,使其能够进行评估、制定计划和作出决定,以实现预期目标;提供运动能力,使其能够在需要时对环境采取行动。体系结构应具有功能结构,以实现可扩展性和可重用性,不对组件功能的符号处理或次符号处理做出承诺,包含记忆和学习功能,并根据需要支持人机交互。无论采用哪种形式,架构都应可根据分配的任务、参与的同伴关系和使用的认知方法进行扩展。衡量一个架构是否有用的一个关键标准是,它是否有能力弥合处理自主性问题的不同群体之间在概念和功能上的差距。

  • 建议 2b: 继续开发在组件层面提供所需功能的使能技术。这不仅包括支持基本的 “看/想/做 ”功能的技术,还包括支持有效的人机交互界面 (HCI)、学习/适应和知识库管理的技术,既包括通用技术,也包括特定领域的技术。技术开发的性质应从基础研究、探索性开发到早期原型设计不等,这取决于具体技术的成熟程度及其设想的应用。

  • 建议 2c: 开发并推广多层硬件和多层软件架构,以支持自主系统的开发、验证、运行和修改,其中每一层为给定的高层和低层功能提供不同硬件实现/主机的物理结构,每一层为类似功能提供不同的软件实现。要充分利用新兴技术趋势,特别是商业领域的新兴技术趋势,可能需要各种复杂的架构模式。

R3. 挑战问题

这里既涉及与领域无关的问题(或功能性问题),如动态重新规划,也涉及与领域有关的问题(或面向任务的问题),如多域融合。

  • 建议 3a:通过一套范围适当、规模适当、抽象化的面向功能的挑战问题集,推动自主系统的基本行为、架构和功能开发,使科学与技术(S&T)界的不同成员能够专注于自主系统行为的不同贡献者。根据最初提名的架构和功能集选择挑战问题集,其方式应涵盖架构所代表的全部功能(详尽性),并尽量减少解决任何两个挑战问题所需的功能重叠(排他性)。

  • 建议 3b:选择以任务为导向的挑战问题,其两个目标是:a) 解决当前或未来可能非常适合应用自主系统的业务差距;b) 挑战科技界在自主系统功能的科学和工程方面取得重大进展。确保挑战问题能够在前面选定的架构和功能的范围内得到解决,以确保独立于领域的工作和独立于领域的工作之间的一致性,避免 “一次性 ”应用工作最终对其他面向任务的问题集贡献甚微。既要考虑 “部分 ”以任务为重点的挑战问题,也要考虑 “端到端 ”的挑战问题。最后,不要将科技资源用于解决在其他部门也有类似问题的作战问题,除非空军特有的属性使问题非常独特,无法以类似方式解决。

R4. 开发流程

这包括支持创新、快速原型设计和迭代需求开发的流程--与传统的瀑布式流程(需求说明、里程碑满足和最终状态测试与评估(T&E))形成对比,以支持自主系统的快速开发和投入使用。

  • 建议 4a: 建立教育和实习人员管道,选派人员到空军技术研究所参加自主性入门短期课程,重点是人工智能使能因素。然后,个人成员将被嵌入到以人工智能为重点的特别行动活动中:自主能力小组(ACT),学习如何将所学技能应用于满足美国空军的自主需求。在四年的时间里支持这项工作,使人工智能人员的数量比现在增加一个数量级。通过一系列特别激励计划确保留住人才。通过对关键的校外研究人员提供适当的长期支持来补充这支队伍。

  • 建议 4b:采用三阶段框架,反复选择挑战性问题,对潜在解决方案的影响进行建模,并进行解决方案开发、原型设计和评估。开展基于兵棋推演的初始阶段评估,目标是确定关键挑战问题和基于自主系统的解决方案,以应对这些威胁或利用潜在机遇。通过定量模型和模拟(M&S)以及性能参数对这些概念进行形式化,对有前途的自主系统候选方案进行更深入的评估。最后,重点设计一个或多个在 M&S 研究中确定的有前途的自主系统候选方案的工程原型。开发并实验评估一个自主系统原型,该原型可作为:a) 购置的设计原型;b) 其他所需 S&T 的设计驱动力。

  • 建议 4c: 通过空军首席数据官,获取存储美国空军航空、航天和网络数据的空间,以便人工智能专业人员能够利用这些数据创建自主解决方案,解决面临的挑战。在相关组织中设立数据管理员角色,以管理数据,并为数据生产者和消费者创建简化的访问和检索方法。

  • 建议 4d: 支持向基于云的计算发展,同时利用量子计算这一通用计算范式,满足嵌入式和高性能计算处理需求。

R5. 组织结构

这包括围绕项目(或成果)重点进行组织,而不是按照传统的技术专业领域进行组织。

  • 建议 5:在空军研究实验室(AFRL)内建立 ACT,采用 “扁平化 ”业务模式,将 6.1-6.4 领域的专家集中到一个以产品为中心的组织中,开发自主系统科学,同时为作战人员提供能力。与空军科学研究办公室和 AFRL 其他主要技术局合作,并与 AFRL 以外的美国空军组织协调,包括国防部自主利益共同体 (COI)、AFWERX 和其他可促进技术向作战人员过渡的办公室。在 “ACT ”中,根据类似 “臭鼬工厂 ”的一套 “指导规则”,纳入以产品为中心的业务流程,促进未来空军向以信息为中心的业务平台模式转变。

R6. 知识平台

这为提供了一种整合自主系统行为原则、架构/技术、挑战问题、发展过程和组织结构的整体手段。

  • 建议 6:开发一个知识平台(KP),其核心是将信息技术(IT)平台方法与平台业务模式相结合。为多域作战空军设计的知识平台应垄断观察代理与知识创建代理以及与作战效果代理之间的联系,这些代理可以是人或基于自主系统(AS)。知识创造代理提供了创造能力所需的生态系统,而这些能力则用于创造作战效果。这个生态系统将通过以下方式实现:利用自主性的三个行为原则;实现这些行为的架构和技术;驱动挑战的问题;跨越人员、架构/应用、数据和计算基础设施的开发流程;以及最后,为推进技术、利用技术和提供能力而需要建立的组织结构。这种方法将为提供一种手段,使美国空军从解决少数问题的传统工具方法过渡到适用于更多问题的知识平台方法。

总结

总之,对自主系统开发和应用的建议包括

  • 这些系统要想精通业务、得到人类同行的信任并灵活应对意外情况,就必须具备的行为方式

  • 需要统一的框架、架构和技术,以便不仅跨越孤立的科技界,而且跨越操作上的隔阂和领域

  • 挑战科技界所需的重点难点问题,包括基础性问题和操作性问题,同时提供远远超出传统的以平台为中心的现代化方法的操作优势

  • 处理人员、系统、数据和计算基础设施的新流程,这些流程将加速创新、快速原型设计、实验和实地应用

  • 新的组织结构--自主系统能力团队,将技术专业汇集到一个单一的组织中,专注于创新产品开发,并根据需要向其他组织和社区拓展

  • 知识平台,全面整合自主系统的行为原则、架构/技术、挑战问题、开发流程和组织结构

AFRL,特别是 ACT,不能简单地将其注意力局限于自主系统的研究领域,也不能简单地延续在一次性演示中应用现代人工智能和 AS 技术来逐步提高任务能力的模式。必须选择挑战性问题来推进知识平台的能力,以敏捷的方式在变革性应用中提供表现出熟练、可信和灵活行为的自主系统。除了以项目为中心的工作外,ACT 还可以优先考虑和协调 AFRL 的整个自主系统科技组合--使各项工作同步进行,以最大限度地提高投资效果--及时、大规模地将 AS 能力用于应对任务挑战,同时在各科技局之间 “共享 ”新架构、技术和流程的 “财富”。最后,一旦取得成功,ACT 可以作为一个 “存在证明”,证明美国空军后勤部如何从其传统的以学科为中心的组织转变为一个更加跨学科和以项目为导向的组织,解决美国空军整个企业的变革性问题。

拥有一个独特的机会,将空军从一个以空中平台为中心的部门(空间和网络往往处于次要地位)转变为一个真正以多领域和知识为中心的组织。通过知识平台向作战人员提供自主系统,空中、太空和网络的每项任务都将得到改进,而且不仅是逐步改进,而是成倍地改进。将成为一个以服务为导向、无处不在的网络化和信息密集型企业。简而言之:

一个灵活的、以信息为中心的体系,通过无障碍地访问极其有效的外围设备,及时做出决策。

成为VIP会员查看完整内容
40

得益于近期拥有世界知识的大规模预训练模型的迅速发展, 基于大模型的具身智能在各类任务中取得了良好的 效果, 展现出了强大的泛化能力与在各领域内广阔的应用前景. 文章对基于大模型的具身智能的工作进行了综述, 首先介绍 了大模型在具身智能系统中起到的感知与理解作用, 其次对大模型在具身智能中参与的需求级、任务级、规划级、动作级四 个级别的控制进行了较为全面的总结, 随后对不同具身智能系统架构进行介绍, 并总结了具目前具身智能模型的数据来源, 包括模拟器、模仿学习以及视频学习, 最后对基于大语言模型的具身智能系统的面临的挑战与发展方向进行讨论与总结.

成为VIP会员查看完整内容
41

最近的全球冲突,如乌克兰战争,凸显了无人机系统(UAS)在军事场景中的广泛应用。这些系统不仅在情报、监视和侦察(ISR)任务中举足轻重,而且还发挥着直接作战的作用。此外,无人机系统正在彻底改变各种商业行业,如基础设施、物流、保险、媒体、电信、农业、采矿、石油和天然气以及零售业。

无人机系统的迅速扩散带来了新的威胁,如未经授权的监视、隐私泄露、空域受阻以及可能利用无人机携带破坏性有效载荷。这些问题在民用空域尤为突出,涉及无人机的事件激增。从 2021 年到 2023 年,美国运输安全管理局(TSA)报告了 2000 多起在美国机场附近发现无人机的事件,其中包括要求飞行员采取规避行动的事件。仅在 2024 年的前四个月,美国联邦航空局(FAA)就记录了 326 起在飞机、直升机和机场附近发生的与无人机有关的事件,凸显了日益增长的安全风险。

为应对这些挑战,迫切需要有效的反无人机系统(C-UAS)技术。各国正在越来越多地采购用于探测、识别、跟踪、警报、干扰、欺骗和消除不法无人机的系统。预计 2021 年至 2031 年,全球 C-UAS 技术市场将翻两番。值得注意的是,结合各种探测和缓解技术的综合防御网络被证明比孤立的系统更有效,美国陆军的一项评估就是证明。

以下报告将分析当前不断发展的 C-UAS 市场,研究当前趋势、技术进步和未来工作,以应对无人机系统扩散带来的日益严峻的挑战。

未来趋势

2020 年,亚美尼亚和阿塞拜疆就有争议的纳戈尔诺-卡拉巴赫地区发生冲突,最近,俄罗斯乌克兰战争,这一切都证明了无人机系统(UAS)在冲突场景中的无处不在。这些系统越来越多地被广泛应用,包括情报、监视和侦察(ISR)任务以及直接作战任务。此外,无人机系统还越来越多地应用于商业行业,如基础设施、物流、保险、媒体和娱乐、电信、农业、采矿、石油和天然气以及零售业。事实上,根据麦肯锡的一项研究,在 2021 年至 2023 年期间,全球由无人机投递的商业包裹数量将增加 85% 以上。

无人机体积、重量和成本大幅降低,电池寿命延长,自主性提高,这些发展都是推动无人机系统在军事和商业应用中使用的因素。AgileIntel Research 最近进行的一项研究预计,全球无人机市场将从 2023 年的 280 亿美元增至 2033 年的近 1500 亿美元,复合年增长率为 18.3%。同期,美国无人机市场预计将从 70 亿美元增至 400 亿美元,复合年增长率为 19%。此外,根据美国联邦航空管理局(FAA)的估计,商用无人机机队(用于商业、研究或教育目的)预计将从 2022 年底的约 727,000 架增长到 2027 年的 955,000 架。同期,美国联邦航空局预测娱乐机队(为个人兴趣和娱乐而操作的机队)也将从 169 万架增加到 182 万架。商用和军用无人机使用量的指数级增长导致了来自流氓系统的一系列威胁。这些威胁包括未经授权的监视、隐私泄露、空域阻塞以及无人机系统作为破坏性有效载荷的载体运行。全球机构在低空领域正面临着新的安全挑战,这主要是由于商业系统的激增,这些系统越来越多地被用于娱乐和专业目的。

仅就美国而言,民用空域中与无人机相关的安全挑战的规模和严重性在过去几年中已得到充分证实。2021 年至 2023 年期间,美国运输安全管理局(TSA)报告了 2000 多起在美国机场附近发现无人机的事件,其中一些事件涉及飞行员采取规避行动,包括四起涉及商用飞机的事件。此外,根据美国联邦航空管理局(FAA)的最新数据,在2024年前4个月(截至4月),已发生多达326起无人机被发现靠近飞机、直升机和机场的事件,从而造成严重的安全隐患。

这些趋势要求在探测、识别、定位/跟踪、警报、干扰、欺骗和摧毁等领域开发有效的反无人机技术。各国正在采购反无人机系统(C-UAS),如干扰、欺骗和致盲系统,以及基于激光的定向能武器(DEWs),预计全球市场将在 2021 年至 2031 年间翻两番。有趣的是,这些采购并不局限于孤立运行的独立系统,而是将互补的探测和缓解技术编织成一个综合防御网络,以提高效率。事实上,美国陆军联合反小型无人机系统办公室最近进行的一项行动评估发现,与部署孤立的系统相比,系统的系统方法更为有效。

各种 C-UAS 技术和系统可大致分为两类: 各种 C-UAS 技术和系统可大致分为两类:动能和非动能。

非动能反无人机方案

  • 探测系统: 利用各种传感器技术,如雷达、电子光学/红外(EO/IR)相机、声学传感器和射频(RF)探测器,探测特定空域内的无人机系统并确定其位置。

  • 识别和跟踪: 一旦被探测到,CUAS 系统可采用先进的算法和软件来识别和跟踪无人机系统,根据飞行行为、大小和通信信号等特征来区分授权和未授权的无人机。

  • 电子对抗 (ECM):ECM 技术可破坏或干扰无人机系统的控制和通信系统,使无人机无法接收操作人员的指令,或破坏 GPS 信号以导致导航失灵。

  • 干扰: 干扰是指发射电磁信号干扰无人机系统用于通信和导航的无线电频率,破坏其控制并使其失效。

  • 欺骗: 欺骗技术是指产生虚假信号欺骗无人机导航系统,使无人机偏离预定飞行路线或安全着陆,从而解除无人机构成的威胁。

  • 网络安全措施: CUAS 系统可采用网络安全措施来防范无人机系统带来的网络威胁,包括未经授权访问网络、数据泄露和针对关键基础设施的恶意软件攻击。

  • 声学威慑: 发射高频声音或声学信号,阻止无人机系统进入限制空域或敏感区域,利用鸟类和其他野生动物的厌恶行为阻止无人机入侵。

  • 定向能武器(DEW): 虽然定向能武器通常被认为是动能武器,但有些定向能武器系统提供非致命选择,如激光眩晕器或非破坏性光束转向,在不造成物理伤害的情况下使无人机系统的电子设备或传感器失效。

  • 指挥与控制(C2)干扰: 瞄准无人机系统与其操作员之间的通信链路,破坏指挥和控制信号,阻止无人机接收指令或传输数据。

  • 网络威胁情报: 利用先进的分析和威胁情报来预测和应对无人机系统带来的网络威胁,包括恶意软件、数据外渗和网络入侵企图。

动能反无人机方案

  • 拦截: 使用配备网炮、捕获装置或其他手段的有人或无人飞机拦截无人机系统威胁,以实际捕获或禁用未经授权的无人机。

  • 动能弹射系统: 部署火器、大炮或其他基于弹射的武器,通过瞄准关键部件或对无人机造成物理破坏,击落无人机系统威胁或使其失效。

  • 定向能武器(DEW): 利用高能激光束或微波脉冲损坏或破坏无人机系统的电子设备、传感器或推进系统,使无人机无法操作或出现故障。

  • 爆炸物: 使用爆炸物或爆炸性射弹,通过直接撞击或在目标附近引爆来摧毁无人机系统威胁。

  • 防撞系统: 为飞机或地面平台配备防撞系统,旨在与无人机系统威胁发生物理碰撞或扰乱其飞行路线,使其坠毁或失去控制。

  • 电子战 (EW): 利用电子战技术,通过干扰、欺骗或其他电子干扰手段,破坏或削弱无人机系统的控制和通信系统。

  • 机动和撞击: 使用有人或无人飞行器拦截无人机系统威胁并与之发生物理碰撞,使其坠毁或因撞击力而失效。

  • 专用动能拦截器: 使用专门的动能拦截系统,如导弹防御系统或反无人机弹药,以精确制导的射弹或导弹瞄准并摧毁无人机系统威胁。

  • 地基防空系统: 部署地对空导弹、高射炮或其他地基武器系统,与在防御系统射程内飞行的无人机系统威胁交战并使其失效。

  • 远程武器站(RWS): 在远程操作平台或车辆上安装火器、大炮或其他动能武器,以便从远处攻击无人机系统威胁并使其失效,同时最大限度地减少操作人员的暴露。

图:美国国防部:2024-2029 年C-UAS市场,百万美元

成为VIP会员查看完整内容
41

大型视觉语言模型(LVLMs)通过在大型语言模型(LLMs)的基础上整合视觉模态,增强了用户交互并丰富了用户体验。它展现了强大的信息处理和生成能力。然而,幻觉现象的存在限制了LVLMs在各个领域的潜力和实际效用。尽管已有大量工作致力于幻觉的减缓与纠正,但针对这一问题的综述性研究却较为少见。在本次综述中,我们首先介绍了LVLMs和幻觉现象的背景。随后,介绍了LVLMs的结构以及幻觉生成的主要原因。接着,我们总结了近期在幻觉纠正和减缓方面的相关工作。此外,我们还从判断性和生成性角度介绍了LVLMs幻觉评估的可用基准。最后,我们提出了一些未来的研究方向,以增强LVLMs的可靠性和实用性。

近年来,大型语言模型(LLMs)在自然语言处理(NLP)领域取得了优异的成绩。基于Transformer的LLMs通过在大规模语料库上学习语言模式和知识,获得了理解和生成自然语言的能力。许多LLMs在NLP领域中涌现,如GPT-4 [1]、Llama [2]、InstructGPT [3]、PaLM [4]和Vicuna [5]。在大规模语料库和大量参数的支持下,这些LLMs能够完成广泛的任务,并展示出强大的零样本能力。尽管LLMs具有令人兴奋且稳健的特性,但它们仅限于文本领域。越来越多的研究提出将视觉信息融入LLMs中,这些新模型称为大型视觉语言模型(LVLMs),可应用于多种场景,如医疗诊断与辅助[6]、[7],艺术与娱乐[8],自动驾驶[9],虚拟助手和聊天机器人[10]、[11]。凭借其出色的性能,LVLM吸引了众多用户。然而,一些用户发现,LVLM生成的信息在事实层面上是错误的,但看似合理,例如错误地报告不存在的物体、物体属性、行为和物体间关系。上述现象被称为幻觉,这使得LVLM难以应用于对准确性和可靠性要求较高的场景中。例如,幻觉可能会误导用户,提供错误或不准确的信息,甚至在内容摘要或信息检索中导致错误信息的传播。如果LVLM频繁生成幻觉,可能会影响其发展。因此,纠正或减缓幻觉对于LVLMs来说是必要的。

为了构建一个可信赖的LVLM,幻觉是必须克服的障碍。因此,出现了大量关于减缓或纠正LVLM幻觉的研究工作。目前,已有几篇综述总结了LLMs中的幻觉纠正工作[12]、[13]。在多模态领域,也有部分工作[14]、[15]致力于总结多模态大型语言模型中的幻觉现象。然而,我们的综述采用了明显不同的分类策略。我们根据不同幻觉纠正工作的核心思想以及幻觉评估基准进行了分类。

在本文中,我们对LVLM幻觉现象的最新进展进行了综述。首先,我们介绍了与LVLM和幻觉相关的背景知识。在第二节中,我们提供了LVLM的结构及其产生幻觉的主要原因。第三节总结了幻觉的纠正和减缓工作。接下来,第四节中我们介绍了用于评估LVLM幻觉的基准。最后,在第五节中,我们对LVLM幻觉纠正的未来前景提供了一些见解,并描绘了潜在的研究方向。

II. LVLM的背景

**A. LVLM的结构

LVLMs可以分为三个模块:感知模块、跨模态模块和响应模块,如图1(A)所示。通过这三个模块,视觉信息被提取并映射到文本空间。进一步地,视觉信息和文本信息结合以生成最终的响应。 感知模块通常使用视觉Transformer(ViT)[16]或其变体[17]将图像转换为高维向量。在输入ViT之前,图像被分割成若干patch,并添加位置信息。如图1(A)所示,ViT是一个仅包含编码器的模型,由N个编码器组成。编码器的多头注意力机制是Transformer模型的核心组件,具有强大的并行计算能力,能够在序列的不同部分之间建立联系。 跨模态模块旨在弥合视觉和语言之间的模态差距[18]。近年来,LVLMs中的跨模态模块采用了可学习接口[10]、[19]、Q-former[20]和pereceiver resampler[21]等结构。可学习接口基于投影矩阵将视觉信息映射到文本空间。Q-former通过与文本交互视觉信息来弥合模态间的差距。pereceiver resampler通过使用交叉注意力将视觉特征编码到文本中。 响应模块充当LVLMs的大脑。因此,它需要强大的能力来处理和分析视觉和文本的输入,以生成最终答案。响应模块通常采用LLMs,如Vicuna [5]、Llama [2]、Flan-PaLM [22]和Llama2 [23]。ViT和LLM都是基于Transformer的,但LLM是仅包含解码器的结构。解码器的掩码多头注意力机制增加了掩码操作。因此,LLM在文本生成过程中无法利用“未来”信息,确保了生成内容的真实性。

**B. 幻觉的成因

有几个因素导致LVLM产生幻觉。幻觉的发生可能与LVLM的多个部分有关,包括感知模块、跨模态模块和响应模块。因此,为了更好地纠正和减缓幻觉,我们将幻觉现象的主要原因归纳如下:

模态差距:每种模态都有其独特的特性和表达方式,这导致了不同模态数据在分布、特征和语义上的显著差异。模态差距的存在使响应模块在理解图像输入时产生偏差,导致错误的响应生成。例如,如图1(B)所示,红白相间的物体实际上是一个标志,而不是中文字符。由于模态差距的存在,响应模块错误地将其描述为“红白相间的中文字符”。

数据集中的有害信息:交叉熵损失的本质是模仿。因此,LVLMs从数据集中学习模式以生成与训练数据相似的响应。由于LVLMs需要大量数据进行训练,大多数数据集是通过LVLMs或LLMs生成的。尽管这些数据在生成后经过人工清理,仍有一定比例的误导性样本保留在数据集中。当LVLM从这些带有幻觉的数据中学习时,必然会生成幻觉。

LLM的幻觉:LVLMs的优异表现主要归功于其将LLMs作为“大脑”。然而,LLMs很容易产生幻觉。此外,LLMs已经积累了丰富的参数化知识。当这些参数化知识错误或与接收到的视觉信息冲突时,会导致幻觉。此外,可用解码策略的随机性也可能是幻觉的诱因。许多特殊现象通常在解码过程中发生,并且与幻觉密切相关。

III. 幻觉的纠正 在本部分中,我们将回顾和总结近年来与LVLM(大型视觉语言模型)中幻觉现象相关的纠正与减缓工作。随着LVLM在各个领域的广泛应用,如何有效地减少其生成不准确或错误的内容(即幻觉)成为了一个重要的研究方向。幻觉的产生与数据集、模态差距以及输出响应的生成机制密切相关,因此幻觉纠正的方法主要集中在以下三类:数据集去幻觉、模态差距补偿以及输出纠正。我们将对这三类方法进行详细介绍,分析各自的工作原理和应用场景。

**A. 数据集去幻觉

数据集去幻觉是通过改进或清理训练数据集,以减少或避免模型在推理过程中生成幻觉内容的一种有效方法。LVLM通常通过指令调优来增强推理性能,而这一过程对高质量、大规模的指令数据集有高度依赖。然而,现实中构建这样的数据集并不容易,即便有LLMs或LVLMs的帮助也很难确保数据完全无误。因此,通过对现有数据集进行改写、去除过度自信样本和打破不当共现现象成为解决这一问题的重要策略。

数据重写 数据重写是指对训练数据中的错误信息或潜在误导性样本进行修改,以确保模型学到的信息更加准确。例如,针对某些数据中由于标注错误或不准确导致的幻觉现象,可以通过自动化工具或人工验证的方式,识别并纠正这些问题。数据重写的方法可以帮助LVLM在训练时避免学习到有害的或不准确的信息,从而减小幻觉的生成概率。

去除过度自信 在LVLM的训练过程中,有些数据会使模型对某些错误的或不确定的输出表现出过度的自信。这种过度自信会使模型在推理阶段产生幻觉。为了解决这一问题,研究者提出了一些方法来降低模型在面对不确定输入时的自信水平。例如,通过调整损失函数,使模型在训练过程中对不确定的样本保持一定程度的怀疑,从而避免模型生成看似合理但实际上错误的响应。

打破共现现象 共现现象是指在训练数据中,某些视觉元素和文本描述频繁一起出现,导致模型在推理时不加区分地将这些元素联系在一起。例如,某些物体和某些动作在数据集中经常共现,但在实际场景中这些组合并不总是正确的。为了解决这一问题,可以通过打乱数据集中这些元素的组合,或引入新的样本,以减少这种共现现象对模型产生的负面影响。

**B. 模态差距补偿

模态差距是LVLM中幻觉产生的一个重要原因。由于视觉信息和文本信息之间的特性差异,模型在融合这些多模态数据时,可能会产生错误的推断。通过有效的跨模态模块设计,可以弥合视觉和语言之间的差距,减少因模态不匹配导致的幻觉现象。

可学习接口的应用 可学习接口是一种基于投影矩阵的方法,它将视觉信息映射到文本空间。这种方法通过学习视觉和语言之间的对应关系,使模型能够更好地理解视觉信息并将其与文本结合。通过这种方式,模型能够在视觉和语言之间建立更加紧密的联系,从而减少幻觉的产生。

Q-former的引入 Q-former是一种通过交互方式将视觉信息与文本信息连接起来的技术。它通过设计一种特殊的查询机制,使视觉信息在跨模态过程中与文本信息进行交互。这种方法能够更好地处理模态之间的差异,尤其是在复杂的视觉场景中,帮助模型准确地生成文本描述。

pereceiver resampler的使用 pereceiver resampler是一种使用交叉注意力机制的技术,旨在将视觉特征编码到文本中。通过这种方法,视觉特征被转换为与文本相匹配的表征,从而减少模态差距导致的幻觉现象。

**C. 输出纠正

除了通过改进数据集和跨模态机制来减少幻觉,研究人员还致力于直接纠正模型输出的幻觉内容。输出纠正方法通过后处理技术或改进解码策略,来确保模型生成的最终响应更加准确。

后处理机制 后处理机制是一种在模型生成响应之后对其进行检查和修正的技术。例如,通过引入额外的验证模块,检查生成的文本是否与视觉信息一致。如果发现生成内容存在逻辑或事实错误,可以通过该模块进行修正。这样的后处理机制可以有效减少模型生成幻觉的可能性。

解码策略的优化 解码策略对生成式模型的输出有很大的影响。研究发现,某些解码策略(如贪婪搜索或随机采样)容易引发幻觉现象。为了解决这一问题,研究人员提出了一些新的解码策略,例如基于约束的采样方法或对抗性解码策略。这些方法通过更好地平衡生成的多样性和准确性,减少了模型生成幻觉的概率。


IV. 幻觉的评估基准

在减缓和纠正LVLM幻觉的过程中,建立有效的评估基准是至关重要的。评估基准用于衡量模型在生成过程中出现幻觉的频率和严重程度,同时也为模型改进提供反馈。我们从判断性和生成性两个角度总结了现有的幻觉评估基准。

判断性基准 判断性基准主要通过分析模型生成的响应是否符合事实或是否与视觉输入一致来评估幻觉。例如,通过引入人工评估或使用预定义的规则来判断模型生成的内容是否准确。这类基准侧重于定量地评估幻觉现象,帮助研究人员了解幻觉在不同场景中的发生频率。

生成性基准 生成性基准则侧重于评估模型在生成过程中所表现出的创造性和合理性。尽管模型可能生成出具有一定创新性的内容,但这些内容不一定符合事实或逻辑。因此,生成性基准的评估主要关注模型是否能够在保持生成多样性的同时,减少幻觉的产生。


V. 未来研究方向

尽管当前LVLM在减少幻觉方面取得了一定进展,未来仍有很多值得探索的方向。以下是一些可能的研究方向: 1. 多模态融合的优化 进一步优化视觉与语言之间的融合机制,特别是在复杂场景中的跨模态理解和表达。 1. 数据集构建的改进 通过新的数据增强和数据清洗技术,构建更高质量、更具代表性的大规模数据集,以减少训练数据中的幻觉样本。 1. 模型透明性的提高 提高LVLM的透明性和可解释性,使得用户可以更清楚地理解模型生成幻觉的原因,从而对其进行有效的纠正。 1. 动态学习机制的引入 引入动态学习机制,使模型能够在运行过程中不断调整和修正自身,避免幻觉的累积效应。

成为VIP会员查看完整内容
36

无人机中心战

图:乌克兰士兵与自杀式FPV 无人机,消息来源: Ukrinform

俄罗斯利用包括弹道导弹和巡航导弹在内的大量前苏联和后苏联武器对乌克兰发起全面战略行动后,乌克兰以网络中心战为基础的防御初步取得了成功。乌克兰使用无人机进行侦察、目标捕捉和打击,并采用高效的指挥与控制,将标枪、NLAW 和毒刺等西方智能武器与强大的苏联武器库(包括防空、航空、火炮、坦克和装甲车辆)结合起来,再加上新建立的广泛的国土防御,形成了一个非常有效的组合。乌克兰这一战略的实施使俄军大为被动,促使他们从乌克兰北部撤退到白俄罗斯。俄军全面行动初期的失败迫使俄军指挥官将其作战理念从闪电战转变为消耗战。

乌克兰的核心理念是采取非对称方式对抗强大的俄罗斯陆军,因为他们认识到,乌克兰武装部队(UAF)在与俄罗斯武装部队的强大力量进行对称作战时几乎没有机会。因此,乌克兰武装部队选择构建以网络为中心的战争模式,借鉴苏联武器装备,但在各级整合新的指挥和控制系统。这包括广泛使用无人机进行侦察、攻击和执行神风特攻队任务。从本质上讲,新模式旨在通过将无人机和智能武器与指挥、控制、通信、计算机、网络防御、作战系统、情报、监视和侦察系统无缝结合,实现后苏联陆军的现代化。这样做的目的是在 UAF 内部创造一种不对称的潜力,使他们能够有效地对抗俄罗斯陆军的压倒性力量。

随着无人驾驶航空系统的广泛部署,网络中心战概念作为一个基础要素融入了联合空军的当代条令中,并得到了实质性的加强。其中包括专为陆地和海上作战设计的自主、无人和机器人系统。从本质上讲,无人机已成为乌克兰空军作战条令的重要组成部分,体现了无人机中心战的精髓。

乌克兰空军利用无人机的能力执行各种任务,包括侦察、目标捕获、单元和单个作战组件的协调以及执行打击功能。虽然这些功能在大多数先进的武装部队中司空见惯,但 UAF 的与众不同之处在于最近将无人机提升到了作战的核心地位。在整个战场上部署大量无人机,可将战场信息无缝整合到一个统一的矩阵中,从而具备消灭敌人的能力。这是实时发生的,标志着现代战争动态的变革性转变。

乌克兰武装部队中的无人机

自 2014 年俄罗斯占领和吞并克里米亚并进攻顿巴斯以来,乌克兰武装部队在无人系统开发方面取得了突破性进展。在 2014 年俄罗斯发动进攻时,乌克兰陆军的库存中几乎没有无人机,只有过时的苏联侦察无人机,这些无人机已不再适用。与俄罗斯爆发武装冲突后,乌克兰制造商积极参与了武装部队无人机队的开发。大多数投入生产并交付部队的成功项目都是由私营公司实施的。然而,这一进程相当缓慢,官僚主义的国防采购系统不允许进行足够的投资来扩大无人机生产项目的规模。

例如,2014 年由位于基辅的 Athlon Avia 公司开发的乌克兰无人空中侦察系统 “Furia ”立即被乌克兰武装部队、乌克兰国民警卫队和乌克兰安全局用于战场。然而,直到 2019-2020 年,“Furia ”才通过了一轮完整的国家测试,并被乌克兰武装部队正式采用。乌克兰其他无人机的情况也类似。例如,Ukrspecsystems 公司生产的 PD-1 型无人机自 2014 年起就参加了前线作战行动,但在 2018 年才获得正式许可。Culver Aviation 公司的 Skif 无人机于 2016 年研制成功,并于 2021 年投入量产。Leleka-100 无人机于 2017 年研制成功,并在前线积极使用。然而,Leleka-100 到 2021 年才被武装部队正式采用。这些例子反映了一个总体趋势,即从 2014 年到 2020 年,尽管与俄罗斯的武装冲突仍在持续,但乌克兰开发和生产军用无人机的进程并未达到所需的速度和范围。无人机在乌克兰空军中的使用也比计划、概念和条令更零星。

图:A1-SM Furia 无人机

乌克兰于 2018 年购买了数架土耳其 Bayraktar TB2 型中空长航时无人战斗机,这是乌克兰认识到建立一支强大的军用无人机机队重要性的重要一步。采购 Bayraktar 无人机反映了乌克兰武装部队领导层认识到在其侦察和打击能力(包括侦察、指挥所和武器装备)中建立无人机元素的必要性。这一举动标志着向接受网络中心战概念的转变。乌克兰空军在 2021 年春季将首批 Bayraktar 无人机投入现役。与俄罗斯军队的首次交战发生在 2021 年 10 月 26 日。Bayraktar 无人机对违反明斯克协议、炮击乌克兰 Hranitne 村的俄罗斯火炮系统进行了打击,这可以说是乌克兰空军使用无人机的转折点。

图:乌克兰武装部队的 Bayraktar ТВ2 无人机

自俄罗斯开始大规模侵略乌克兰以来,乌克兰武装部队的无人驾驶系统发展 势头更加集中和活跃。据乌克兰国防部代表称,截至 2023 年底,乌克兰武装部队运行着约 70 种不同类型的无人驾驶航空系统,以及 20 多种用于攻击无人机的弹药6 。据战略工业部的代表称,乌克兰目前约有 200 家无人机制造商,其中大部分是私营公司。至于数量,根据各种来源的信息,到 2023 年底,乌克兰每月生产多达 5 万架不同类型的无人机。其中大部分是第一人称视角 (FPV) 无人机,由于其成本低(500-700 美元)、效率高,确实改变了作战行动的性质。

图:乌克兰制造的 FPV KH-S7 无人机,资料来源:乌克兰武装部队

乌克兰武装部队的条令重点是无人机和以网络为中心的战争,这就需要集成系统作为一个框架,确保迅速的控制循环。这些周期包括确定敌方目标坐标、向指挥所传送目标信息,以及将这些信息转发给摧毁手段。乌克兰武装部队采用了各种系统来实现这一目标,其中一个显著的例子是 Kropyva 战术指挥和控制系统。

2014 年,来自Army SOS的一个小组开始向军方提供平板电脑,Kropyva 系统作为一项志愿者倡议开始启动并投入使用。自俄罗斯发动侵略以来,已安装了 10 000 多套 Kropyva 应用程序。此外,还建立了技术支持服务,以不断改进软件产品。2018 年,Logika 设计局的开发人员向武装部队慷慨捐赠了 Kropyva 及其源代码和许可证。该系统有助于营、连、排和单车等不同级别的各种指挥和控制任务的自动化。从根本上说,它有助于将侦察、控制和火力整合为一个统一的信息领域。

图:Kropyva 战术指挥与控制系统

三角洲(Delta)系统实际上是一种基于军事云的在线服务,其运行原理与此类似。2015年,Aerozvidka志愿团队开始开发Delta态势感知系统。一年后,该系统被移交给乌克兰空军,并在那里成立了自动化作战(战斗)控制系统实施与支持中心。德尔塔 "是一个在线系统,提供有关战场战术和作战情况的实时信息。借助 Delta 系统,士兵可以在线查看战场情况和敌军位置。来自空中侦察、卫星、无人机、固定摄像机、雷达、聊天工具等的数据都会被调入该平台。Delta 目前是武装部队军事行动计划的重要组成部分。

图:三角洲系统网站

与此同时,乌克兰武装部队正在考虑进一步调整组织结构,以适应以无人机为中心的条令。截至 2023 年,乌克兰武装部队在武装部队历史上首次创建了特种无人机攻击连,作为战斗旅的一部分和单独的战斗群,使其单元总数达到 60 个。这样就可以根据网络中心战条令,使用各种类型的无人机摧毁敌方目标。无人机攻击连的建立是联合空军组织和条令原则现代化的开端,是其适应战场新技术现实的一部分。据认为,除了旅一级的无人机攻击连外,在营和连一级建立单独的攻击(主要是 FPV)无人机单元也是权宜之计。另一种可能的选择是在每个旅建立无人机营,进一步分配其功能,以支持旅的单元。

重要的是,乌克兰国防部设立了一个特殊机构--创新发展加速器,负责优化乌克兰武装部队采用新武器和军事装备的过程。作为加速器举措的直接成果,将武器装备纳入乌克兰武装部队服役的过程已简化到仅需 1.5 个月,与之前超过 2 年的时间相比有了大幅改善。由于乌克兰公司的创新发展不断涌现,加速器的影响在新无人机技术的集成方面尤为明显。将这些新技术部署到前线并编入作战单元的审批过程中,需要不断摸索。

数字转型部还创建了 “勇敢1”(Brave1)集群,以促进国防技术的发展。Brave1 的主要任务是协调国防部、武装部队、数字化转型部、经济部、战略工业部、国家安全与国防委员会等政府机构在国防技术开发和生产方面的活动。同样,Brave1 旨在创建一个强大的国防科技外国利益相关者社区,让他们从交流专业知识和机会中获益。Brave1 为国际合作伙伴提供进入乌克兰国防创新领域的机会,为外国合作伙伴提供软着陆程序;在公共和私营部门的利益相关者之间建立伙伴关系并开展合作;提供组织支持、参与竞标、黑客马拉松、聚会、赠款和投资;开发和测试乌克兰和国际先进技术;为乌克兰尖端国防科技发展提供投资机会。总之,加速器和 Brave1 为军事技术的开发、生产和采用形成了一个新的生态系统。

图:Brave1 系统网站

下面来谈谈已成为 UAF 无人机活动推动力的项目。首先,这是无人机陆军项目,是全国众筹活动 United 24 的一部分。作为 “无人机陆军 ”项目的一部分,已经购买了数千架无人机,并训练了 1 万多名无人机操作员。

同时,作为 United 24 运动的一部分,还启动了海上无人机的创建进程,后来成为国家层面发展海上平台的一个独立领域。此外,还宣布启动 “机器人陆军 ”项目,该项目将开发符合联合空军利益的最新机器人系统。此外,电子战系统陆军的成立也开始推动电子战系统的大规模生产。正如数字化转型部长米哈伊洛-费多罗夫所说:"接下来的任务是将无人机的经验推广到其他军事创新领域。启动电子战系统陆军和机器人陆军。我们的团队随时准备与任何能在技术上帮助加强前线的人合作"。费多罗夫称,乌克兰政府将在这些项目中依靠明确的意识形态:市场开放、透明和最大限度地吸引已经创造出各种产品并能够扩大产品规模的企业家。

图:费多罗夫部长与无人机陆军的无人机

乌克兰雄心勃勃地计划在 2024 年进一步提高无人机的产量。乌克兰 2024 年国家预算为无人机(航空和航海系统)拨款 11 亿欧元。战略工业部部长 Oleksandr Kamyshyn 表示,乌克兰为 2024 年制定了雄心勃勃的生产目标,计划生产 100 万架 FPV 无人机、1 万多架中程攻击无人机和 1 000 多架射程约 1 000 公里的无人机。部长确认,实现这些目标所需的所有生产能力都已到位。

值得注意的是,将无人机用于军事目的的最新趋势是利用人工智能技术。人工智能可以自动检测和分类战场上的目标,并为操作员/指挥官提供战胜敌人的现成决策。此外,人工智能还能通过 “开火即忘 ”的方法确保无人机到达目标。从根本上说,在软件层面实施的人工智能可以将廉价的攻击无人机转变为高精度的先进武器。

人工智能可以进一步缩短发现敌方目标、确定其坐标、将坐标信息传送给指挥官、做出摧毁敌人的决定并将这一决定传送给摧毁手段的控制周期,从而成为改进网络中心战概念的下一步。在现代战争背景下,应尽可能缩短这些周期。在使用无人机时使用人工智能可以大大加快管理周期,确保提高武装部队作为综合侦察和打击联合体的使用效率。乌克兰武装部队已经采用了第一架由人工智能驱动的无人机,名为 “Saker Scout”。这种无人机能独立识别和记录敌方车辆(即使是伪装车辆)的坐标,并立即将信息传送到指挥所供决策之用。

图:人工智能无人机 Saker Scout 无人机

此外,人工智能的集成还可以实现无人机群的部署。在这种情况下,每架无人机都将具备自主分类、捕获和消灭指定目标的能力。考虑到军事技术的飞速发展,人工智能有可能在不久的将来给战场带来革命性的转变。

在海上无人机领域,乌克兰取得的技术突破给俄罗斯黑海舰队带来了意想不到的局面。由于乌克兰实际上失去了传统海军,俄罗斯黑海舰队不得不转移到黑海东部地区,不敢靠近西部地区,因为乌克兰使用海上无人机的威胁很大。乌克兰已制造出多种类型的海上无人机,最初由志愿者资金资助,后来由国防部和其他安全机构及情报部门的预算资助。目前,乌克兰国防部正在使用几种海上无人机,包括水面和水下无人机。这些无人机的性能在不断改进,效能也在不断提高,对俄罗斯黑海舰队、基地和基础设施(如刻赤大桥)造成了破坏。乌克兰无人机 Magura V5 是乌克兰国防情报局的主要海军无人平台,11 月 10 日在克里米亚 Chornomorske 村击沉了两艘登陆艇,当时其中一艘正在装载 BTR-82,促使俄罗斯决定将黑海舰队调往新罗西斯克。

图:Magura V5 海军无人机

2023 年 7 月 17 日,乌克兰安全局研制的 “海洋宝贝 ”无人机炸毁了克里米亚大桥。科扎克-马迈 "无人机是乌克兰安全局的新研发成果。8 月 5 日,它击中了黑海舰队的 Olenegorsky Gornyak 号大型登陆舰和 SIG 号军用油轮,表明乌克兰可以到达新罗西斯克。

图:Kozak Mamai海洋无人机

2023 年,乌克兰首架水下海事无人机 Marichka 问世。该无人机专门针对船只、桥梁、海岸防御工事和潜艇而设计。如有需要,该无人机可改装为运载军用或民用货物,以代替炸药,还可发挥侦察作用。开始大规模生产水下无人机有可能极大地改变黑海的态势。俄罗斯黑海舰队可能在探测和反击这些水下无人机方面面临挑战,从而对俄罗斯战舰构成巨大威胁。

图:Marichka海洋无人机

此外,还研制了先进的托洛卡水下无人机,并进行了各种改装。其中,TLK 1000 的射程为 2000 公里,可携带多达 5000 公斤的炸药。制导系统包括被动声纳--利用水听器系统识别水下和水面物体并确定方向。还包括超声波声纳(主动声纳),用于近距离探测、跟踪和按大小识别物体。

重要的是,在组织和理论变革方面,乌克兰海军成立了海军无人机大队,这是第一支装备海军无人机的本级海军作战单元。不过,这些舰载无人机不仅由乌克兰海军使用,还由乌克兰国家安全局和乌克兰国防情报局在行动层面密切协调使用。

俄罗斯武装部队的无人系统

自 2010-2012 年以来,俄罗斯积极加强武装部队的无人机能力,与此同时,俄罗斯陆军也进行了全面改革。俄罗斯国防工业寻求以色列的技术,获得了生产 IAI “搜索者 ”无人机(由乌拉尔民用航空厂生产,名为 “Forpost”)和 “鸟眼-400”(在俄罗斯称为 “Zastava”)的许可证。此外,从 2010 年到 2022 年,俄罗斯执行了多个项目,Orlan-10 进入生产阶段,并成为俄罗斯武装部队炮兵单元的主要无人机。

2022 年 2 月 24 日之前获得的信息表明,Orlan-10 的很大一部分部件来自其他国家,包括美国、瑞士、日本等。在俄罗斯开始对乌克兰行动之后,据透露,奥兰-10 的热像仪矩阵是在法国制造的。

图:俄罗斯武装部队的 Orlan-10 无人机

2022 年 2 月前夕,即在大规模侵略开始之前,俄罗斯武装部队的无人驾驶飞行器已建立了完善的结构。俄罗斯武装部队的旅和师以及一些侦察旅已经有了无人驾驶飞行器连队。这些连队由 Orlan-10 系统(高度达 5000 米,半径达 110 公里)和短程 Granat-2(高度达 600 米,半径达 15 公里)、Eleron(高度达 3000 米,半径达 25 公里)和 Takhion(高度达 4000 米,半径达 40 公里)组成。联合兵种旅的无人机连通常由两个排组成--中程排配备 Orlan-10 和 Granat-4 系统(高度可达 2000 米,半径可达 100 公里),短程排配备 Granat-1/2/3 和 Zastava(高度可达 2200 米,半径可达 10 公里)、Takhion、Eleron 和其他系统。空降师和空降旅以及海军陆战旅和海军陆战团的无人机连也是这样组建的。

炮兵旅、工兵旅、导弹旅甚至铁道旅也有无人机单元。这些部队大多是独立的短程无人机排。除了拥有奥尔兰-10 无人机的排,炮兵旅还有奥尔兰-30 无人机(由旅指挥,用于引导克拉斯诺波尔精确制导导弹)和以奥尔兰-10 为基础的炮兵侦察无人机排(在炮兵侦察单元)。航空航天部队已建立了几个 “前哨 ”无人机中队以及 “奥尔兰-10 ”无人机中队。2023 年,俄罗斯武装部队开始积极使用 SuperCam S350 型无人侦察机。

2021 年,俄罗斯扎拉集团公司(卡拉什尼科夫公司的子公司,而卡拉什尼科夫公司又隶属于俄罗斯技术公司)开始生产 Kub-BLA 和 Lancet 巡飞弹药。2022 年,在对乌克兰的大规模侵略开始后,俄罗斯武装部队采用了这些无人攻击机。随后,它们开始在战场上发挥重要作用,对战场上的乌克兰军队构成重大威胁(经常与 SuperCam S350 型侦察无人机协同瞄准目标)。最近有报道称,扎拉集团即将在 2023 年底前利用人工智能制造出改进版的 “柳叶刀”。人工智能将允许使用所谓的柳叶刀蜂群,它们将独立识别战场上的目标并将其摧毁。

图:俄罗斯武装部队的柳叶刀巡飞弹药

此外,俄罗斯 Aeroscan 公司(隶属于 ZALA 集团)于 2023 年 9 月宣布研制一种名为 “Italmas ”的新型攻击无人机。据报道,“意大利马斯 ”比 “柳叶刀 ”具有更好的特性,包括弹头更大,射程可达 200 公里。根据现有数据,“Italmas ”与伊朗的 “Shahed ”136 无人机具有相似的品质,特别是在外观和发射方法方面。另据报道,这种无人机配备了光电瞄准装置,可大大提高摧毁目标的精确度。

图:Italmas,巡飞弹药,来自 Aeroscan 演示的源视频

沃斯托克设计局还生产了另一种改进型 “柳叶刀 ”无人机,名为 “手术刀”。据称,“手术刀 ”的有效载荷可达 5 千克。无人机本身的最大起飞重量可达 10.5 千克,速度可达 120 千米,飞行距离可达 40 千米。制造商声称,“手术刀 ”比 “柳叶刀 ”便宜,这显然是因为最大限度地使用了不受制裁限制的外国民用部件。

图:手术刀游荡弹药,沃斯托克设计局设计

同样,据俄罗斯报道,俄罗斯改进了另一种攻击型无人机 “库勃-BLA”。卡拉什尼科夫公司总裁艾伦-卢什尼科夫(Alan Lushnikov)2023 年 12 月 25 日告诉俄罗斯-24 频道,俄罗斯武装部队已经接收了改进型 Kub-BLA 游荡弹药,该弹药配备了威力更大的弹头。目前尚不清楚卡拉什尼科夫公司是如何改变弹头以提高其杀伤力的,但该弹头在乌克兰的使用视频显示,除非在非常近的距离引爆,否则有时无法对目标造成伤害。

与此同时,俄罗斯武装部队使用最广泛的无人机是伊朗制造的 Shahed-136/131 游荡弹药。根据乌克兰空军的一份报告,自 2022 年 2 月 24 日以来,俄罗斯对乌克兰使用了 3 940 架 Shahed-136/131 攻击无人机,其中 3 095 架 Shahed 无人机被摧毁。这说明了俄罗斯为打击乌克兰而生产和购买伊朗无人机的程度。从根本上说,俄罗斯选择向伊朗工业投资数十亿美元,而不是建立自己的远程打击无人机的大规模生产。伊朗向俄罗斯武装部队提供了大量直接、经济但危险的攻击无人机,这些无人机不断压垮乌克兰的防空系统。

图:泽连斯基总统和被击落的沙希德在基辅

此外,俄罗斯已开始努力在俄罗斯鞑靼斯坦本土化生产沙赫特-136(被称为 “格兰-2”)。2023 年 12 月,一架被俄罗斯正式命名为 “格兰-K ”的 “沙赫特-136 ”在乌克兰被击落。格兰-K 由俄罗斯生产,与伊朗的同类产品不同之处在于其弹头为非标准弹头,重 40 千克,配有高爆破片装置。除 “格兰-K ”无人机外,俄罗斯还使用了另外两种型号的 “沙赫特 ”无人机:一种是伊朗制造的原型无人机,配有伊朗制造的 48.5 千克重的弹头,名为 “格兰-M”;另一种是 “格兰-Ы ”无人机,配有伊朗制造的弹头,但导航系统是俄罗斯制造的。还有消息称,伊朗正在研制一种装有喷气发动机的 “沙赫德 ”变型无人机,这有可能大大提高这些无人机的速度,尽管其代价是减少航程。

图:装有喷气发动机的沙赫德(J238)

据各种消息来源称,俄罗斯将生产更多的 “沙赫德”,达到每年 6 000 架无人机的水平。对于乌克兰和西方国家来说,“沙赫德”无人机产量的下降是一个尖锐的问题。据俄罗斯工业研究院称,高达 82% 的 “沙赫德 ”部件来自美国。因此,随着对俄罗斯、伊朗和传统上用来规避制裁的国家的供应的严格限制,沙赫德无人机的生产能力有可能大大降低。

2024 年 1 月,有消息称俄罗斯出现了一种名为 “克林 ”的新型攻击无人机。根据初步信息,“克林 ”可能是对俄罗斯 “库巴 ”无人机(ZALA 集团)的改进,该无人机因弹头弱、飞行时间短(30 分钟)而不能令俄罗斯军方满意。俄罗斯人有可能试图利用伊朗 “沙赫德 ”无人机的技术,制造出自己的更强大的远程无人机。到目前为止,还没有针对乌克兰使用 “克林 ”无人机进行作战的案例。

2023 年 6 月,俄罗斯政府公布了《2030 年前无人航空发展战略》。根据该文件,无人机产业发展的基线设想是,到 2026 年,研发人员达到 33 万,无人机生产和运营人员达到 100 万,到 2030 年和 2035 年达到 150 万。俄罗斯生产的无人机数量计划在 2023-2026 年达到 5.21 万架(平均年产量超过 1.3 万架),2027-2030 年达到 10.55 万架(平均年产量超过 2.6 万架),2031-2035 年达到 17.77 万架(平均年产量超过 3.55 万架)。渐进方案的数字甚至更高:2026 年有 45 万名员工,2023-2026 年生产了 5.54 万架无人机;2030 年有 110 万名员工,2027-2030 年生产了 11.68 万架无人机;2035 年有 160 万名员工,2031-2035 年生产了近 20 万架无人机。

这些数字很可能只是近似值,重要的是要考虑到对俄追加制裁的潜在影响。尽管如此,俄罗斯政府显然准备为无人机行业注入更多资金,公共和私营实体将越来越多地参与无人机的研究、开发和生产。预计这将导致无人机项目数量和实际无人机在前线部署数量的增加。遗憾的是,由于灰色进口的盛行,这些公司仍将依赖进口部件和工业设备。同时,俄罗斯从国际石油和天然气销售中获得的丰厚利润预计将为这些举措提供充足的资金。

俄罗斯已经开始生产为 FPV 无人机和空投而设计的弹药。此外,前线已开始出现配备热成像仪的侦察和攻击无人机,它们能够在夜间行动,从而对乌克兰军队构成更加可怕的威胁。根据最新数据,2023 年,俄罗斯国防部训练了约 3500 名 FPV 无人机操作员。此外,俄罗斯国防部还为约 1700 名专家提供了操作其他类型无人机的训练。这凸显了俄罗斯将大量资源投入到战斗无人系统的生产和研发中,表明该领域未来将在战场上发挥举足轻重的作用。

俄罗斯还在采取措施发展舰载无人机。2023 年 2 月 11 日,关于乌克兰武装部队总司令瓦列里-扎卢日尼与美国参谋长联席会议主席马克-米利将军之间谈话的报道称,扎卢日尼将军“......同样对俄罗斯使用海上水面无人机表示担忧,因为这对黑海的民用航行构成了威胁”。当时,公开资料中没有关于俄罗斯大规模生产海上无人机的信息。因此,可以推测扎卢日尼将军提到的无人机要么是单个原型机,要么可能是俄罗斯从其 “盟友 ”伊朗那里获得的。此外,众所周知,德黑兰已经为其卫星--也门胡塞武装--提供了自杀式艇,用于摧毁水面目标。2022 年 9 月,OSINT 分析家 H I Sutton 在其博客中描述了这些船只的一些特点。

在 2023 年 8 月举行的 “陆军-2023 ”展览期间,俄罗斯金吉塞普机械制造厂展示了自己的遥控艇 GRK-700 Vizir。

官方称,该艇设计用于水文测量任务,即探索水域底部和探测沉没物体。不过,制造商补充说,GRK-700 Vizyr 也可用于军事目的,特别是作为攻击艇或海洋无人机的 “猎手”。俄罗斯国防部已经在考虑为其海军生产这种海上无人机的可能性。据俄罗斯消息来源称,这些海上无人机的船体由玻璃纤维制成,有效载荷可达 500 千克,申报航程可达 500 千米(但前提是使用电力驱动),申报最大速度可达 43 海里/小时。制造商声称,这些海上无人机仅由俄罗斯部件组装而成,包括回声测深仪、侧扫声纳、控制、通信和导航系统。另据报道,这些 “无人艇 ”的设备包括 “独立返回基地 ”的算法。

图:俄罗斯导航无人机 GRK-700 Vizyr

2023 年 12 月,俄罗斯媒体发布了有关俄罗斯新型海上无人机的信息,这种无人机也是由金吉塞普机械制造厂生产的,名为 “奥杜万奇克”(Oduvanchik)。俄罗斯方面称其为 “快速移动无人运载艇”。据称,“奥杜万奇克”的航程可达 200 公里,最高时速可达 80 公里,有效载荷可达 600 公斤,弹头装有 TNT 炸药或其他 “特殊货物”。“奥杜万奇克 "可能是俄罗斯国防部向金吉塞普机械制造厂订购的一整套类似海上无人机的第一个版本。俄罗斯工程师有可能试图研究乌克兰生产舰载无人机的经验,并选择复制乌克兰的研发成果。无论如何,“奥杜万奇克”看起来与乌克兰设计的海上无人机很相似。

图:俄罗斯 “奥杜万奇克 ”无人机

根据最近的报道,金吉赛普机械制造(Kingisepp Machine-Building)厂将于 2024 年初在黑海测试第一批海上无人机。随后,该厂将为俄罗斯武装部队批量生产无人机。可以推测,2024 年下半年,俄罗斯海上无人机将开始在黑海战场发挥重要作用。除其他外,它们还能影响乌克兰海港贸易走廊的运作,以及罗马尼亚近海能源项目的实施。

主要启示

俄罗斯两年来对乌克兰的大规模侵略表明,无人系统和自主系统对作战性质、行动、武装部队条令和组织结构产生了非同寻常的影响。反过来,设想整合情报、指挥和控制系统以及武器的 “网络中心战 ”条令学说已成为一个理想的框架,在这个框架中,无人系统的技术突破已成为提高以网络为中心的武装力量运用模式有效性的自然刺激因素。

乌克兰武装部队利用无人驾驶航空系统的优势开展各种行动,包括侦察、目标识别、单元和作战单元协调以及执行精确打击任务。在整个战场上战略性地部署大量无人机系统,使其成为一个不可或缺的组成部分,将战场情报无缝地吸收到一个统一的矩阵中。该矩阵拥有前所未有的能力,可迅速、果断地消灭敌对分子。重要的是,这一过程是实时展开的,预示着当代战争动态的革命性转变。

乌克兰生产和武装部队使用的无人机数量正呈指数级增长。从 2022 年初服役的几十个系统到 2023 年底,乌克兰武装部队使用了 70 种不同类型的无人机系统和 20 多种用于攻击无人机的弹药。乌克兰约有 200 家制造无人机的公司,每月生产约 50 000 套无人机系统。2024 年的计划更加雄心勃勃:将 FPV 无人机的产量提高到每年 100 万单元,中程攻击无人机提高到每年 1 万单元,远程攻击无人机提高到每年 1000 单元。这一数字应能确保与俄罗斯的不对称均势,俄罗斯也在努力最大限度地提高无人机产量。

在 UAF 矩阵中采用以无人机为中心的方法,就必须在理论和组织上进行调整,并转变无人机的使用结构。这种演变需要从经常混乱的、自下而上的举措转变为建立一个垂直整合的指挥系统,拥有自己的条令、组织框架和标准化协议。2023 年,乌克兰武装部队成立了无人机攻击连,并将其纳入旅级结构。此外,乌克兰武装部队总参谋部下设的无人系统中央局也取得了重大进展。该机构的任务是制定和推进武装部队内无人机的管理条令和组织结构。此外,它还负责确定武装部队的要求和与无人机部署有关的复杂问题。

人工智能(AI)的融入标志着无人机在军事行动中的发展前景广阔。人工智能有能力自主识别战场上的目标并对其进行分类,为操作人员提供预先配置的摧毁敌人的解决方案。它的应用不仅提高了无人机的整体使用效率,还大大缩短了从发现目标到摧毁目标的管理周期。此外,早在 2024 年,无人机群的使用就有可能对战场动态产生重大影响。这标志着格局的转变,协调一致的无人机群可能会重塑战场格局,为战略考量引入新的维度。

海军无人机的诞生和部署是乌克兰武装部队在当代战争中取得的突破性进展。在海军无人机的推动下,技术实力和理论创新的融合使乌克兰有能力在黑海实现战略突破。尽管乌克兰在黑海没有常规海军舰队,但它成功地迫使俄罗斯黑海舰队撤退到黑海东部。这一成就还确保建立了一条重要的海上贸易走廊,将乌克兰港口与博斯普鲁斯海峡连接起来。2024 年,海上无人机的发展轨迹仍将继续,重点是增强其作战能力。海上无人机技术的不断发展有可能进一步削弱俄罗斯黑海舰队的活动,特别是随着水下无人机有望融入战区。

俄罗斯启动军用无人机计划的时间更早--事实上,在 2008 年对格鲁吉亚的战争之后,俄罗斯就立即意识到了陆军情报能力的落后。到 2014 年与乌克兰开战时,俄罗斯已经大规模生产军用无人机,并建立了使用无人机的组织结构。与此同时,乌克兰无人机能力的快速非对称增长也让俄罗斯大吃一惊。

迄今为止,俄罗斯还未能显著改变陆军无人机生产的模式和方法。俄罗斯的努力主要是改进和扩大现有项目(奥兰-10、“柳叶刀”、Kub-BLA),同时引进包括人工智能在内的先进技术。与此同时,俄罗斯还设法吸引了大量国家资金,并在特勤部门建立了一个规避制裁的系统,以获得稀缺部件,包括来自西方制造商的部件。另一个令人担忧的因素是俄罗斯在制造 FPV 无人机方面的熟练程度,这种能力有可能超过乌克兰,从而对乌克兰武装部队构成重大威胁。

此外,伊朗 “沙赫德 ”神风无人机的进一步扩大和改进对乌克兰防空部队保护平民和民用基础设施以及军事和国防工业设施构成了战略挑战。尽管受到制裁,伊朗仍计划在 2024 年生产 6000 架 “沙赫德”,这可能对乌克兰构成重大威胁。未来,俄罗斯的这些能力可能会直接威胁到北约国家。因此,加强对向俄罗斯供应用于生产无人机的微电子和其他高科技部件的制裁限制应成为欧盟和北约的战略问题。

此外,有关俄罗斯生产舰载无人机能力的信息也需要特别关注。尽管俄罗斯在舰载无人机的研发和生产方面仍落后于乌克兰,但最近的信息表明,俄罗斯已准备好投入大量预算资金生产舰载无人机。到 2024 年,俄罗斯的舰载无人机可能会成为影响黑海动态的重要因素,有可能危及从乌克兰港口出发的海上贸易航线。此外,这些无人机还可能对罗马尼亚的近海能源项目构成严重的破坏性威胁。在这方面,乌克兰和罗马尼亚理应采取协调步骤,制定必要措施来对抗俄罗斯在黑海的海军无人机。北约在这一领域的参与也是非常合适的。

成为VIP会员查看完整内容
36

知识图谱(KGs)正在重塑关于世界信息的表示、组织和利用的范式。知识图谱提供了丰富的语义信息,并已成为人工智能(AI)的驱动力之一。KG的研究主要有两个重要方向:一是构建和提高知识图谱的质量,二是深入探讨知识图谱的广泛应用。近年来,图神经网络(GNNs)也取得了显著进展。GNN是一类适用于图领域的深度学习技术,在许多任务中表现出令人鼓舞的性能。尽管已有研究尝试将GNN应用于KG相关任务,但模型功能设计、可扩展性问题、因传导性而只能预测训练中观察到的实体的局限性,以及基准质量等方面仍存在诸多挑战。在本论文中,我们针对利用GNN进行知识图谱的深度学习,考察了归纳性知识图谱补全和知识增强推荐任务,提出了新的基于GNN的方法以应对这些挑战。我们的广泛实证评估显示,所提出的方法在多种基准任务上优于最先进的方法,并能够在实际应用中实现高效的训练和测试。 我们还进一步探讨了KG补全问题,通过重新审视传导性设定下的基准测试。特别地,我们提出了一种新的方法来生成基准,以帮助实证评估模型捕捉推理模式的能力。我们的研究结果突显了理论结果与实际推理能力之间的差距。

成为VIP会员查看完整内容
35

现代大规模作战行动(LSCO)的特点是越来越频繁和多样化地使用集成到指挥、控制、计算机、通信、情报、监视和侦察(C4IRS)系统中的无人驾驶飞行器(UAV)。这些飞行器是现代 LSCO 中最重要的武器类型之一。任何人只要掌握了可以处理来自战场的最新信息并将这些信息安全地传递到指挥中心的技术,就拥有了巨大的优势,就有机会对那些以阻止进一步作战工作为目标的单元造成巨大的破坏。重要的是,无人机必须通过选址行动、侦察和撤退路线进行一定程度的自我保护。本文介绍了在整编部队指挥所中使用无人机执行各种任务的可能性,以及在以往现代武装冲突中使用无人机的案例研究。

科学技术的迅猛发展,特别是第四次工业革命取得的重大成就,给社会生活领域带来了许多变化。在国防和安全领域尤其可以凸显出来,作战活动有了显著改善,科技成果的应用大大提高了单元的效率。现代作战行动需要使用最先进的作战资产来高效执行指定任务。无人驾驶飞行器的使用是现代作战行动不可或缺的一部分。由于其用途广泛,结构和作战特点各不相同,为装备这类作战装备的单元提供了广泛的可能性。通过使用集成到 C5ISR 系统中的无人驾驶飞行器,可以实时了解战场情况并提供网络保护,这为决策者在作战行动中及时有效地指挥部队提供了可能。C5ISR 是指挥、控制、计算机、通信、网络、情报、监视和侦察的缩写,是 C4ISR 的升级系统,不包含网络元素(图 1)。在现代作战行动中,使用了各种类型的无人机,从商用无人机到向指挥中心传输数据的武装作战无人机。无人飞行器在现代作战行动中的使用越来越多,特别是用于侦察、监视和瞄准地面目标。无人驾驶飞行器要想在战斗中发挥有效作用并满足现代战争的要求,必须具备某些特征。

有大量论文涉及无人驾驶飞行器问题,而分析与无人驾驶飞行器集成的 C5ISR 系统应用情况的论文却寥寥无几。一些论文分析了无人飞行器在作战行动中的应用。Milić 等人分析了在城市环境作战中使用无人机的可能性。Radovanović 等人描绘了在陆地安全区的保护和监测中使用民用无人机的可能性。Adamski 分析了现代武装冲突中使用的作战无人机的有效性。约维奇展示了无人机在反恐行动中的实战应用。Petrovski 和 Radovanović 分析了针对陆军需求与 C4IRS 系统合作使用心轴的情况。Ilić 和 Tomašević 分析了纳戈尔诺-卡拉巴赫冲突对作战无人机认知的影响。Bares 对集体安全系统中的 C4IRS 系统进行了互操作性建模。Radovanovic 等人分析了在迫击炮单元实施无人机的可能性,以便通过与 C4IRS 系统合作应用火力管理系统来提高火力支援单元的效率。Petrovski 等人分析了地理信息系统与 C4IRS 系统合作在地理方面的应用,以满足军事需求。Cai 等人展示了小型无人机的未来发展趋势。Horizon Global Partners 开发了支持 C2、C3、C4、C5、C6 - ISR 系统的平台。Halkis 和 Adha 分析了面对网络威胁的国防 C5ISR 数据链模型。Michaelis 分析了支持战场上基于物联网的 C5ISR 应用的解释系统。Radovanović 等人通过应用模糊 AHP - VIKOR 多标准决策模型,分析了如何根据陆军和警察战术单元的需要选择无人驾驶飞行器。Mahajan 分析了无人机在建筑中的应用。Mitka 和 Mouroutsos 根据用途对无人机进行了分类。Choi 等人在他们的作品中提出了一种由不同尺寸的发射线圈组成的多发射器系统,用于为无人机充电。Gupta 等人提出了无人驾驶飞行器的分类,并分析了无人驾驶飞行器及其组件的模型。Žnidaršič 等人展示了几种类型的无人机和反无人机资产,以便在塞尔维亚武装部队单元中实施。Petrovski 和 Toshevski 展示了地理信息系统在地理侦察和 C4IS 中的军事应用。Žárský 等人使用德尔菲法分析了捷克陆军中多旋翼飞机的使用情况。谈到作战行动,Pytel 和 Cieśla 分析了在作战行动中使用国土防御部队的情况。Wrzosek 分析了现代指挥和未来军事行动的挑战。霍林和托马西克根据乌克兰冲突的经验,分析了混合战争中的国土防御部队。Selmy 分析了无人机在搜索和救援行动中的应用。Watts 等人分析了无人机在遥感和科学中的应用。Nohel 等人为捷克武装部队选择了一种战术无人驾驶飞行器。Mitrović 和 Bojanić 分析了俄罗斯联邦武装部队营级战术小组在现代冲突中的变化。Terzić 等人确定了战场的情报准备工作以及在城市环境作战中使用部队的模式。Ilić 等人以乌克兰境内现代武装冲突中的俄罗斯联邦营战术小组为例,分析了部队建模。Radanović 等人分析了塞尔维亚陆军行动的财务安全概念。Hlavizna 等人分析了开展电子战以支持联合行动的方法。

Slavković 等人描述了地面部队攻击行动中的机动。Marinković 等人定义了进攻行动中对地面部队的空中火力支援。Hlavizna 在文章中研究了北大西洋公约组织和美国武装部队对电子战(电磁环境中的军事活动)的不同做法。

大规模作战行动中的 C5ISR 系统

现代军队越来越依赖信息技术来支持任务规划和执行。随着对多域作战(MDO)研究的不断深入,预计常规任务行动将涉及网络和物理资产之间的大量互动。在未来战场上,这些网络与物理的交互作用预计将由作战环境的特征以及用于完成 C5ISR(指挥、控制、计算机、通信、网络、情报、监视和侦察)任务的工具和技术所引入。美国陆军 C5ISR 中心网络安全服务提供商(CSSP)是一个全天候防御性网络行动(DCO)组织,负责保护美国国防部和美国陆军网络免受敌对网络活动的攻击,并开发技术和能力供国防部内的 DCO 操作人员使用。

近年来,C5ISR CenterCSSP 一直在研究各种先进的数据可视化概念和策略,以提高网络安全分析人员工作流程的速度和效率。为了实现这些目标,我们采用了虚拟和混合现实(VR/MR)工具来研究这些媒介是否能使 DCO 操作员进行有用的远程协作,以及立体可感知的 3D 数据可视化是否能使 DCO 操作员对其数据集获得更好的后见之明。使用联合服务 C5I-ISR 和 C2(指挥与控制)集成,实现新的全域作战联合作战概念。

要在传统战争领域取得成功,就必须了解信息环境,包括频谱、空间、网络领域以及它们之间流动的数据。信息时代的战争就是根据精确的数据做出决策并取得成功。快速分析环境和对手以做出更快决策的能力是成功的关键。有效沟通的能力是任何现代军事行动取得成功的关键。

这适用于每一个军种、任务和训练项目。现在,战斗力与有效的情报收集和传播在整个国防范围内同时使用,以决定任何冲突的结果。C5ISR 技术有助于识别和应对各种事件。由人工智能和云技术驱动的现代 C5ISR 系统有助于为前线人员提供关键数据。

武装部队希望在复杂、有争议和密集的城市环境中,以及在没有内置平民人口和基础设施的开放环境冲突中,能够在决策方面优于对手。因此,C5ISR 系统拥有各种工具,可提供必要的信息,以便在空中、陆地、海上和网络空间的复杂作战场景中开展指挥和控制行动。

图 4:不同环境下的 C5ISR,包括海、空、陆、赛博

C5ISR 系统整合作战层面接收到的信息,生成作战态势,管理计划、命令、报告,并在各级指挥部门之间传播信息。作战态势感知是所有现代大规模作战行动的基石。C5ISR 系统可无缝整合来自多个来源和传感器的大量信息,并在此基础上生成战场态势总览,以便及时做出正确决策。

图 5:各种作战场景中的 C5ISR 接口示例

C5ISR 可在战场上提供各种能力,对当前行动的结果产生积极影响。

表 4:C5ISR 系统支持作战行动的能力

C5ISR 系统除了具备各种能力外,还有许多在战场上有用的功能。C5ISR 系统通过其工具不断收集和分类数据,以便在整个行动期间进行决策。它还包含用于战略决策过程的工具,可以生成 “作战命令”(战斗/行动命令),并生成命令,确定要采取的行动、采取所有行动的时间以及采取这些行动的活动地理区域。除这些功能外,它还具有模拟和预测敌军可能做出的反应并提供应对提示的功能。

无人机集成 C5ISR 系统

Svendsen 在他的章节中提到了更广泛的目标获取和指挥、控制、通信和计算机以及网络方面的考虑--将其对 ISR 的评估扩展到了 ISTAR 和 C4ISR 企业。ISR 的领域在不断扩大和延伸,特别是在结构和文化上都出现了更大的创新运动,从单纯的 TPED(任务分配、处理、利用和传播)活动转向更多的以计算机速度实时执行的 “高科技情报企业”。

由于现在的技术飞跃越来越多地以商业市场的需求为基础,军事系统发现自己处于两种截然不同的技术适应速度中。然而,军事技术需要高性能的系统,因此必须将最新的高端技术集成到用于军事目的的技术和系统中。然而,开发、实施和维护这类系统的成本很高,但现代世界的军事行动却越来越广泛。这就需要一种防御能力更强的更现代化的通信系统,而 ISR 系统很容易提供这种能力。有鉴于此,设计、开发和实施 ISR 系统的初始成本较高,很可能会影响这些技术的进步和发展。因此,目前正在利用最先进的人工智能(AI)和云技术,专门开发符合上述条件的新一代 C5ISR 系统。先进的人工智能可以无休止地过滤海量数据,发现人类操作员可能忽略的趋势。

C5ISR 技术正在进行重大改革,有望提高检测率并缩短响应时间。借助人工智能的力量,指挥中心将能够处理比以往更多的信息。相应地,机器学习功能也得到了开发,可在大型异构数据集中发现模式,并提高指挥官在作战环境中使用的数据驱动决策工具的速度和准确性。此外,操作人员将能够专注于指导有效的事件响应,而不是识别不同的趋势,而现场团队也将能够借助改进的领域更轻松、更安全地应对事件。

基于以上所述,C5ISR 系统正常运行所需的物理世界相关数据(如地形、天气、弹药、敌军兵力、网络可用性等)可以通过使用无人飞行器以最简便的方式获取。此外,C5ISR 系统中与实际执行作战行动有关的关键要素也借助与无人飞行器的集成来执行,除了上述战场侦察外,还包括在无人飞行器上集成射击和导弹系统、通信和 C5ISR 系统正常运行所需的其他传感器。

图 6:C5ISR 无人机向地面单元提供实时反馈

C5ISR 系统集成了众多无人驾驶飞行器,从第一组的小型战术无人驾驶飞行器到第五组的大型无人驾驶飞行器,这取决于系统本身、目的和执行的作战任务类型。不过,大多数无人机的飞行速度相对较低,但 C5ISR 系统要求无人机长期运行,这样可以提高效率,加强对战场的控制,使系统有能力以最高水平完成所有任务。因此,必须根据系统和执行的任务,精心选择无人驾驶飞行器的技术和战术特点。

与 C5ISR 系统集成的无人飞行器使用推进器,有多种配置选项,包括集成武器和空对地导弹,用于火力支援或摧毁关键通信。此外,它们还必须支持 EO/IR 摄像机、合成孔径雷达设备等,以便成功侦察和监测作战行动过程,并收集必要信息,使 C5ISR 系统能够最有效地运作。虽然 C5ISR 系统依赖于卫星通信系统和卫星支持以及通信支持,但大多数纳入 C5ISR 系统的无人驾驶飞行器都配有通信中继包,以方便在为支持 C5ISR 系统而开展作战行动的战场上进行控制和通信。

成为VIP会员查看完整内容
37

人类能够通过规划、推理和预测行动结果,执行具有长期目标的复杂任务。为了让具身智能体(如机器人)实现类似的能力,它们必须获得可以迁移到新情境中的环境知识,并在有限的试错预算下学习。基于学习的方法,如深度强化学习,可以从数据中发现并利用应用领域的内在规律和特征,并不断提高其性能,但这通常需要大量的训练数据。本论文探讨了用于空间推理与规划任务的数据驱动技术的发展,重点在于提高学习效率、可解释性以及在新场景中的可迁移性。

本论文的主要贡献包括四个方面:

  1. CALVIN:一种微分规划器,能够学习可解释的世界模型用于长期规划。CALVIN成功地在部分可观测的三维环境中(如迷宫和室内房间)导航,通过从专家示范中学习奖励(目标和障碍)以及状态转换(机器人动力学)。

  2. SOAP:一种强化学习算法,用于无监督地发现长远任务的宏动作(选项)。选项将任务划分为子任务,并实现子任务的稳定执行。SOAP在基于历史条件的走廊任务以及经典基准(如Atari游戏)中表现出稳健的性能。

  3. LangProp:一个使用大型语言模型(LLM)进行代码优化的框架,通过将代码视为可学习的策略,解决具身智能体问题。该框架在CARLA自动驾驶基准中成功生成了具有可解释性的代码,其性能与人类专家编写的代码相当甚至更优。

  4. Voggite:一种具有视觉到动作的Transformer后台的具身智能体,它解决了Minecraft中的复杂任务。在MineRL BASALT竞赛中,Voggite通过识别动作触发点,将任务分割成多个阶段,获得了第三名。 这些进展为基于学习的方法在复杂的空间推理与规划挑战中的应用提供了新的途径。关键词:机器学习、神经网络、深度强化学习、模仿学习、层次化强化学习、策略优化、机器人技术、自动驾驶、具身智能体、选项发现、技能学习、导航、规划、计算机视觉、大型语言模型、多模态基础模型。1.1 动机人类具有在新环境中进行规划、推理和预测行动结果的能力,这是执行具有长期目标的复杂任务的显著能力。无论我们遇到的是新游戏、新运动还是新地点,尽管我们从未有过类似的具体经历,但我们仍然能够通过从先前的经验中推断出策略,利用可迁移的知识和技能。通过现代规划算法,如果环境动态(尤其是状态转换和奖励动态)是完全已知的,状态和动作是可枚举的,并且计算资源是无限的,那么找到接近最优的规划解决方案是可能的。然而,现实中这三个假设通常都不成立。智能体通常只能访问环境的局部或部分观测结果,必须根据这些结果来估计环境的状态和动态。状态和动作通常是连续的而非离散的,因此需要一个估计器将连续输入映射为有意义的表示,能够泛化到新输入。最后,由于计算资源有限,状态和动作的枚举通常是不可行的,因此需要一种高效的策略,在有限的计算资源和智能体生命周期内探索状态-动作空间。许多涉及战略决策的现实问题要求智能体学习到可以应用于新场景的环境知识,并在有限的试错预算下学习。设计一个能像人类一样在开放领域中达到同样水平的性能和效率的算法仍是一个未解的问题。例如,自动驾驶[251]仍然是一个正在进行的、未解决的研究领域,因为在多智能体问题环境中,动态环境的复杂性极高,同时存在信息不完美和传感器输入噪声的挑战。这与工业机器人形成鲜明对比,工业机器人已在可控、可预测且在很多情况下是完全已知的环境中有效运行了几十年。加上任务的重复性,这使得人类可以硬编码系统来处理常见的预期场景。马尔可夫决策过程(MDP)和强化学习(RL)是强大的框架,它们将决策过程形式化为一个可以通过数学定义的目标进行学习的问题[213]。这些框架捕捉了与环境交互的序列性和时间演化特性。神经网络的进展及其与RL的成功整合[138, 139, 201]改变了计算机视觉和机器人技术领域,催生了基于学习的方法来解决传统上通过人类手工实现的专家系统解决的问题。基于学习的方法有两个主要优势。首先,随着数据的增加,基于学习的算法可以不断改进和适应应用领域,而手动实现的方法是固定的,无法适应变化。其次,基于学习的方法能够自动发现应用领域的内在规律和特征,并利用它们来提高性能,而无需对这些策略进行硬编码。虽然RL在解决复杂战略问题方面非常有效[10, 12, 138, 202, 229],但样本效率和可泛化性仍然是需要解决的挑战。当前最先进的RL算法在已训练的任务或可以通过反应策略解决的任务中表现出色,但并没有显式学习易于迁移的技能[145, 162, 163, 174, 198]。与可以轻松获取样本的游戏或模拟任务不同,在现实世界中收集样本可能是昂贵的,甚至是不安全的。人类能够通过学习可迁移的知识和技能来绕过这些问题,从而通过更少的试错提高成功的几率,并避免灾难性失败(如从悬崖上掉下或被车撞)。本研究旨在提出获取技能的方法,使智能体能够更有效、更高效地执行任务。


1.2 研究目标本研究致力于解决涉及空间推理、规划和决策任务的挑战,以数据驱动的方式,同时提高学习的效率、可解释性和可迁移性。本研究目标可以进一步细分为五个具体的研究目标,详细描述如下。1.2.1 学习一个具有可泛化性的规划器本研究的核心目标之一是开发能够泛化到新场景的可学习规划器。反应性马尔可夫策略与具备计划的策略之间的区别在于,反应性策略根据当前状态或局部观测结果作出即时决策,而规划则涉及对给定情境的长期分析,以提出空间和时间上一致的解决方案。两种方法的区别类似于[106]中提出的系统1(快速、无意识、自动的决策)和系统2(缓慢、有意识、严格的决策)思维。两种决策过程都很重要,因为反应性策略对于实时决策非常有用,而规划对于确保所作决策的一致性和连贯性非常重要。例如,基于蒙特卡罗树搜索(MCTS)的算法[201, 202]在学习反应策略和长期规划之间交替进行;通过模拟蒙特卡罗树的回合[40]并反向传播返回值估计,反应性策略根据回合结果进行更新。尽管像围棋和模拟环境的动态是已知的,但对于许多现实世界问题却并非如此。基于模型的RL方法[75, 79, 190]通过学习环境模型来进行模拟回合,解决了这个问题。第3章探讨了相关的替代途径,学习一个可微分规划器,以解决在新环境中无法通过反应策略有效解决的导航任务。第5章提出了一种新的学习算法决策的范式,通过将代码视为可学习的策略,利用大型语言模型(LLMs)从数据中进行学习。通过使算法可学习,RL智能体之前难以掌握的高级和长期计划现在可以通过模仿学习(IL)和RL技术学习。此外,第4章和第6章展示了如何使用选项[166, 214]的时间抽象来帮助智能体做出明智的长期决策,这将在1.2.2节和1.2.3节中讨论。


1.2.2 发现可重复使用的技能技能学习是高效探索、决策和任务解决的另一个重要组成部分。通过技能,可以构思一个高层次的计划,将低层次的技能策略结合起来并协调执行。这些技能专门解决任务的子集,因此智能体可以通过组合这些技能,从更少的训练样本中学习解决复杂的新任务。在第4章中探讨了这些技能如何通过无监督方式学习,使用来自环境的奖励作为学习信号。智能体轨迹被分割为与技能相关的子策略选项[166, 214]。


1.2.3 使用带有记忆增强的策略解决POMDP环境与1.2.2节相关,选项不仅可以用来学习技能,还可以用于学习时间一致的行为。它作为一个离散的潜变量携带前进的记忆,使得智能体能够在部分可观测马尔可夫决策过程(POMDP)环境中执行任务,在这种环境中,仅通过当前的观测结果无法确定环境的底层状态。通过维护智能体轨迹的历史,可以更好地确定真实的环境状态,因为过去的观测结果通常与未来的观测结果通过隐藏变量相关联。第4章检验了不同训练目标的算法发现选项的有效性和鲁棒性,展示了所提出的解决方案相对于经典的递归策略和Option-Critic策略[9, 111]的优势。在第6章中,技能和轨迹分割的概念被用于使智能体在任务完成的不同阶段改变其策略。将复杂任务分解为子任务并按阶段执行,使智能体能够执行与高层计划一致的时间一致行为。


1.2.4 解释专家和智能体的行为本研究的另一个主题是解释所学习的策略。上面讨论的技能学习是确保更好解释性的一种方法,因为选项以语义上可解释的方式对智能体轨迹进行分割。第3章探讨了可解释性的另一种方法:一个可微分的规划器通过专家演示的机器人导航轨迹学习目标、障碍物和运动动力学。它还在决策过程中计算奖励图和价值图,类似于逆强化学习(IRL)[6, 148, 260, 261]。在第5章中,提出了一种将策略明确表示为人类可读代码的更显式方法。策略性能问题可以直接通过阅读代码进行诊断,使这种方法成为解释性人工智能(AI)研究中的有价值技术。


1.2.5 训练具身智能体执行复杂任务最后,本研究的目标是将所开发的技术应用于具身智能体相关的问题,例如机器人技术。在第3章、第5章和第6章中,分别解决了机器人导航、自动驾驶以及在虚拟世界Minecraft[208]中的任务执行的挑战。这些挑战都有导航和空间推理作为完成任务的关键要素。导航是一个传统上通过专家设计的系统解决的现实问题,但可以通过利用数据驱动的学习来提高效率。例如,车道变换和与其他车辆合作是自动驾驶车辆的任务,要求复杂的规划。由于人类合作行为难以建模,特别是在存在多重因素和微妙线索的情况下,这个问题变得尤为复杂,而且并不总是有确定的策略可遵循。从现实世界数据中学习合作行为可以有助于优化这些任务。


1.3 主要贡献本论文的贡献可以总结如下:

  1. 开发了一个名为CALVIN的可微分规划器(Collision Avoidance Long-term Value Iteration Network),通过执行可微分的值迭代来学习在未知的3D环境中导航。状态转换和奖励模型是从专家演示中学习的,类似于值迭代网络(VIN)。然而,VIN难以惩罚导致与障碍物和墙体碰撞的无效动作,导致值估计不准确。CALVIN通过学习动作承受度来约束智能体的转换和奖励,从而解决了这个问题。CALVIN能够在新颖的2D和3D环境中导航,并显著优于其他基于VIN的可学习规划器。该工作已在2022年IEEE/CVF计算机视觉与模式识别会议(CVPR)上发表[97]。详细内容见第3章。
  2. 基于对选项框架和前向-后向算法[14]的分析,开发了算法来学习时间一致的选项及其相关的子策略,以解决需要长期记忆的POMDP任务。提出并研究了两种无监督选项发现的学习目标:通过期望最大化的近端策略优化(PPOEM)和顺序选项优势传播(SOAP)。PPOEM应用前向-后向算法[14]优化选项增强策略的期望回报。然而,研究表明,在没有未来轨迹知识的情况下,这种学习方法在学习因果策略时是不稳定的,因为选项分配是针对整个回合进行优化的。作为一种替代方法,SOAP评估了最优选项分配的策略梯度。它扩展了广义优势估计(GAE)的概念,通过时间传播选项的优势,相当于对选项策略梯度执行时间反向传播。使用这种方法,选项策略仅依赖于智能体的历史记录。与竞争基准相比,SOAP表现出最强的鲁棒性,正确发现了POMDP走廊环境中的选项,以及标准基准中的Atari[16]和MuJoCo[222]。该论文已在arXiv上发表[98]。详情见第4章。
  3. 提出了LangProp框架,用于迭代优化由LLMs生成的代码。LangProp自动评估代码在输入-输出数据集上的表现,捕获任何异常,并将结果反馈给LLM训练循环,使LLM能够迭代改进其生成的代码。LangProp训练模块可以在监督学习和强化学习设置中使用。LangProp成功解决了Sudoku和CartPole问题,并生成了驾驶代码,其性能与CARLA驾驶基准[48]中的人类实现的专家系统相当或更优。LangProp能够生成可解释且透明的策略,可以通过度量和数据驱动的方式进行验证和改进。该工作已在2024年国际学习表征会议(ICLR)LLM智能体研讨会上接受[100]。该工作是在Wayve Technologies实习期间进行的。详情见第5章。
  4. 开发了Voggite,一个在Minecraft开放式虚拟世界中执行任务的具身智能体。Voggite以OpenAI的视频预训练(VPT)[12]为主干,一个基于Transformer的智能体,经过在线视频的监督逆动力学模型(IDM)标注进行预训练。VPT策略接受128帧的过去观测结果,相当于6.4秒的历史。虽然VPT智能体在许多反应性任务中表现有效,但在任务执行的不同阶段上难以区分。Voggite通过将任务分为不同阶段解决了这一问题。Voggite在2022年NeurIPS MineRL BASALT竞赛中的63支队伍中获得了第三名。竞赛要求智能体在Minecraft中寻找洞穴并建造瀑布、农场和建筑物。合作撰写的比赛回顾文章已在arXiv上发布[136]。详情见第6章。 未包含在本论文中的工作:“你吃什么就是什么?给基础模型喂食来自全球各地菜肴的区域性多样食品数据集”[132]。

成为VIP会员查看完整内容
37
登陆后查看更多精品内容
VIP会员
本周荟萃主题
区块链
区块链(Blockchain)是由节点参与的分布式数据库系统,它的特点是不可更改,不可伪造,也可以将其理解为账簿系统(ledger)。它是比特币的一个重要概念,完整比特币区块链的副本,记录了其代币(token)的每一笔交易。通过这些信息,我们可以找到每一个地址,在历史上任何一点所拥有的价值。
深度学习
机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。
机器学习
“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科
强化学习
强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。
推荐系统
推荐系统,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
卷积神经网络
在深度学习中,卷积神经网络(CNN或ConvNet)是一类深度神经网络,最常用于分析视觉图像。基于它们的共享权重架构和平移不变性特征,它们也被称为位移不变或空间不变的人工神经网络(SIANN)。它们在图像和视频识别,推荐系统,图像分类,医学图像分析,自然语言处理,和财务时间序列中都有应用。
计算机网络
计算机网络( Computer Networks )指将地理位置不同的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。
命名实体识别
命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。
机器翻译
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
计算机视觉
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
微信扫码咨询专知VIP会员