本报告由来自美国陆军研究实验室、美国国防情报局、美国国家地理空间情报局(NGA)、英国国防部国防科学技术实验室(Dstl)、加拿大国防研究与发展部、德国弗劳恩霍夫FKIE研究所等多个单位联合撰写。介绍了北约信息系统技术(IST)探索小组111(ET-111)的调查结果。成立ET-111是为了在北约各国之间分享对知识表示和推理(KRR)现状的理解,以了解技术现状并考虑未来的合作活动是否有益。

为了支持高水平的数据融合,当下有一个基础性的需求,即信息和知识要能被人类和机器理解。知识表示是将知识以计算机可操作的形式表达出来,以便对其进行利用。这样做的一个关键原因是,知识可以被推理。基于知识的系统也可能被称为符号人工智能和基于规则的人工智能,并且在过去50多年里一直是一个活跃的研究领域。因此,它可能被一些人认为是 "老派 "的人工智能,与近年来日益突出的基于算法和机器学习的人工智能方法不同(众所周知,后者存在可解释性和概括性问题)。在 "大数据 "时代,知识表示和推理为利用灵活、可解释和基于人类知识的数据提供了一个途径。

这篇综述的第一个目的是为知识表示和推理领域提供一个技术介绍。为读者提供关键概念的知识--以培养理解力--将使人们能够欣赏到知识系统的能力。第二个目的是通过实例,提供对创建知识系统过程的掌握,以及如何在军事背景下使用这种系统来解决现实世界问题。对知识系统最适用的现实世界问题的理解,有助于成功实施KRR并将其与北约系统和理论相结合

在这份报告中,我们首先讨论了北约成员国面临的一些挑战,以及北约的知识表示和推理可能会对这些领域产生的影响。然后,我们对知识表示、知识工程和推理方法的技术方面做了一个总结。我们讨论了知识表示的具体例子,如MIP信息模型(MIM)、富事件本体(REO)、OPIS和国防情报核心本体(DICO)。我们还描述了WISDOM研发平台和智能态势感知(INSANE)框架,作为使用知识表示来支持感知的例子

随后,我们回顾了更广泛的研究,包括文本分析如何支持从报告和其他来源的文本中提取知识,关于因果关系的工作以及推理系统中的可解释性和信任问题。

最后,我们总结了报告的结论和对北约联盟的影响,提出了进一步工作的主要建议:

  • 建议1--北约科技组织应赞助一项技术活动,以展示符号和亚符号方法的互补使用及其对改善决策的益处。

  • 建议2--北约科技组织应赞助一个虚拟系列讲座/研讨会,以提高北约科学和业务部门对KRR技术的认识,从而为该领域的进一步技能发展提供催化作用。

  • 建议3--北约科技组织应赞助一个专门的探索小组,考虑因果模型的具体兴趣,以及它在基于知识的系统中的应用,作为未来在诸如建议1活动下进行实际演示的先导。

报告目录

  • 第1章 - 导言
    • 1.1 "战争"中的信息
    • 1.2 理解和信息融合
    • 1.3 知识表示和推理的作用
    • 1.4 IST-ET-111的宗旨和目标
    • 1.5 本报告的方法和结构
    • 1.6 参考文献
  • 第2章 - 知识表示和推理的核心概念
    • 2.1 引言
    • 2.2 知识、知识系统的定义
    • 2.3 专业知识和知识工程
    • 2.4 推测和推理
    • 2.5 知识图谱
    • 2.6 语义启用和互操作性
    • 2.7 不确定性管理
    • 2.8 符号化与亚符号化的方法
    • 2.9 总结
    • 2.10 参考文献
  • 第3章 - 实现知识表示和推理
    • 3.1 集成、互操作性和信息共享的本体论
    • 3.2 W3C语义网栈
    • 3.3 案例研究
      • 3.3.1 构建领域本体--DICO开发过程、设计原则和最佳实践
      • 3.3.2 实践中的知识表示和推理WISDOM研发平台
      • 3.3.3 相关性过滤、信息聚合和充实 智能态势感知框架
      • 3.3.4 在英国、"五眼"防务和安全社区内交换信息--英国国际信息交流中心的信息交流标准
    • 3.4 实施基于知识的系统的机遇和挑战
      • 3.4.1 讨论共同关心的问题
        • 3.4.1.1 我是否真的应该关心,ML方法是否能提供这一切?
        • 3.4.1.2 有了新的技术,这不就导致了新的复杂性吗?
        • 3.4.1.3 KR方法是稳健的吗?
        • 3.4.1.4 是否需要专家技能和专业知识?
      • 3.4.2 知识表示和推理方法的优势和劣势
    • 3.5 总结
    • 3.6 参考文献
  • 第4章 - 当前知识表示和推理的研究主题
    • 4.1 多模态知识表示--处理文本、图像和其他问题
      • 4.1.1 文本分析的符号化方法
      • 4.1.2 文本的矢量空间模型
      • 4.1.3 文本分析的向量空间和知识基础相结合的方法
      • 4.1.4 文本和图像的联合建模
    • 4.2 人类交互的考虑因素--自然语言交互
      • 4.2.1 对话系统
      • 4.2.2 自然语言的语义表述
      • 4.2.3 言语行为和对话
    • 4.3 因果关系和因果模型
      • 4.3.1 自然语言处理中的因果关系
    • 4.4 推断中的可解释性和信任
    • 4.5 总结、展望和开放的挑战
    • 4.6 参考文献
  • 第5章 - 结论和对未来技术提案的建议
    • 5.1 结论 - KRR方法的机会
    • 5.2 结论--对基础技能和专业知识的需求
    • 5.3 结论--当前的研究主题
    • 5.4 建议
  • 附件A--相关的NATO STO活动
  • 附件B - MIP信息模型和富事件本体论
    • B.1.1 MIP信息模型(MIM)
    • B.2.1 富事件本体论(REO)--事件表示的本体论枢纽
    • B.3.1 参考文献
  • 附件C - 国防情报核心本体(DICO)
    • C.1.1 DICO开发过程、设计原则和最佳实践
      • C.1.1.1 独特的识别实体
      • C.1.1.2 本体实体和DICO实体类别
    • C.2.1 参考文献
  • 附件D--实践中的知识表示和推理--WISDOM研发平台
    • D.1.1 WISDOM研发平台
    • D.2.1 WISDOM数据策略
      • D.2.1.1 WISDOM研发平台的自动推理能力
    • D.3.1 参考文献
  • 附件E - 不确定性管理
    • E.1.1 不确定性类型学/分类法
    • E.2.1 什么是不确定性?
    • E.3.1 不确定性管理的形式主义
    • E.4.1 参考文献
  • 附件F - 作者简历

报告导言

1.1 "战争"中的信息

随着传感器、性能、反馈和其他数据数量的不断增加,国防面临的最紧迫的挑战之一是可靠地、快速地筛选、融合最相关的观察和信息并采取作战行动的能力。信息的重要性体现在北约的所有战略重点中[2]。俄罗斯对欧洲-大西洋安全的威胁是基于旨在破坏战略关系(如欧盟、北约等)的虚假信息;打击一切形式和表现的恐怖主义,现在的前提是能够将机密和公开来源的材料联系起来,以确定可以采取行动的联系和行为;网络威胁主要是在信息空间进行的。

北约对联盟地面监视(AGS)系统的收购代表了北约在支持其未来行动中提供丰富数据馈送的能力的重大提升[3]。但是,在英国的 "信息优势 "等概念中,人们认识到,现在只有通过及时和有效地融合这些数据馈送,才能实现真正的优势。

当然,处理信息过载的挑战并不限于国防领域。金融、广告和工程等领域,都在抓住机遇,改善决策,瞄准服务,提高新解决方案的交付速度。近年来,应用机器学习(ML)方法应对这些挑战的潜力已经引起了公众、投资者和世界各地高层领导人的注意。因此,这样的ML方法正在展示其应对防御挑战的潜力,包括图像和视频资料中的物体检测和标记、提取实体和关系的文本分析以及语音检测和翻译。在计算能力、数据可用性和计算框架的重大突破基础上,对数据和人工智能的兴趣将大大增加。

因此,防御能力将越来越能够处理最关键的信息流,节省分析员的时间,提高他们快速发展和保持态势感知的能力。然而,由于人类分析员的注意力也被持续竞争时期的操作和作战活动所牵制[5],仍然需要不断提高他们在多个领域连接细微但重要的观察的能力。例如,随着作战寻求常规的全频谱效应,物理、社会和网络领域之间观察的相互联系将越来越重要,但如果没有其他能力支持,这种联系可能不容易被发现。重要的是,将这些观察结果与过去的知识、相关人员的固有专长以及之前的经验联系起来是至关重要的。

1.2 理解和信息融合

复杂性一直存在于自然和生物领域中。然而,随着科学和技术的进步,人类现在有能力制造出其复杂性接近生命本身的人工制品。有必要使用先进的方法来处理这种复杂性。

这种复杂性源于数据的速度、密度和空间范围的巨大增长,以及不断增加的各种元素之间的耦合,其中一些是自然的,而许多是合成的。防御的一个核心挑战是应对复杂情况的方法。我们面临着技术的快速发展,提供了更多的数据、信息和能力,同时也面临着具有挑战性的地形,如城市环境和涉及叛乱分子、混合人口、非政府组织的 "人类地形"。这些复杂的情况实际上比以往任何时候都更需要及时的决策来战胜威胁,而决策的质量将始终与对情况的理解程度密切相关。这种理解力受到如此快速的行动和技术变化的挑战,需要新的方法来更好、更快地分解复杂的情况。虽然人类的思维方式仍然深深扎根于经典的还原论概念,即通过将问题分解为子问题来解决,但现在人们认识到,以有效的方式接近复杂性不能脱离还原论方法。

诸如英国的 "信息优势"[6]等国家概念试图催化信息在国防行动中的作用,强调必须进行创新,否则就有可能 "枯萎"并跟不上对手的步伐。美国的 "用机器增强情报"(AIM)倡议[7]也提供了一个战略观点,强调了AI和ML在未来情报能力中的作用。对于IST-ET-111来说,AIM倡议特别强调了代表知识方面的基础研究进展。

多年来,JDL融合模型[8]对实现低层和高层数据融合的技术挑战进行了很好的定义。然而,全面的解决方案,特别是高层的数据融合,仍然缺乏,而且是不断研究和开发的主题。

信息融合的挑战几乎延伸到国防的所有方面,从后勤到人员管理、平台维护和医疗。然而,在北约背景下,重点是联盟行动,如在阿富汗的行动,考虑实现态势感知以支持指挥与控制(C2)和情报功能的挑战也许是最贴切的。这些活动的特点是需要:

  • 将主要观察结果和不太明显的信息和知识结合起来(硬/软融合)。
  • 汇集来自多个领域的信息,而且往往是多种分类的信息。
  • 在有限的信息基础上快速做出决定;
  • 处理不确定性、模糊性和不断变化的信息。

C2和情报活动产出的主要作者和消费者是人类分析员和作战人员,但随着北约部队更多地使用自动化和自主系统,机器在支持、增强和利用基础态势感知和高层融合活动中的作用将越来越重要,需要考虑。

1.3 知识表示和推理的作用

为了支持这种高层的融合,现在有一个基本的需求,即信息和知识要能被人类和机器理解。通过这样做,就有可能应用机器推理(推测)方法,将规则和形式逻辑应用于现有数据,以提供更高层次的推理。知识表示是将知识以计算机可操作的形式表达出来,以便对其进行利用。这样做的一个关键但不是唯一的原因是,知识可以被推理。基于知识的系统也被称为符号人工智能和基于规则的人工智能,并且在过去五十多年里一直是一个活跃的研究领域。

知识表示和对这些知识进行推理的愿望是北约七个新兴和颠覆性技术(EDTs)中三个的核心:数据、人工智能和自主性,其中每一个都重叠并支持另一个[9]。

当然,正是最近对 "机器学习"(也被称为亚符号)方法的兴趣,专注于神经网络等计算方法,一直处于公众对人工智能叙述的最前沿,经常看到ML和AI这两个术语被交替使用。这类系统已经在多种应用中证明了其价值,如产品推荐系统、交通模式的预测和贷款审批。使用ML来支持基于内容的多种数据类型(图像、视频、文本和社交媒体)的分析是现已完成的IST-RTG-144(多内容分析)的核心兴趣。该小组清楚地展示了对单模态进行分析的潜力,以及在更广泛的情报周期内结合这些分析的机会,但它没有考虑自动/半自动融合或针对观察结果进行推理,以支持高水平融合的目标。

ML方法通常利用大量的数据来开发模型,将输出与输入联系起来。对于某些类别的任务,如图像标记,ML是一种行之有效的应用,但即使是人工智能系统的领导者也很谨慎,甚至对它的成功持批评态度[10]。用ML方法表示和包含知识(所谓的神经符号方法)可能是提高未来解决方案的稳健性和性能的一个潜在步骤。

因此,实现这一目标的基本步骤是建立有效的知识表示(符号表示),可以被未来的混合系统所使用。符号方法可能更善于处理稀疏的数据,支持增强的可解释性并纳入过去的人类知识,并使用擅长模式识别和数据聚类/分类问题的计算方法。然而,如果这些方法/技术要支持未来的联盟行动,就需要联合起来努力。这包括

  • 开发特定领域的本体论(为特定领域定义的词汇表)。

  • 部署和评估推理能力。

  • 为事件驱动的处理建立有效的架构。

  • 处理观测中的不确定性和模糊性。

  • 信息共享和观测数据来源。

  • 联合部署和应对规模问题的方法。

1.4 IST-ET-111的宗旨和目标

正是在这种情况下,北约IST-ET-111 "知识表示和推理 "被提出来,目的是汇集北约伙伴对KRR现状的理解,以了解技术现状并考虑未来是否需要开展活动。

通过建立技术现状和北约国家的技术能力,IST-ET-111团队希望这份报告能够支持围绕实现有效的人机团队的最有效方法进行对话。探索小组的建立也是确定如何利用其他北约国家的科学和技术活动来获得近期和长期的业务利益的一个步骤。

最终,我们预计KRR的有效使用会带来以下结果:

  • 更快的决策,以保持在潜在对手的OODA循环中。
  • 更强大的人工智能系统能够处理新的信息和处理不确定性。
  • 透明的系统,提供充分理解和可评估的输出。
  • 随着工作人员在行动中的轮换或行动的结束,保留专题知识,但随后允许更迅速地建立先验能力。
  • 大幅提高利用和辨别现有数据知识的能力。

1.5 本报告的方法和结构

本报告针对的是更广泛的北约STO社区和国家代表,他们

  • 可能需要领导技术变革举措,并可能从在军事背景下使用KRR方法和手段中受益。

  • 需要实施新的解决方案以更好地利用信息和知识;

  • 可能拥有ML方面的专业知识,并正在寻求其他方法来提高结果的稳健性和可解释性。

首先,本报告关注知识表示的核心概念(第2章),认识到利用基于知识的方法的第一步是拥有表示知识的手段,然后才是对知识进行推理的方法,或者换句话说,从我们已经知道的知识中推导出新知识的方法。然后,报告转向实施KRR方法的问题(第3章),用具体的例子来说明其中的问题。最后,对活跃的研究主题进行了简短的讨论(第4章),并提出结论和建议(第5章)

成为VIP会员查看完整内容
135
0

CVPR 2022 线下会议将于 2022 年 6 月 21 日-24 日在美国新奥尔良举行。而今年投稿量创新高超过了一万,其中 2067 篇论文被接收。各位学者带来了一系列教程。来自卡内基梅隆大学研究学者讲述了《多模态机器学习》教程,200+页ppt值得关注。

多模态机器学习是一个充满活力的多学科研究领域,通过设计计算机agent来实现人工智能的一些原始目标,这些计算机agent能够通过集成和建模多种通信模态(包括语言、声学和视觉信息)来展示智能能力,如理解、推理和规划。随着视听语音识别的初步研究,以及最近的语言和视觉项目,如图像和视频字幕、视觉问题回答和语言引导强化学习,该研究领域给多模态研究人员带来了一些独特的挑战,因为数据的异质性和通常发现的模态之间的偶然性。

本教程建立在卡内基梅隆大学教授的多模态机器学习年度课程的基础上,是CVPR、ACL和ICMI会议上多模态学习以前教程的一个完全修订版本。本教程基于多模态机器学习中存在的核心技术挑战的修订分类,围绕这六个核心挑战: 表示、对齐、推理、迁移、生成和量化。最近的技术成果将通过这种多模态核心挑战的分类法来展示,使研究人员能够理解方法和新模型之间的相似性和差异性。本教程还旨在对多模态机器学习的未来研究方向提供一个视角。

https://cmu-multicomp-lab.github.io/mmml-tutorial/cvpr2022/

讲者:

目录内容:

1. 介绍

  • 什么是多模态?定义,异质性的维度和跨模态的相互作用。
  • 历史观与多模态研究任务。
  • 核心技术挑战: 表示、对齐、转移、推理、生成和量化。
  • 单模态语言、视觉和听觉表征。

2. 表示

  • 表示融合: 融合策略,多模态自编码器。
  • 表示协调: 对比学习,向量空间模型,典型相关分析。
  • 表象裂变: 因式分解、成分分析、解缠。

3. 对齐

  • 粒度: 分割、聚类、单元定义。
  • 对应: 潜在对齐方法,注意力模型,多模态transformers。
  • 依存类型: 图神经网络,多实例学习。

4. 推理

  • 结构: 层次结构、图形结构、时序结构和交互结构、结构发现。
  • 概念: 密集和神经象征。
  • 构成: 因果关系和逻辑关系。
  • 知识: 外部知识基础,常识推理。

5. 生成

  • 总结、翻译、创作。
  • 模型评估和伦理问题。

6. 迁移

  • 模态转移: 损失,幻觉,跨模态转移。
  • 基础模型:预训练模型和适应。
  • 模型归纳:协同训练,跨模式学习。

7. 量化

输出质量:泛化、鲁棒性、复杂性。 内部机制:可解释性,理解跨模型交互。 模态权衡: 数据集偏差、社会偏差、理论收益、优化挑战。

成为VIP会员查看完整内容
115
0

因果性是现在机器学习关注的焦点之一。伦敦大学学院和牛津大学的学者发布了《因果机器学习》综述,非常值得关注!

因果机器学习(CausalML)是将数据生成过程形式化为结构因果模型(SCM)的机器学习方法的总称。这使得人们可以对这一过程的变化的影响(即干预)和事后会发生什么(即反事实)进行推理。根据他们所解决的问题,我们将CausalML中的工作分为五组:(1)因果监督学习,(2) 因果生成模型,(3) 因果解释,(4) 因果公平,(5) 因果强化学习。对每一类方法进行了系统的比较,并指出了有待解决的问题。此外,我们回顾了特定模式在计算机视觉、自然语言处理和图形表示学习中的应用。最后,我们提供了因果基准的概述,并对这一新兴领域的状态进行了批判性的讨论,包括对未来工作的建议。

引言

机器学习(ML)技术今天擅长在独立和同分布(i.i.d)数据中寻找关联。一些基本原则,包括经验风险最小化、反向传播和架构设计中的归纳偏差,已经为解决计算机视觉、自然语言处理、图表示学习和强化学习等领域的问题带来了巨大的进步。然而,在将这些模型部署到现实环境中时,出现了新的挑战。这些挑战包括: (1) 当数据分布转移[1]时泛化性能大幅下降,(2) 生成模型[2]样本缺乏细粒度控制,(3) 有偏见的预测强化了某些子种群的不公平歧视[3,4],(4) 可解释性[5]的概念过于抽象和问题独立,(5)强化学习方法对真实世界问题[6]的不稳定转换。

许多工作认为,这些问题的部分原因在于现代ML系统缺乏因果形式主义[7,8,9,10,11]。随后,研究社区对因果机器学习(CausalML)的兴趣激增,这是利用关于被建模系统的因果知识的方法本调查涵盖了因果关系如何被用来解决开放式ML问题。简而言之,因果推理提供了一种语言,通过结构因果模型(SCMs)[12]将关于数据生成过程(DGP)的结构知识形式化。使用SCM,我们可以估计在对数据生成过程进行更改(称为干预)后,数据会发生什么变化。更进一步,它们还允许我们在事后模拟变化的后果,同时考虑实际发生的情况(称为反事实)。我们将在第2章中更详细地介绍这些概念,假设没有因果关系的先验知识。

尽管在设计各种类型的CausalML算法方面做了大量的工作,但仍然缺乏对其问题和方法论的明确分类。我们认为,部分原因在于CausalML通常涉及对大部分ML不熟悉的数据的假设,这些假设在不同的问题设置之间联系起来通常很棘手,这使得很难衡量进展和适用性。这些问题是本次综述的动机。

**1. 我们对完全独立的因果关系中的关键概念进行了简单的介绍(第2章)。**我们不假设对因果关系有任何先验知识。在整个过程中,我们给出了如何应用这些概念来帮助进一步的地面直觉的例子。

2. 我们将现有的CausalML工作分类为因果监督学习(第3章)、因果生成模型(第4章)、因果解释(第5章)、因果公平(第6章)、因果强化学习(第7章)。对于每个问题类,我们比较现有的方法,并指出未来工作的途径。

3.我们回顾了特定模式在计算机视觉、自然语言处理和图表示学习中的应用(第8章),以及因果基准(第9章)。

4. 我们讨论了好的、坏的和丑陋的:我们关于与非因果ML方法相比,因果ML可以给我们带来哪些好处的观点(好的),人们必须为这些方法付出什么代价(坏的),以及我们警告从业者要防范哪些风险(丑陋的)(第10章)

结论发现**

  • 因果推理(第二章),与统计或概率推理相反,允许我们对介入和反事实的估计进行推理。
  • 因果监督学习(第3章)通过学习不变特征或机制来改进预测泛化,两者都旨在消除模型对虚假关联的依赖。未来的工作应该研究学习不变性的目标基准测试、对抗鲁棒性的联系以及元学习,以及额外监督信号的潜在利用。
  • 因果生成模型(第4章)支持从介入的或反事实的分布中采样,自然地分别执行原则可控的生成或样本编辑任务。所有现有的方法都学习结构作业;一些人还从数据中推断出因果结构。对于不同的应用程序应该考虑什么层次的抽象,如何将分配学习扩展到更大的图,以及反事实生成的数据增强何时有效(何时无效),这些都有待探索。
  • 因果解释(第5章)解释模型预测,同时解释模型机制或数据生成过程的因果结构。方法可以分为特征归因(量化输入特征的因果影响)和对比解释(表示获得期望结果的改变实例)。到目前为止,还不清楚如何最好地统一这两类方法,扩大解释范围,使它们对分布转移具有鲁棒性,对攻击者安全和私有,以及如何规避不可避免的对追索敏感性的鲁棒性权衡。
  • 因果公平(第6章)为评估模型的公平性以及减轻潜在数据因果关系的有害差异的标准铺平了道路。该标准依赖于反事实或介入性分布。未来的工作应该阐明在标准预测设置之外的平等、公平、较弱的可观察性假设(例如隐藏的混淆)以及对社会类别的干预主义观点的有效性。
  • 因果强化学习(第7章)描述了考虑决策环境的显性因果结构的RL方法。我们将这些方法分为7类,并观察到它们比非因果方法的好处包括反发现(导致更好的泛化)、内在奖励和数据效率。开放的问题表明,一些形式主义可能是统一的,离线数据的反发现在离线RL部分很大程度上没有解决,而代理根据反事实做出的决定可能会提供进一步的好处。
  • 模态-应用:我们回顾了之前介绍的和模态特定原则如何提供机会来改善计算机视觉、自然语言处理和图形表示学习设置。
成为VIP会员查看完整内容
96
0

https://nostarch.com/math-deep-learning

深度学习无处不在,这使得AI的强大驱动力成为更多STEM专业人士需要了解的东西。学习使用哪个库命令是一回事,但要真正理解这一原则,您需要掌握使之正确的数学概念。本书将为您提供概率论、统计学、线性代数和微分学等主题的工作知识,这些是使深度学习易于理解的基本数学知识,也是成功练习深度学习的关键。 这四个子领域中的每一个都与Python代码和实际操作的示例相关联,这些示例弥合了纯数学及其在深度学习中的应用之间的差距。章节建立在彼此的基础上,基本的主题,如贝叶斯定理,然后是更高级的概念,如使用向量、矩阵和函数的导数训练神经网络。在探索和实现深度学习算法时,您将最终使用所有这些数学知识,包括反向传播和梯度下降——这些基本算法使AI革命成为可能。 你将学习:

  • 概率规则,概率分布,贝叶斯概率
  • 使用统计数据来理解数据集和评估模型
  • 如何操作向量和矩阵,并利用它们在神经网络中移动数据
  • 如何用线性代数实现主成分分析和奇异值分解
  • 如何应用改进版本的梯度下降,如RMSprop, Adagrad和Adadelta
  • 一旦你通过AI编程的镜头理解了本书中呈现的核心数学概念,你就会有基础的知识来轻松跟随和使用深度学习。

目录内容:

Introduction Chapter 1: Setting the Stage Chapter 2: Probability Chapter 3: More Probability Chapter 4: Statistics Chapter 5: Linear Algebra Chapter 6: More Linear Algebra Chapter 7: Differential Calculus Chapter 8: Matrix Calculus Chapter 9: Data Flow in Neural Networks Chapter 10: Backpropagation Chapter 11: Gradient Descent Appendix: Going Further View the Copyright page

View the detailed Table of Contents

View the Index

成为VIP会员查看完整内容
88
0

【导读】Transformer是当下流行的模型。牛津大学等学者发布首篇《Transformer多模态学习》综述论文,23页pdf涵盖310篇文献全面阐述MMT的理论与应用。

Transformer是一种很有前途的神经网络学习器,在各种机器学习任务中都取得了很大的成功。随着近年来多模态应用和大数据的普及,基于Transformer 的多模态学习已成为人工智能研究的热点。本文介绍了面向多模态数据的Transformer 技术的全面综述。本次综述的主要内容包括:(1)多模态学习、Transformer 生态系统和多模态大数据时代的背景,(2)从几何拓扑的角度对Vanilla Transformer、Vision Transformer和多模态Transformer 进行理论回顾,(3)通过两个重要的范式,即多模态预训练和具体的多模态任务,对多模态Transformer 的应用进行回顾。(4)多模态Transformer 模型和应用共享的共同挑战和设计的总结,以及(5)对社区的开放问题和潜在研究方向的讨论。

https://www.zhuanzhi.ai/paper/0da69832c8fd261e9badec8449f6fe80

人工智能(AI)的最初灵感是模仿人类的感知,如视觉、听觉、触觉、嗅觉。通常情况下,一个模态通常与创建独特通信通道的特定传感器相关联,例如视觉和语言[1]。对于人类来说,我们感官感知的一个基本机制是,为了在动态的、不受约束的环境下恰当地参与世界,我们能够共同利用多种感知数据模式,每一种模式都是具有不同统计特性的独特信息源。例如,一幅图像通过数千个像素给出了“大象在水中玩耍”场景的视觉外观,而相应的文本则用一个使用离散单词的句子描述了这一时刻。从根本上说,多模态人工智能系统需要摄取、解释和推理多模态信息源,以实现类似人类水平的感知能力。多模态学习(MML)是一种构建人工智能模型的通用方法,可以从多模态数据[1]中提取和关联信息。

本综述聚焦于使用Transformers[2]进行多模态学习(如图1所示),其灵感来自于它们在建模不同模态(例如,语言、视觉、听觉)和任务(例如,语言翻译、图像识别、语音识别)方面的内在优势和可扩展性,并且使用较少的模态特定架构假设(例如,翻译不变性和视觉中的局部网格注意偏差)[3]。具体地说,Transformer的输入可以包含一个或多个令牌序列,以及每个序列的属性(例如,形态标签、顺序),自然地允许在不修改架构的情况下使用MML[4]。此外,学习每模态特异性和多模态相关性可以简单地通过控制自注意力的输入模式来实现。关键的是,最近在不同学科探索Transformer架构的研究尝试和活动激增,导致近年来开发了大量新颖的MML方法,以及在[4]、[5]、[6]、[7]、[8]等不同领域取得了显著和多样的进展。这就需要对具有代表性的研究方法进行及时的回顾和总结,以使研究人员能够理解MML领域各相关学科的全局图景,更重要的是能够获得当前研究成果和主要挑战的整体结构图。

为了提高不同学科之间的可读性和可达性,本文采用了一种两层的结构化分类法,分别基于应用维度和挑战维度。这有几个好处:(1)在特定应用领域具有专长的研究人员可以在连接到其他相关领域之前找到适合自己研究领域的应用。(2)将不同领域发展的相似模型设计和体系结构归纳在一个抽象的、公式驱动的视角下,使不同应用中形成的各种模型的数学思想在共同点上相互关联和对比,跨越特定领域的限制。至关重要的是,我们的分类法提供了一个有趣的立体视角,个人作品在应用特异性和配方普遍性的见解。希望这有助于打破领域界限,促进更有效的理念沟通和跨模式交流。通过使用提示建模策略[9]作为研究的基础,我们还包括了经典的分类问题(例如图像分类)——通常被认为是传统MML综述中的单一模态学习应用——[1],[10],[11]——作为特殊的MML应用。

本综述将讨论Transformer架构的多模态具体设计,包括但不限于以下几种模态:RGB图像[5],深度图像[13],视频[7],音频/语音/音乐[13],[14],[15],表[16],场景图/布局[17],[18],[19],姿势骨架[20],SQL[21],[22],菜谱[23],编程语言[24],手语[25],[26],[27],点云[28],符号知识(图)[29],[30],多模式知识图谱[31],草图绘制[32],[33],[34],[35],3D对象/场景[36],[37],[38],文档[39],[40],[41],[42],编程代码[43]和抽象语法树(AST)——一类图[44]、光流[45]、医学知识(如诊断代码本体[46])。注意,本综述将不讨论多模态论文,其中Transformer只是作为特征提取器使用,而没有多模态设计。据我们所知,这是第一个全面回顾基于Transformer的多模态机器学习的状态。

这项综述的主要特点包括:(1)我们强调Transformer的优势是它们可以以一种模式无关的方式工作。因此,它们与各种模态(以及模态的组合)兼容。为了支持这一观点,我们首次从几何拓扑的角度对多模态环境下Transformer的内在特征进行了理解。我们建议将自注意视为一种图风格的建模,它将输入序列(包括单模态和多模态)建模为一个全连接图。具体地说,自注意模型将任意模态中的任意标记嵌入为一个图节点。(2) 我们在多模态环境中尽可能以数学的方式讨论Transformer的关键部件。(3)基于Transformer,跨模态交互(如融合、对齐)本质上是由自注意及其变体处理的。在本文中,我们从自注意力设计的角度,提取了基于MML实践的Transformer的数学本质和公式。在介绍了我们对多模态学习、Transformer生态系统和多模态大数据时代的综述之后,我们总结了我们的主要贡献如下。(1)我们从几何拓扑的角度对Vanilla Transformer、视觉Transformer和多模态Transformer进行了理论回顾。(2)我们从两个互补的角度对基于Transformer的MML进行了分类,即基于应用和基于挑战。在第4节中,我们通过两个重要的范例,即多模态预训练和具体的多模态任务,对多模态Transformer的应用进行了回顾。在第5节中,我们进行总结各种多模态Transformer 模型和应用所共享的共同挑战和设计。(3)讨论了基于Transformer 的MML技术目前的瓶颈、存在的问题和潜在的研究方向。

成为VIP会员查看完整内容
78
0

本白皮首先介绍了元宇宙简史和元宇宙概念,接着阐述了元宇宙的八大关键要素和七层价值空间,然后对元宇宙的六大技术全景进行了详细诠释,最后展示了中通服设计院在元宇宙领域的成果——数字孪生城市。

元宇宙时代物理、伦理、成本、生产力、生产关系、价值定义都发生了巨变。从尺度上看,狭义元宇宙可指任意精神沉浸场景,如书、角色、电影、游戏、城市;广义元宇宙则是所有现实与虚拟世界及其中的物种、物质、信息、规律、时间等互联形成的超级文明体。人人皆可创建无数个狭义元宇宙,最终构成广义元宇宙统一体。从时间上看,2030年前Web2.5"虚实共生",现实与数字世界的互通入口,如AR世界地图,至关重要;2050 年前 Web3.0"虚实莫辩",海量子元宇宙,如头号玩家,实现体验互联;2070年前 Web4.0才是脑机与Al+系统互联的真·元宇宙时代。

成为VIP会员查看完整内容
67
0

随着视觉、听觉、语言等单模态人工智能技术的突破,让计算机拥有更接近人类理解多模态信息的能力受 到研究者们的广泛关注。另一方面,随着图文社交、短视频、视频会议、直播和虚拟数字人等应用的涌现,对多模态 信息处理技术提出了更高要求,同时也给多模态研究提供了海量的数据和丰富的应用场景。该文首先介绍了近期 自然语言处理领域关注度较高的多模态应用,并从单模态的特征表示、多模态的特征融合阶段、融合模型的网络结 构、未对齐模态和模态缺失下的多模态融合等角度综述了主流的多模态融合方法,同时也综合分析了视觉-语言跨 模态预训练模型的最新进展

http://jcip.cipsc.org.cn/CN/abstract/abstract3314.shtmt

1. 引言

人工智能研究经过70多年的探索,在视觉、语 音与声学、语言理解与生成等单模态① 人工智能领 域已取得了巨大的突破。特别是视觉领域的目标检 测与人脸识别技术、语音领域的语音识别与语音合 成技术、自然语言处理领域的机器翻译与人机对话 技术在限定场景下已经实现了规模化的应用。然 而,人类对周围环境的感知、对信息的获取和对知识 的学习与表 达 都 是 多 模 态 (Multimodal)的。近 些 年,如何让计算机拥有更接近人类的理解和处理多 模态信息的能力,进而实现高鲁棒性的推理决策成 为热点问题,受到人工智能研究者的广泛关注。另 一方面,随着图文社交(Facebook、Twitter、微信、微 博等)、短视频(YouTube、抖音、快手)、音频(Club-音、京东、淘宝等)和数字人(2D、3D、卡通、写实、超 写实等)等应用的涌现,对多模态信息处理技术在用 户理解、内容理解和场景理解上提出了更高的要求, 同时也给多模态技术提供了海量的数据和丰富的应 用场景。 多模态信息处理技术打破计算机视觉、语音与 声学、自然语言处理等学科间的壁垒,是典型的多学 科交叉技术。多模态技术从20世纪70年代开始发 展,Morency等人[1]将多模态技术的发展划分为四 个阶段,即 1970-1980 年 的 行 为 时 代 (Behavioral Era)、1980-2000 年 的 计 算 时 代 (Computational Era)、2000-2010 年的交互时代(InteractionEra) 和2010年起的深度学习时代(DeepLearningEra)。 多模态核心技术又分为:多模态表示(Representation),多模态融合(Fusion)、多模态转换(Translation)、多 模 态 对 齐 (Alignment)和 模 态 协 同 学 习 (Co-learning)类。

近些年,研究者从不同的视角对多模态信息处 理技术做了很好的总结回顾。Zhang等人[2]围绕图 像描述、视觉-语言生成、视觉问答和视觉推理四个 应用,从计算机视觉的角度总结了多模态表示学习 和多模态融合的最新进展。Summaira等人[3]的综 述覆盖了更多的多模态应用,并根据应用组织了每 一个多模态应用的技术进展和局限性。

本文从自然语言处理的视角出发,介绍多模态 信息处理技术的最新进展,组织结构如下:第1节 介绍 NLP领域关注度较高的多模态应用和相关的 数据集。多模态融合是多模态信息处理的核心问 题。第2节从单模态信息的表示方法、多模态信息 的融合阶段、融合模型的网络结构、未对齐模态和模 态缺失情况下的多模态融合等角度介绍主流的多模 态融合方法。第3节介绍多模态预训练技术,并从 模型的网络结构、模型的输入、预训练目标、预训练 语料和下游任务等维度对比最新提出的多模态预训 练模型。第4节介绍多模态技术在工业界的应用。 最后一节是总结和对未来工作的展望。

2. 多模态应用

我们分析了最近两年在自然语言处理领域国际 学术会议上(ACL、EMNLP、NAACL)发表的多模 态信息处理的论文,并从应用的角度对论文进行了 分类。关注度较高的多模态应用如图1所示。本节将对这些应用展开介绍。除此之外,多模态应用还 包括视听语音识别(Audio-VisualSpeechRecognition)、多 模 态 语 言 分 析 (Multimodal Language Analysis)和视觉辅助的句法分析[4]等。文献[4]还 获得 NAACL2021的最佳长文奖。

1.1 多模态情感识别

情感是人类区别于机器的一个重要维度,而人 的情感往往又是通过语音、语言、手势、动作表情等 多个模态表达的。在交互场景下,多模态情感识别 研究如何从人的表情和动作手势、语音音调、语言等 多模态信息中理解用户细颗粒度的情感表达,进而 指导人机交互策略。其主要研究内容有:①基于 多模态信息互补性和异步性的动态融合;②高噪 声环境下对于模态模糊或模态缺失问题的鲁棒性 融合;③客服和营销等自然交互情境下的情感识 别等。 多模态情感识别的常用数据集有IEMOCAP [5]、 CMU-MOSI [6]、CMU-MOSEI [7]、CH-SIMS [8] 和 IVD [9]等。 数 据 集 的 多 维 度 比 较 如 表 1 所 示。 IEMOCAP数据集收录了10位演员的表演数据,包 含视频、语音、面部运动捕捉和文本模态,并标注了 高兴、悲 伤、恐 惧 和 惊 讶 等 共 9 类 情 感。CMUMOSI数据集收录了89位讲述者的2199条视频 片段,每段视频标注了7类情感。CMU-MOSEI数 据集是 CMU-MOSI的扩展版,收录了 1000 多名 YouTube主播的 3228 条视频,包括 23453 个句 子,每个句子标注了7分类的情感浓度(高度负面、 负面、弱负面、中性、弱正面、正面、高度正面)和6分 类的情 绪 (高 兴、悲 伤、生 气、恐 惧、厌 恶、惊 讶)。 CH-SIMS数据集是一个中文多模态情感分析数据 集,该数据集为2281个视频片段标注了细颗粒度的情感标签。IVD 是从中文语音助手的真实用户 对话日志中抽取的语音情感数据集,包括500000 条无标注的语音数据和2946条带6分类情感标注 的语音数据。

随着图文和短视频等新兴社交媒体的迅速发 展,人们在社交平台上的表达方式也变得更加丰富。 社交场景下的多模态情感识别主要研究基于图文表 达的情感倾向[10]和方面级的细颗粒度情感[11]等。

1.2 视觉-语言生成

视觉(图像或视频)到语言的生成和语言到视觉 (图像或视频)的生成打破了计算机视觉和自然语言 处理两个领域的边界,成为多模态交叉学科中最热 门的 研 究 课 题。2021 年 初,OpenAI推 出 的 基 于 GPT-3的语言到视觉的生成模型 DALL-E① 可以根 据自然语言的描述生成逼真的图像,产生了较大的反 响。本节主要介绍视觉到语言生成的相关应用。

1.2.1 图像描述

图像描述(ImageCaptioning)是对给定的一幅 自然图像生成一句自然语言描述的任务。2015年 以前,图像描述的主流方法是基于模板的方法。其 基本思想是检测图像中的物体、动作,并将这些词作 为主语、动词和宾语等填写到预定义的模板中。从 2015年开始,基于视觉编码器(CNN 等)和语言解 码器(RNN/LSTM 等)的序列到序列(Sequence-toSequence,Seq2Seq)框架广泛应用于这一任务。通 过从 视 觉 图 像 中 解 析 出 属 性 (Attribute)、关 系 (Relation)和结构(Hierarchy)等高层语义信息,并 将这些语义信息融入视觉编码和语言解码中,提高 了图像描述的生成效果。 图像描述任务的常用数据集有 MSCOCO [12]、 Conceptual Captions [13]、 Flickr30K [14]、 Visual Genome [15]和SBUCaptions [16]。MSCOCO 数据集 是微软发布的可用于目标检测(ObjectDetection)、 人体姿势识别(DensePose)、关键点检测(Keypoint Detection)、实例分割(StuffSegmentation)、全景分 割 (PanopticSegmentation)、图 片 标 注 (Category Labelling)和图 像 描 述 (ImageCaptioning)的 数 据集。该数据集有91类物体(人、猫和卡车等),共计 32.8 万 幅 图 像,每 幅 图 像 包 含 5 个 英 文 描 述。 ConceptualCaptions数据集收录了330万幅“图像, 描述”对,是目前最大的多模态数据集,其中的图像 有自然图像、产品图像、专业照片、卡通和绘图等类 型,描 述 取 自 HTML 中 的 Alt-text属 性 字 段 值。 Flickr30K 收录了来自 Flickr的共计31783幅日常 活动、事件和场景的图像,每幅图像通过众包方式标 注了5个图像描述。VisualGenome是基于10.8万 幅图像的 大 规 模 多 模 态 数 据 集,该 数 据 集 标 注 了 380万个对象、280万个属性、230万个关系、170万个 “图像、问题、答案”三元组和540万个区域描述。图 像中的对象、属性、关系、区域描述和视觉问答中的名 词与短语还被归一化到相应的 WordNet同义词集

1.2.2 视频描述

视频描述(VideoCaptioning)是对给定的一段 视频(通常是几十秒的短视频)生成一句准确、细致 描述的任务。视频除了图像信息外,还包括时序和 声音等信息。视频描述可提取的特征更多,技术挑 战也更大。 视频描述任务的常用数据集有 MSR-VTT [17]、 ActivityNet-Captions [18]、YouCook2 [19] 和 ACTIONS [20] 等。MSR-VTT数据集由1万个网络视频剪辑、20万 “视频,描述”对组成。MSR-VTT数据集涵盖了音乐、 游戏、体育、教育等20多个类别的视觉内容,每个视频 剪辑时长10~20秒,人工为每个视频剪辑标注了20个 描述句子。YouCook2数据集是一个烹饪教学视频数 据集,包括89个食谱的2000个未经剪辑的教学视频(最长10分钟,平均5分钟)。ACTIONS是首个无需 人工标注、从数以亿计的网页内容中自动提炼“视频, 描述”对的视频描述数据集,总共包含了163183个 GIF视频。

1.2.3 视觉叙事

视觉叙事(VisualStorytelling)要求模 型 对 于 给定的图像序列,在深度理解图像序列的基础上生 成连贯的叙事故事。相比于图像描述和视频描述, 视觉叙事更具挑战性。在视觉理解上,视觉叙事的 输入是有时序关联的图像序列,需要模型具备根据 历史视觉事件推测当前的视觉事件的能力。在语言 生成上,对比图像描述和视频描述中的客观文字描 述,视觉叙事的输出由更多评价性、会话性和抽象性 语言组成。SIND [21]是一个视觉叙事数据集,该数 据集收集了81743幅图片,以及排列成符合文字描 述和故事情节的20211个序列。

1.3 视觉问答和多模态对话

1.3.1 视觉问答

视觉问答(VisualQuestionAnswering,VQA)[22-27] 是2015年新提出的任务,简单来说就是图像问答。 给定一幅图像和一个关于该图像的开放式自然语言问题,要求模型准确回答该问题。视觉问答是一个典 型的多模态问题,需要模型具备物体定位、属性检测、 事件分类、场景理解和推理及数学计算等能力。根据 图 片 类 型 的 不 同,VQA 又 分 为 自 然 图 像 理 解 VQA [22-23]、合成图像推理 VQA [24]和自然图像推理 VQA [25]。表2列举了这3种 VQA的示例。 VQA常用数据集有 VQAv1/v2 [22-23]、CLEVR [24] 和 GQA [25]。VQAv1/v2是自然图像理解 VQA 数 据集,VQAv2 解 决 了 VQAv1 中 明 显 的 语 言 先 验 (LanguagePriors)问题。CLEVR [24]是合成图像推 理问答数据集。CLEVER 中的图像由简单的几何 形状的物体组成,旨在测试模型对组合式语言的理 解能力和对视觉场景的推理能力。CLEVR 数据集 中的图像是程序合成的,其场景的复杂度与自然场 景相去甚远。对此,Hudson等人[25]发布了基于自 然图像的组合式问题视觉问答数据集 GQA,该数据 集包括关于11.3万幅图像的超过2000万的问题。 每幅图像都标注了一个场景图(SceneGraph),表示 图像中的对象、属性和关系。每个问题都对应一个 功能性程序(FunctionalProgram),列出了获得 答 案所需执行的一系列推理步骤。每个答案都有与之 对应的验证信息,指向图片中的相关区域。

1.3.2 视觉对话

视觉对话(VisualDialog)[28-32]是给定一幅图像 (或视频等视觉内容)和一个上下文相关的问题,要 求模型根据图片(或视频)内容回答该问题。与视觉 问答相比,视觉对话还要解决对话中特有的挑战,如 共指(Co-references)和省略(Ellipsis)等。视觉对话 也被认为是视觉图灵测试。视觉对话常用数据集有 VisDial [28]、IGC [29]、GuessWhat [30]、Image-Chat [31] 和 AVSD [32]。VisDial中的问题和答案都是形式自由的。GuessWhat是通过一系列“是/否”问题发现 图像中的物体。IGC是一个闲聊型的视觉对话数据 集,但闲聊的话题受限于给定的图像。Image-Chat 也是一个闲聊型视觉对话数据集。与IGC 不同的 是,Image-Chat数据集还限定了对话参与者 A 和 B 的风格特征。AVSD 定义了一个视听场景的多轮 对话任务,要求机器在理解问题、对话历史和视频中 的场景等语义信息的基础上回答用户问题。 视觉对话中的用户问题只与单个图像(视频)相关,且用户问题和模型回答都是文字的。

1.3.3 多模态对话

多模态对话(MultimodalDialog)关注更接近人 类自然对话的多模态人机对话技术的研究。它与上 一节介绍的视觉对话的主要差异有:①多模态对话 给定的输入图像可能是多幅的;② 随着对话的推 进,图像是不断更新的;③用户问题和模型的回答 可以是文本的、图像的或者图文结合的;④模型可 能需要查询外部领域知识库才能回答用户的问题 (如购物者希望看到更多与特定商品相似的商品,或 者要求提供满足某些特征的商品,或者查询特定商 品的属性等);⑤模型可能需要通过反问等对话策 略澄清用户需求。零售和旅游等限定领域的多模态 对话最近受到了越来越多的关注。常用的面向购物场景的多模态对话数据集有 MMD [33]、SIMMC [34]和JDDC [35]。MMD 是在服饰 专家的指导下通过模拟扮演(Wizard-of-Oz,WoZ)的 方式收集的时尚购物场景的数据集。SIMMC2.0是 时尚和家 具 购 物 场 景 的 数 据 集。其 中,时 尚 和 家 具杂乱的购物场景是通过逼真的 VR 场景生成器 (VRSceneGenerator)生成的。与 MMD 和 SIMMC 不同,JDDC2.0是从电商平台客服和消费者之间的 真实对话数据中采样的(图2)。JDDC2.0包括多模 态对话24.6万,其中,图片50.7万张,平均对话 轮 数14轮。此 外,JDDC2.0还 提 供 了30205个商品的759种商品属性关系,共计21.9万的<商品ID、 属性、属性值>三元组。 视觉对话和多模态对话常用数据集的详细对比 如表3所示。

1.4 多模态摘要

多模态摘要是基于对多模态输入(文本、语音、图 像和视频等)的理解,归纳并生成单模态或者多模态 的概括性总结(摘要)的任务。根据具体任务类型,多 模态摘要又可细分为视频会议摘要[36]、教学视频摘 要[37]、多模态新闻摘要[38-42]和多模态商品摘要[43]。 视频会议摘要方面,Li等人[36]提出了一个从音 视频会议 输 入 中 提 取 会 议 文 本 摘 要 的 方 法,并 在 AMI数据 集 上 验 证 了 方 法 的 有 效 性。AMI数 据集[44]包含 137 场视频会议。每场会 议 持 续 30 分 钟,包含4名参与者和约300字的文本摘要。 教学视频摘要方面,Palaskar等人[37]提出一种 融合视觉信息和文本信息(用户生成的和语音识别 系统输出的)的生成式文本摘要方法,同时在开放域 教学视频数据集 How2 [45]上验证了方法的有效性。 多模态新闻摘要方面,Li等人[38]提出一种从异 步的多模态(文本、图像、音频和视频)输入中抽取文 本摘要的方法,并发布了中文和英文数据集 MMS。 Li等人[39]提出一种为“文本,图像”对生成多模态摘 要的模型,同时发布了英文数据集 MMSS。Zhu等 人[41]提出了一种从异步的多模态(文本和多张图 像)输入中生成多模态(一段短文和一张图片)摘要 的方法,同时发布了英文数据集 MSMO。 多模态商品摘要方面,Li等人[43]提出了一种从 异构的多模态输入(文本、图像、商品属性表)中生成 商品摘要的方法,同时发布了数据集 CEPSUM①。 CEPSUM 数据集由140万“商品文本介绍,商品图 片,文本摘要”三元组组成,涉及3个商品大类。

1.5 多模态对齐

多模态对齐研究多个模态不同颗粒度元素间的 对齐关系,具体又分为显式对齐和隐式对齐。视觉语言跨模态的显式对齐任务研究图像和句子[46-47]、 图像和词[48]、图像中的目标和句子中的短语[49-50]间 的对齐关系。多模态对齐方法可直接应用于多模态 检索等应用,也可作为图像描述、VQA、多模态预训 练的训练语料,尤其是在缺乏大规模多模态人工标 注语料的场景。 图像和句子(或文档内其他文本单元)间的显式 对齐通常是不存在的。对此,Hessel等人[46]提出了 一种将同一网页内的图像和句子对齐的无监督方 法。该方法在7个难度不同的数据集上获得了不错 的性能。Suhr等 人[47]定 义 了 一 个 视 觉 推 理 任 务 NLVR2,对于给定的两幅图像和一段自然语言的描 述,要求模型判断它们是否存在语义上的对齐关系。 文本预训练语言模型已经取得了巨大的成功, 但该方法仅使用文本上下文信息作为监督信号,导 致词的 上 下 文 表 示 学 习 严 重 依 赖 词 的 共 现 关 系 (Co-occurrence),缺乏外部物 理 世 界 的 背 景 知 识。 为了给预训练语言模型提供视觉监督信号,Tan等 人[48]提出了 Vokenization技术(图3),其通过给文 本中的每一个词打上一幅图像的标签,实现在大规 模文本语料上自动构建多模态对齐语料库。在大规模图像-词汇对齐的多模态语料库上训练的预训练 语言模型可增强其对自然语言的理解能力。实验证 明,该 模 型 在 多 个 纯 文 本 的 任 务 上 (如 GLUE、 SQuAD和SWAG 等)均获得了显著的性能提高。

图像中的目标和文本中的短语对齐也被称为图 像短语定位(PhraseGrounding),可用于提高图像 描述、VQA、视 觉 导 航 等 视 觉-语 言 下 游 任 务 的 性 能。Plummer等人[49]发布了一个大规模的短语定 位数 据 集 Flickr30kEntities,如 图 4 所 示。Wang 等人[50]提出了一种基于细粒度视觉和文本表示的 多模态对齐框架,在 Flickr30kEntities数据集上显 著提高了短语定位的性能。

视频定位(VideoGrounding)[51]是多模态对齐中另 一项 重 要 且 具 有 挑 战 性 的 任 务。给 定 一 个 查 询 (Query),它要求模型从视频中定位出与查询语言对应 的一个目标视频片段。该技术可应用于视频理解、视 频检索和人机交互等场景。常用数据集有 CharadesSTA [52]、ActivityNet-Captions [53]和 TACoS [54]。CharadesSTA 数据集是基于 Charades数据集[55]构建的,包括 6672个视频和16128个“查询,视频片段”对。ActivityNet-Captions数据集包含两万个视频和10万个“查 询,视频片段”对,其覆盖的视频类型更多样。TACoS 数据集包含127个烹饪视频和18818个“查询,视频 片段”。

1.6 多模态翻译

多模态翻译是将多模态输入(文本、图像或视频 等)中的源语言文本转换为目标语言文本的过程。 多模态翻译的目标是在视觉等多模态信息的辅助 下,消除语言的歧义,提高传统文本机器翻译系统的 性能。 Elliott等人[56]于2015年首次提出多模态翻译 任务。随后,在2016年举办的第一届机器翻译会议 上成功组织了第一届多模态机器翻译比赛,并于接 下来的两年连续举办了两届比赛,引发了研究者们 对多模态机器翻译的关注热潮。目前的工作主要集 中在 Multi30k数据集[57]上。该数据集是英语图像 描述数据集 Flickr30k [14]的多语言扩展,每幅图像 配有一个英语描述和一个德语描述,任务定义为给 定图像和英语描述,生成德语描述。 模型方面,Huang等人[58]首先从图像中提取视 觉全局表示(参见2.1.1节的介绍)和视觉目标表示 (参见2.1.3节的介绍),提取的视觉表示被视为源 语言中特殊的单词与文本拼接,再融入编码器-解码 器神经网络翻译模型中的编码器中。在 Calixto等 人[59]提出的模型中,视觉特征被视为源语言中特殊 的单 词,或 者 融 入 编 码 器 中,或 者 融 入 解 码 器 中。 Calixto等人的模型显著提 高 了 模 型 的 翻 译 效 果。 文献[58-59]中的模型依赖大量的多模态翻译对齐 语料 (源 语 言、图 像、目 标 语 言)。对 此,Elliott等 人[60]将多模态机器翻译分解为两个子任务:文本 翻译 和 基 于 视 觉 的 文 本 表 示 (Visually Grounded Representations)。该模型不依赖昂贵的(源语言、 图像、目标语言)对齐语料。模型可以分别在文本翻 译语料(源语言,目标语言)和图像描述(图像,源语 言)语料上训练。受文献[60]的启发,Zhou等人[61]提 出 了 一 种 机 器 翻 译 任 务 和 视 觉-文 本 共 享 空 间 (Vision-TextSharedSpace)表示学习任务相结合 的多 任 务 多 模 态 机 器 翻 译 框 架 (VAG-NMT)。 VAG-NMT 首先把文献[60]中的基于视觉的文本 表示(即从文本表示重建图像)修改为视觉-文本共 享空间表示学习。其次,VAG-NMT 还提出了一种 视觉文本注意机制,可以捕获与图像语义强相关的 源语言中单词。多模态机器翻译中的视觉信息只在 非常特殊的情况下(如文本上下文不足以消除歧义 词的歧义)对翻译模型有帮助。对此,Ive等人[62]提 出了一 种 翻 译-优 化 (Translate-and-refine)的 两 段 式翻译方法。该方法先翻译源语言中的文本,再使 用视觉目标表示对第一阶段的翻译文本进行调整。 大多数的多模态机器翻译模型没有考虑不同模态的 相对重要性,但同等对待文本和视觉信息可能会引 入一 些 不 必 要 的 噪 声。Yao 等 人[63]基 于 Transformer,提出了一种多模态自注意机制,探索了如何 消除视觉特征中的噪音信号。一方面,单层多模态 注意力模型难以有效提取视觉上下文信息,另一方 面,多层多模态注意力模型容易导致过拟合,尤其是 对训练数据少的多模态翻译。对此,Lin等人[64]提 出一种基于动态上下文指导的胶囊网络(Dynamic Context-guidedCapsuleNetwork,DCCN)提取和利 用两种不同颗粒度(视觉全局表示和视觉区域表示) 的视觉信息。也有研究者对多模态翻译的可解释性 进行了探索。Wu等人[65]的研究表明,视觉特征对 多模态翻译的帮助来自于正则化,视觉特征的合理 选取对模型性能至关重要。

1.7 多模态信息抽取

命名实体识别(NER)是指识别自由文本中的 具体特定意义的实体(如人名、地名和组织机构名 等)。命名实体识别虽然取得了较大的成功,但对于 社交媒体中大量的用户生成内容(User-Generated Content,UGC),仅根据文本模态的信息来定位和 分类其中的实体仍然存在一些挑战。多模态命名实 体识别(MNER)通过引入视觉、语音等其他模态作 为文本模态的补充,识别社交媒体中高噪声短文本 中的实体,最近几年受到了比较多的关注。 模型方面,Moon等人[66]首次提出了融合图像 和文本模态信息的通用多模态注意力模型。文献 [66]还发布了 SnapCaptions数据集,该数据集由1 万张“图像,短文本标题”对构成,并标注了短文本标 题中 的 四 类 命 名 实 体 (实 体 类 型:PER、LOC、ORG、MISC)。一方面,文献[66]中的方法提取的 是图像的视觉全局表示,这可能把图像中的噪声信 息也引入到模型中。另一方面,视觉和文本模态的 特征融合较简单。对此,Zhang等人[67]提出了一种 自适应 的 协 同 注 意 力 网 络 (AdaptiveCo-attention Network,ACN)。ACN 首先提取图像的视觉区域 表示(参见2.1.2节的介绍),再通过文本到视觉和 视觉到文本的协同注意力剔除图像中的噪声信息, 以提高 MNER的性能。文献[67]在内部数据集上 验证了该方法的有效性。基于类似的出发点,Lu等 人[68]提出了一种注意力机制与门控机制相结合的 模型提取视觉图像中与文本最相关的区域的特征。 该模型可忽略不相关的视觉信息。文献[68]基于注 意力机制获取了单词感知(word-aware)的视觉表 示,却忽略了图像感知(image-aware)的单词表示。 对此,Yu等人[69]首次将 Transformer应用于多模 态 NER任务中,并提出了实体片段检测辅助任务, 进一步消除视觉偏差,提升了模型效果。 Sui等人[70]提出了融合语音和文本信息的多模 态 NER,并在自建的中文数据集 CNERTA 上验证 了方法的有效性。 多模态信息抽取领域中另一个受到较多关注的 研究方向是多模态商品属性抽取。多模态商品属性 抽取是指从给定商品文本描述和商品图片中抽取商 品的属性信息,例如商品的“颜色”“材料”等属性值。 为了推动多模态商品属性抽取的研究,IV 等人[71] 发布了 首 个 大 规 模 多 模 态 属 性 提 取 英 文 数 据 集 MAE。MAE包含400万图片和760万“属性-属性 值”对。文献[71]提出的多模态属性抽取模型需要 对每一个属性识别其对应的属性值,且无法滤除视 觉噪声。为了提高模型的效率,Zhu等人[72]将属性 预测和属性值抽取建模为一个层叠化的多任务学习 过程,实现了多个属性及其对应属性值的一次性识 别,且视觉全局表示和视觉区域表示通过门控机制 和文本信息融合,可有效过滤视觉噪声。Zhu等人 还发布了一个包含9万“属性-属性值”对的多模态 商品属性抽取中文数据集 MEPAVE。

2 多模态融合

多模态融合将多个单模态表征整合成为一个多 模态信息表征,它是多模态信息处理的核心问题。多 模态融合的示例如图5所示,其中,Ni{i=1,…K} 表示单模态表示学习模型的模型深度,M 表示K 个多模态表示的融合模型深度。多模态融合的研究方 向有:基于多模态互补性的全模态融合问题、模态 模糊或者模态缺失下的鲁棒性融合问题、非对齐的 多模态融合问题等。目前,大部分工作是关于模态 对齐且无模态缺失情况下的多模态融合算法研究, 这也是多模态融合中最基础的挑战。本节根据单模 态的特征表示、多模态融合的阶段、多模态融合的模 型结构等对多模态融合方法进行分类介绍。

2.1 根据单模态表示进行分类

单模态的特征表示是多模态融合的基石。这一 类方法重点研究如何在多模态融合之前提取更好的 单模态特征表示。以视觉-语言-音频多模态应用为 例,如何从视觉内容中解析出高层语义信息以增强 视觉特征表达是这一类方法的主要研究内容。例 如,从视觉内容中识别目标(Object)、属性(Attribute)、动作(Action)、关系(Relation)、场景图(Scene Graph)[73-75]和树形语义结构(Hierarchy)[76]等,进 而 实 现 对 视 觉 内 容 的 全 局 (Global)、区 域 (Regional)、目标(Object)和关系(Relation)等颗粒 度的视觉语义建模。语言表示通常使用词的独热编 码表示、词 的 上 下 文 表 示 (ContextualRepresentation)[77-78]、句子表示[79-80]、句法依存关系(Syntactic Dependency)表示[81]、场景图表示[82]等。音频表示 可使用 基 于 COVAREP [83]提 取 底 层 声 学 特 征 表 示[85]、基于预训练模型 wav2vec [84]提取低维特征向 量表示[85]等。本节侧重介绍多模态融合中的视觉 特征表示方法。

2.2 根据融合阶段进行分类

根据多模态融合的阶段,多模态融合方法可分 为早期融合[79-82,90]、中期融合[91]和晚期融合[92]。早 期融合的特点是单模态表示学习简单,而多模态融 合部分的模型深度大,融合策略复杂。例如,词的独 热编码 表 示 和 视 觉 区 域 表 示 直 接 参 与 多 模 态 融 合[93]。晚期融合的特点是单模态表示学习模型复 杂,多模态融合一般采用拼接、按位乘/求平均等简 单策略[92]。由于晚期融合抑制了模态之间的交互, 目前大部分基于深度学习的模型均使用早期或者中 期融合。在第3节介绍的多模态预训练模型中,基 于单流架构(Single-Stream)的预训练模型把融合操 作 放 在 早 期 阶 段,如 VideoBERT [94]、UnicoderVL [95]、Oscar [96]、VL-BERT [97]和 M3P [98]等。基于 双流架构(Two-Stream)的预训练模型则把融合操 作 放 置 在 深 层 模 型 的 中 期 阶 段 的 多 个 层 中,如 ERNIE-ViL [82]、LXMERT [91]、ActBERT [99]和 ViLBERT [100]等。

2.3 根据融合方式进行分类

多模态融合模型的设计是多模态融合的关键研 究点。我们将多模态融合模型分为简单融合、门控 融合(Gating)、注意力融合(Attention)、Transformer 融合、图模型融合(GraphFusion)和 双 线 性 注 意 力 (BilinearAttention)融合共六类方法。常见简单融合 方法包括编码器、解码器的初始化(参见1.6 节和 2.1.1节)、拼接、按位乘/求和/求平均等操作。本节 主要介绍其余的五类较复杂的融合方法。

3 多模态预训练

通过预训练语言模型从海量无标注数据中学习 通用知识,再在下游任务上用少量的标注数据进行 微调,已经成为自然语言处理领域成熟的新范式。 从2019年开始,预训练语言模型(BERT [101]、GPT3 [102]、BART [117]和 T5 [118]等)相继被扩展到多语言 和多模态等场景。 相对于文本预训练语言模型,多模态预训练模 型可以更好地对细颗粒度的多模态语义单元(词或 者目标)间的相关性进行建模。例如,基于语言上下 文,被掩码的词“ontopof”可以被预测为符合语法 规则的词“under”或“into”等。但这与关联的图片 场景“猫在车顶”不符。通过多模态预训练,模型从 图像中捕获“汽车”“猫”之间的空间关系,从而可以准 确地预测出掩码词是“ontopof”[82]。大部分的多模 态预训练模型是在视觉-语言对齐数据上进行的。例 如,使用图像和文本对齐数据集(MSCOCO [12]、ConceptualCaptions [13]、VisualGenome [15] 和 SBU Captions [16]等)训练的跨模态预训练模型 LXMERT [91]、 Oscar [96]、VL-BERT [97]和ViLBERT [100],M3P [98]。使 用视频和文本对齐数据集训练的 VideoBERT [94]和 ActBERT [99]等[119-120]。Liu等人[85]最近还发布了视 觉、文本、语音三模态预训练模型 OPT。 本文表5中从网络结构、模型输入、预训练目标、 预训练语料和下游任务等维度对比了最新的视觉-语 言跨模态预训练模型 ERNIE-VIL [82]、LXMERT [91]、 LightningDOT [92]、E2E-VLP [93]、Unicoder-VL [95]、 Oscar [96]、VL-BERT [97]、M3P [98]、ViLBERT [100]、 TDEN [121]、UNIMO [122]。

表 5 中 的 表 示 “图像,语言”对,I表示一幅图像,w=w1,…,wT 表 示长度为T 的文本表示。g=g1,…,gG 是图像区 域表示,q=q1,…,qK 和v=v1,…,vK 分别表示图 像中的目标的文本表示和目标的视觉表示。g 和 v的提 取 可 参 考 2.1 节 的 介 绍。 此 外,[SEP]、 [IMG]、[CLS]等 特 殊 标 记 用 来 分 割 不 同 模 态。 MLM(MaskedLanguage Model)是根据未掩码的 词 和 图 像 区 域 预 测 掩 码 单 词。 MOC(Masked ObjectClassification)根据未掩码的图像区域和文 本预 测 掩 码 区 域 的 目 标 类 别。 MOR (Masked ObjectRegression)根据未掩码的图像区域和文本 预 测 掩 码 区 域 的 特 征 表 示。 MSG (Masked SentenceGeneration)根据输入图像逐字生成句子。 VQA 根据输入的图像和该图像相关问题预测该问 题的答案。CMCL 是跨模态对比学习任务。VLM 是预测图像-文本对是否语义一致。

从表5中的11个图像-语言跨模态预训练模型 的对比,我们发现的跨模态预训练模型的特点如下: ①单流模型和双流模型均被广泛采用。虽然双流模 型可以适应每种模态的不同处理需求,但目前尚无 完整的实验证明双流模型优于单流模型。②多模态 预训练模型从应用于多模态理解任务或多模态生成 任务发展到可兼顾多模态理解和生成两大任务的统 一模型。③相对动辄上百 G 甚至 T 级别的单模态 数据,多模态对齐数据的规模有限。最新的多模态 预训练模型可以利用互联网上的大规模非对齐的文 本数据、图像数据、以及文本-图像对齐数据学习更 通用的文本和视觉 表 示,以 提 高 模 型 在 视 觉 和 语 言的理解和生成能力,如 M3P和 UNIMO。④多 模态预训 练 模 型 从 仅 应 用 于 多 模 态 下 游 任 务 发 展到可同 时 应 用 于 单 模 态 下 游 任 务 和 多 模 态 下 游任务。 上述的多模态预训练模型需要在大量图像文本 的对齐语料上进行训练。然而,此类数据的收集成 本昂贵,很难扩大规模。受无监督机器翻译[123-124] 的启发,Li等人[125]提出了一种不依赖图像-文本对 齐语料的预训练 U-VisualBERT,该预训练模型的 输入是一批文本数据,或一批图像数据,并通过图像 中物体标签作为锚点(AnchorPoints)对齐两种模态。U-VisualBERT 在四个多模态任务上取得与使 用多模态对齐数据训练的预训练模型接近的性能。 该方向可能会是接下来的一个研究热点。

4 结束语

多模态信息处理是一个典型的多学科交叉领 域。最近几年,多模态信息处理受到自然语言处理、 计算机视觉和语音与声学领域研究者的广泛关注。 本文从自然语言处理的视角出发,首先介绍了目前 热点的多模态应用,接着介绍了多模态的三个重要 研究方向及其主流方法:即视觉的单模态表示(视 觉全局表示、视觉区域表示、视觉目标表示和视觉场 景图表示)、多模态融合(简单融合、门控融合、注意 力融合、Transformer融合、图模型融合和双线性注 意力融合)和通用的多模态预训练。最后,本文对多 模态技术在产业界的应用进行了简要的描述。

多模态信息处理还有很多亟待进一步研究的课题。我们认为,以下五个方向将是多模态信息处理 技术领域未来重要的研究内容:①非对齐语料上的 多模态信息处理。目前,大多数下游的多模态任务 和多模态预训练模态都依赖多模态对齐语料。相对 动辄上百 G 甚至 T 级别的单模态语料,多模态对齐 语料的规模还是很有限。探索如何在海量非对齐多 模态语料上训练多模态模型具有非常实用的价值, 也是多模态领域需要重点关注的课题之一。此方向 已经有了初步的探索。例如,利用多模态对齐技术 将 海 量 的 单 模 态 语 料 与 其 他 模 态 进 行 自 动 对 齐[48,122]。②面向单模态和多模态的理解和生成任 务的统一模型。当前的主流模型或面向单模态理解 (或生成)或面向多模态理解(或生成)的模型,构建 一个既适用于单模态理解与生成任务,又适用于多 模态理解与生成任务的统一模型是未来非常重要的 研究方向。多模态模型在文本任务上的性能未来可 能会超过单模态模型[48,122]。③高噪声环境下的多 模态鲁棒性融合。真实场景常常有较强的背景噪 声,部分模态的数据通常是模糊或缺失的。因此,探 索如何在高噪声情况下获得信息缺失的有效表征, 提高模型预测鲁棒性和准确性是多模态领域重要的 研究课题之一。文献[116]提出一种基于缺失模态的想 象 网 络 (Missing ModalityImagination Network,MMIN)对该方向进行了初步的探索。④ 多 模态与知识的融合。2.1节介绍的从视觉内容中提 取视觉粗粒度特征表示和基于视觉场景图的细颗粒 度特征表示,其目的都是增强视觉特征表示。我们 认为,如何提取更精细粒度的视觉特征表示是多模 态领域重要的基础研究方向之一。引入知识图谱作 为图像实体信息的补充,从而进行知识增强的视觉 特征表示是该方向一种探索思路[126-127]。⑤复杂交 互情境下的多模态应用。第1节介绍了多模态信息 处理技术的多个应用场景。我们认为,数字人、元宇 宙(Metaverse)是多模态信息处理技术最佳的应用 场景之一,探索复杂交互情境下的多模态信息处理 是多模态领域未来最重要的研究方向之一。

成为VIP会员查看完整内容
60
0

在当今世界,深度学习源代码和大量开放获取的地理空间图像很容易获得和访问。然而,大多数人缺少利用这一资源的教育工具。使用开源软件对遥感图像进行深度学习是第一本介绍使用免费开源工具处理真实世界遥感图像的深度学习技术的实用书籍。本书中详细介绍的方法是通用的,可以适用于遥感图像处理的许多不同应用,包括土地覆盖测绘、林业、城市研究、灾害测绘、图像恢复等。在头脑中与从业者和学生一起写,这本书帮助把现有工具和数据的理论和实际使用联系在一起,在遥感图像和数据上应用深度学习技术。

  • 第一本解释如何使用开源软件(QGIS, Orfeo ToolBox, TensorFlow)将深度学习技术应用于公共的、免费的数据(Spot-7和Sentinel-2图像,OpenStreetMap向量数据)的书。

  • 提出了适合于大规模处理和GIS应用的真实世界图像和数据的方法

  • 介绍了可应用于遥感世界的最先进的深度学习架构家族,主要用于土地覆盖制图,但也用于通用方法(如图像恢复)

  • 适合深度学习初学者和具有一些GIS知识的读者。学习实际技能不需要编码知识。

  • 包括深度学习技术通过许多步骤遥感数据处理练习。

成为VIP会员查看完整内容
59
0

博弈论推理遍及经济理论,并广泛应用于其他社会和行为科学。Martin J. Osborne的《博弈论导论》介绍了博弈论的主要原则,并展示了如何用它们来理解经济、社会、政治和生物现象。这本书以一种通俗易懂的方式介绍了理论背后的主要思想,而不是他们的数学表达。所有的概念都被精确地定义,并且逻辑推理贯穿始终。这本书要求读者理解基本的数学知识,但不需要经济学、政治学或其他社会或行为科学的具体知识。

包括战略博弈、完全信息广义博弈和联盟博弈的基本概念;较高级的贝叶斯对策和不完全信息的广泛对策;以及重复博弈、议价理论、进化均衡、合理化和最大化的主题。这本书提供了各种各样的插图,从社会和行为科学和280多个练习。每个主题都有突出理论点的例子和说明如何使用理论的例子。尽可能简单地解释博弈论的关键概念,同时保持完整的精度,博弈论导论是博弈论本科和入门研究生课程的理想选择。

https://mathematicalolympiads.files.wordpress.com/2012/08/martin_j-_osborne-an_introduction_to_game_theory-oxford_university_press_usa2003.pdf

https://cgi.csc.liv.ac.uk/~spirakis/COMP323-Fall2017/week01.pdf

成为VIP会员查看完整内容
60
0

因果推理的一般形式理论,是对因果模型、推理和推理的逻辑研究。

在这本书中,Alexander Bochman提出了因果推理的一般形式理论,作为对因果模型、推理和推理的逻辑研究,其基于的假设是,因果推理不是逻辑推理的竞争对手,而是对缺乏逻辑充分数据或知识的情况的补充。Bochman还探讨了这一理论与 Judea Pearl 提出的流行的因果关系结构方程方法的关系,并探讨了从人工智能到法律理论的几个应用,包括绑架、反事实、实际和近似因果关系、动态因果模型,以及关于人工智能中的行动和变化的推理。

https://mitpress.mit.edu/books/logical-theory-causality#:~:text=In%20this%20book%2C%20Alexander%20Bochman,logically%20sufficient%20data%20or%20knowledge.

作为逻辑准备,在引入因果概念之前,Bochman为经典逻辑描述了另一种基于情景的语义,它可以更好地理解纯逻辑手段可以捕捉到什么。然后,他提出了另一个先决条件,概述了与他自己的理论相关的非单调推理的一般理论的那些部分。这两个组成部分为因果演算的主要两层形式主义提供了逻辑背景,作为他的理论的形式基础。他提出了主要的因果形式主义的书作为一个自然概括的经典逻辑,允许因果推理。这为后续章节提供了正式的背景知识。最后,Bochman将因果推理推广到动态域。

成为VIP会员查看完整内容
51
0

在过去的十年里,公众对现代社会复杂的“连通性”越来越感兴趣。这种联系体现在许多方面:因特网和网络的迅速发展,全球交流的便利,新闻和信息以及流行病和金融危机以惊人的速度和强度在世界各地传播的能力。这些现象涉及到网络、激励和群体的聚集行为;它们基于我们之间的联系,以及我们的每一个决定对其他人的结果产生微妙影响的方式。

这本关于网络新科学的介绍性书籍采用了跨学科的方法,使用经济学、社会学、计算、信息科学和应用数学来解决关于连接我们的联系的基本问题,以及我们的决定可以对他人产生影响的方式。

本书分为7个部分,每个部分3 - 4章。第一部分和第二部分讨论了支撑我们对网络和行为的调查的两个主要理论:图论,研究网络结构,和博弈论,在人们的决定影响彼此结果的环境中,形成行为模型。第三部分整合了这些思路,分析了市场的网络结构,以及这种网络中的权力概念。第四部分追求不同的集成,讨论了作为信息网络的万维网,Web搜索的问题,以及目前处于搜索行业核心的市场的发展。第五和第六部分研究了在网络和群体内部发生的一些基本过程的动态,包括人们受他人决定影响的方式。第五部分在总体尺度上追求这个主题,在那里我们模拟了个体和整体人口之间的互动。第六部分继续在更细粒度的网络结构层面进行分析,从影响力问题开始,接着讨论搜索过程和流行病的动态。最后,第七部分考虑了我们如何将基本的社会制度——包括市场、投票制度和产权——解释为有效地塑造我们一直在研究的一些现象的机制。

成为VIP会员查看完整内容
48
0

OpenIntro Statistics涵盖了统计的第一门课程,提供了应用统计的严格介绍,清晰,简洁,可访问。这本书是为本科水平而写的,但它在高中和研究生课程中也很受欢迎。我们希望读者能从本书中获得三个观点,除此之外,还能形成统计思维和方法的基础。

  • 统计学是一个具有广泛实际应用的应用领域。
  • 你不必成为数学大师,也能从真实有趣的数据中学习。
  • 数据是混乱的,统计工具是不完美的。但是,当你了解这些工具的优点和缺点时,你就可以用它们来了解这个世界。

本书各章节内容如下:

1. 介绍数据。数据结构、变量和基本的数据收集技术

2. 总结数据。数据摘要、图形和随机化

3.概率。概率的基本原理。

4. 随机变量的分布。正态分布和其他关键分布

5. 推理的基础。在估计总体比例的情况下,统计推断的一般思想。

6. 分类数据的推理。使用正态分布和卡方分布推断比例和表。

7. 对数值数据的推断。使用t分布推断一个或两个样本平均值,比较两组的统计力量,也使用方差分析的许多平均值的比较。

8. 线性回归概论。回归一个预测变量的数值结果。本章的大部分内容可以在第1章之后进行介绍。

9. 多元和逻辑回归。使用多种预测器对数值和分类数据进行回归。

成为VIP会员查看完整内容
48
0

人工智能将改变医疗健康的方方面面,包括我们管理个人健康的方式,从客户体验和临床护理到降低医疗保健成本。这本实用的书是第一本描述AI可以帮助解决有害的医疗保健问题的当前和未来用例的书。

https://www.oreilly.com/library/view/ai-first-healthcare/9781492063148/

Kerrie Holley和Siupo Becker提供指导,帮助信息学和医疗保健领导为医疗保健创建AI战略和实施计划。有了这本书,业务利益相关者和实践者将能够建立知识、路线图和信心来支持他们组织中的人工智能——而不会陷入算法或开源框架的泥潭。

由AI技术专家和利用AI解决医疗保健最困难的挑战的医生共同撰写的这本书涵盖: 人工智能的神话和现实,现在和未来 以人为本的人工智能:它是什么以及如何使它成为可能 利用各种人工智能技术超越精准医疗 如何利用物联网和人工智能环境计算提供患者护理 人工智能如何帮助减少医疗浪费 AI策略和如何识别高优先级AI应用

成为VIP会员查看完整内容
54
0

斯考克罗夫特战略与安全中心致力于制定可持续的、无党派的战略,以应对美国及其盟友和伙伴面临的最重要的安全挑战。该中心支持美国在与盟国、伙伴的合作中发挥领导作用,以及对培养下一代领导人提供指导。

执行摘要

在过去的几年里,世界各地的军队对发展人工智能(AI)的兴趣和投资有所增加,以支持一系列多样化的国防和国家安全目标。然而,对于什么是人工智能,它如何影响美国和中国之间的战略竞争,以及如何为这个部署军事人工智能的新时代优化国防工业基础,仍然缺乏普遍的理解。现在已经到了在人工智能方面见仁见智的时候了,在政策界和技术界之间建立对现代人工智能的共同理解,并在国防部(DoD)和其工业伙伴之间统一观点和优先事项。因此,本文讨论了以下核心问题。

(1)什么是人工智能,为什么国家安全政策制定者应该关心?

人工智能的能力有可能为美国国家安全和国防带来改变游戏规则的优势,包括

  • 大大加快和改善决策。
  • 加强军事准备和作战能力。
  • 提高人类的认知和身体能力。
  • 设计、制造和维持军事系统的新方法。
  • 具有能打破微妙的军事平衡的新能力。
  • 创造和检测战略网络攻击、虚假信息运动和影响作战的能力。

对人工智能作为威慑和赢得未来战斗所必需的关键能力,在美国防部内部得到了重视,美国防部在过去五年里对人工智能进行了显著的投资。但是,五角大楼以外的政策制定者,以及公众和正在开发人工智能技术的公司,都需要更好地了解当今人工智能的能力和局限性,并清楚地认识到人工智能对国家安全的积极影响和潜在的破坏性影响。

(2)为什么人工智能对战略竞争至关重要?

五角大楼对人工智能的兴趣也必须从与中国--以及在较小程度上与俄罗斯--的战略竞争加剧的角度来看待,人们越来越理解在人工智能和相关新兴技术方面的落后可能会损害美国军队自冷战结束以来所保持的战略、技术和行动优势。一些国防领导人甚至认为,美国已经在军事技术竞争中输给了中国。

虽然本文不赞同这种宿命论的观点,但本文认为军事人工智能竞争的赌注很大,而且时间很短。

(3)美国防部采用人工智能的障碍是什么?

五角大楼臭名昭著的官僚主义、陈旧的采购和合同制度以及规避风险的组织文化,继续抑制着美国防部引进外部创新和更快地走向广泛的人工智能整合和采用的能力。解决这种系统性问题是一个很高的要求。但是,为促进美国防部与商业技术部门和创新初创企业的接触,已经在进行重要的变革,而且似乎有一种共同的紧迫感,即巩固这些公私伙伴关系,以确保美国持续的技术和军事优势。然而,在统一美国防部及其行业伙伴对人工智能发展最具影响力领域的看法,以及阐明和实施共同的技术标准和测试机制以实现可信赖和负责任的人工智能方面,仍有许多工作要做。

主要收获和建议

国防部必须迅速行动起来,从对人工智能重要性的广泛认可过渡到创建路径、流程、实践和原则,以加速采用人工智能技术所带来的能力。如果没有有意的、协调的和立即的行动,美国有可能在利用主导未来动能和非动能战场的制胜技术方面落后于竞争对手。本报告为美国防部确定了三个行动方案,这些方案可以帮助确保美国军队保持其在人工智能领域的全球领先地位,促进更迅速地采用人工智能所需的内部变革,并利用充满活力和多样化的美国创新生态系统,包括

  • 优先考虑安全、可靠、可信和负责任的人工智能开发和部署
  • 调整人工智能发展的关键优先事项,加强美国防部和行业合作伙伴之间的协调,以帮助缩小人工智能能力的差距;以及
  • 促进领先的国防技术公司和非传统供应商之间的协调,以加快美国防部人工智能的采用

本报告是在美国防部采用人工智能努力过程中和全球地缘政治的未来轨迹方面既合适又充满不确定性的时候发表的。正在进行的乌克兰冲突使限制独裁者控制领土、人口、标准和言论的重要性变得非常明显,而致力于维护长期国际行为规范的联盟可以在这一努力中发挥作用。因此,作者敦促美国防部在政府层面,并在可能的情况下在工业层面与美国的盟友和可信赖的伙伴进行接触和整合,以更好地实施本文的三项主要建议。

1 简介

人工智能为国防政策制定者提供了一个重要的机会。人工智能处理和融合信息的能力,以及将数据提炼为增强决策的能力,可以在一个混乱的、有争议的环境中拨开 "战争的迷雾",在这个环境中,速度是王道。人工智能还可以释放出新型可损耗和一次性无人系统的可能性,从而增强威慑力。例如,它可以帮助保障美国军人的生命,为指导冲突地区自主补给卡车的导航软件提供动力。虽然人类仍然负责对目标做出最终决定,但人工智能算法在帮助情报专业人员识别和追踪恶意行为者方面正日益发挥作用,目的是 "缩短杀戮链,加快决策速度"。

由于美国所处的更广泛的地缘战略背景,特别是与中国的战略竞争,人工智能的发展和整合也势在必行。中国人民解放军(PLA)在人工智能方面的预算似乎与美国军队相当,而且解放军正在为同样广泛的应用和能力开发人工智能技术,包括训练和模拟、蜂群自主系统和信息操作,以及其他许多方面,所有这些都可能取代美国的军事技术优势。

正如美国国防部长劳埃德-奥斯汀在2021年7月指出的那样,"中国的领导人已经明确表示,他们打算在2030年之前在人工智能方面成为全球主导。北京已经谈及将人工智能用于一系列任务,从监视到网络攻击到自主武器"。美国不能落后于中国或其他竞争对手。

为了加快人工智能的采用,五角大楼必须面对它的弊端:一个孤立的官僚机构,它阻碍了有效的数据管理努力,并阻碍了大规模利用美国防部数据所需的技术基础设施;陈旧的采购和合同流程,抑制了国防部引进外部创新和将成功的人工智能技术原型过渡到生产和部署;以及一种规避风险的文化,与已知的促进创新的开放、实验和容忍失败的类型不一致。

目前正在进行一些努力来解决其中的一些问题。直接向美国防部副部长报告的首席数据和人工智能官(CDAO)角色最近被宣布,以合并首席数据官办公室、联合人工智能中心(JAIC)和国防数字服务(DDS)。这一重组将美国防部的数据和人工智能工作置于一个屋檐下,以消除重叠的权力,原来的这种权力重叠性使得人工智能项目的规划和执行变得困难。扩大使用替代性收购方法,像国防创新单位(DIU)和空军的AFWERX正在弥合与商业技术部门的差距,特别是初创企业和非传统供应商。尽管如此,一些技术领导人认为这些努力还不够,警告说 "时间不多了"。

随着美国国防部转向大规模采用人工智能,本报告试图提供有关现代人工智能未解决问题的见解,总结中国、俄罗斯在军事人工智能发展方面的关键进展,并强调整个美国防部一些最引人注目的人工智能使用案例。报告还简要评估了美国防部与其行业伙伴之间的不协调,这些不协调继续阻碍五角大楼获得美国军队所需的改变游戏规则的技术,以阻止对手的侵略并主导未来的战场。

然而,竞争的紧迫性决不能掩盖对指导美国军队进入人工智能时代的道德准则。因此,报告重申,有必要将美国防部的人工智能道德准则有效地转化为评估可信度的共同技术标准和评估指标,并加强与国防部的行业合作伙伴--特别是初创企业和非传统供应商在这些关键问题上的合作和协调。

在本报告的最后,为政策制定者和整个国家安全生态系统的其他人工智能利益相关者提出了一些考虑。具体而言,敦促美国防部优先考虑安全、可靠、可信和负责任的人工智能开发和部署,调整国防部和行业之间的人工智能发展的关键优先事项,以帮助缩小美国防部的人工智能能力差距,并促进领先的国防技术公司和非传统供应商之间的协调,以加快国防部的人工智能采用进程。

2 人工智能创新和应用中的军事竞争

推动美国防部人工智能开发和采用工作的紧迫性在很大程度上源于确保美国及其盟国在军事技术竞争中超过中国,这种竞争已经主导了两国之间的关系。俄罗斯的技术能力远没有那么发达,但其侵略行为破坏了全球安全,并威胁到美国和北约的利益。

中国

中国已将对人工智能的投资优先用于国防和国家安全,作为其努力成为 "世界级军队"的一部分,并在未来的 "智能化"战争中获得优势--人工智能(与其他新兴技术一起)通过 "网络化、智能化和自主系统和设备 "更完全地融入军事系统和行动。

虽然中国人工智能相关活动的全部范围并不广为人知,但美国安全与新兴技术中心(CSET)在2021年10月对343份与人工智能相关的中国军事合同的审查估计,解放军 "每年在人工智能相关的系统和设备上花费超过16亿美元"。美国国家人工智能安全委员会(NSCAI)的最终报告评估说,"中国的计划、资源和进展应该引起所有美国人的关注。它在人工智能的许多应用领域处于全球同等水平,而在一些应用领域是人工智能的领导者"。

CSET的审查和其他开源评估显示,中国的人工智能发展的重点领域,就像美国的一样广泛,包括:

  • 智能和自动驾驶汽车,特别关注蜂群技术。
  • 情报、监视和侦查(ISR)。
  • 预测性维护和后勤。
  • 信息、网络和电子战。
  • 模拟和训练(包括兵棋推演)。
  • 指挥和控制(C2);以及
  • 自动目标识别。

这些领域中的每一个进展都对美国在与中国的军事技术竞争中保持同步的能力构成了挑战。然而,值得研究的是,中国在两个领域的进步能力可能对军事平衡产生特别有力的影响

(1)整合

首先,人工智能可以通过人为地加强军事整合和跨域作战,帮助解放军弥补作战准备方面的差距。许多观察家指出,解放军缺乏冲突中的作战经验是一个关键的弱点。尽管从技术角度来看,中国不断推进的军事现代化令人印象深刻,但在过去二十年里,解放军的人员都没有像美国军队那样在高端冲突中接受过火力考验。解放军继续努力从组织和理论的角度提高其"联合性",这也是刚刚起步,没有经过测试。

使用人工智能来提高模拟和兵棋推演的质量、保真度和复杂性,是解放军纠正这一关切领域的一种方式。新美国安全中心2019年的一份报告指出,"对中国军事战略家来说,从AlphaGo的胜利中学到的教训之一是,人工智能可以在一场可以比作兵棋推演的游戏中创造出优于人类玩家的战术和策略。"这可以更艰巨地考验解放军的决策者,改善指挥决策。事实上,CSET报告发现,在所调查的343份合同中,有百分之六是在模拟和训练中使用人工智能,包括使用人工智能系统对台湾突发事件进行战争演练。

图:在美国国防部高级研究计划局(DAPRA)的AlphaDogfight试验中,一名作战的F-16飞行员在虚拟现实模拟器中与Heron系统公司开发的冠军F-16人工智能代理进行飞行。Heron人工智能代理在连续五场斗狗比赛中击败了人类飞行员,结束了试验。资料来源:DARPA, https://www.darpa.mil/news-events/2020-08-26

注重人工智能整合以减少经验中的感知漏洞也适用于作战和战术训练。2021年7月,中国出版物《环球时报》报道说,解放军空军(PLAAF)已经开始在飞行员的空战训练中部署人工智能作为模拟对手,以 "磨练他们的决策和战斗技能,对抗快速计算的计算机"。

除了虚拟模拟,中国还旨在利用人工智能来支持飞行员在真实世界飞机上的训练。在2020年11月播出的中国中央电视台(CCTV)节目中,中国L-15教练机的总设计师张弘指出,训练飞机上的人工智能可以 "识别每个飞行员在飞行中的不同习惯。通过管理它们,我们将让飞行员更安全地成长,在未来获得更多的战斗能力"。

值得注意的是,解放军空军2021年7月的人工智能与人类的斗狗类似于美国国防部高级研究计划局(DARPA)2020年9月的AlphaDogFight挑战赛,在一系列五次模拟斗狗中,一个人工智能代理击败了人类飞行员。 同样,美国在2021年9月宣布与训练和模拟公司Red 6签订合同,将该公司的机载战术增强现实系统(ATARS)--该系统允许飞行员驾驶真实世界的飞机,使用增强现实耳机与人工智能生成的虚拟飞机进行训练--整合到T-38 "塔隆"训练器中,并计划最终在第四代飞机上安装该系统。由于中国军队正在利用人工智能来提高战备水平,美国防部不能落后。

(2)自主性

中国人工智能发展的第二个重点领域是自主系统,特别是蜂群技术,其中几个系统将独立运行或相互配合,以混淆和压倒对手的防卫系统。中国对发展蜂群技术的兴趣和能力已经得到了很好的证明,包括2017年6月创纪录地发射了118架小型无人机组成的互联蜂群。

据报道,2020年9月,中国电子信息研究院(CAEIT)从一辆改装的东风猛士轻型战术车上发射了200枚固定翼CH901徘徊弹药群。2022年2月在阿布扎比举行的2022年无人驾驶展的调查显示,不仅中国的参展阵容强大--中国航空技术进出口总公司(CATIC)和中国北方工业公司(NORINCO)都有大型展馆,而且还将重点放在 "协作"行动和智能蜂群。

图:2月在阿布扎比举行的UMEX 2022展会上展示的协作式蜂群无人机的一个例子。

对蜂群的兴趣并不限于无人驾驶飞行器(UAVs)。据《环球时报》报道,中国也在发展部署自主无机组人员水面飞行器(USVs)群的能力,以"拦截、围攻和驱逐入侵目标"。 2021年11月,中国公司云洲科技--它在2018年进行了一个由56个USV组成的蜂群的演示--发布了一段视频,显示六个USV进行了 "合作对抗",作为将一艘有船员的船只从中国水域移走的一部分。不难想象,这种合作对抗可以如何针对美国或盟国的海军船只,甚至商业船只进行部署,以发展或维持海上控制。这种能力在灰色地带的突发事件中尤为强大,在这种情况下,升级的担忧可能会限制反应的选择。

俄罗斯

在人工智能的投资和能力方面,俄罗斯落后于美国和中国。因乌克兰战争而实施的制裁也可能给俄罗斯的科技部门带来巨大损失。尽管如此,美国国家决策者不应低估俄罗斯以不对称的方式使用人工智能技术来破坏美国和北约利益的潜力。俄罗斯国防部有许多自主性和人工智能相关的项目,处于不同的开发和实验阶段,涉及军事机器人、无人系统、蜂群技术、预警和防空系统、ISR、C2、后勤、电子战和信息操作。

俄罗斯军事战略家认为,在未来的战场上,更大的自主权和人工智能具有巨大的潜力,可以加快信息处理,增强决策,提高态势感知,并保障俄罗斯军事人员的生命安全。自主和人工智能系统的发展和使用也在俄罗斯军事理论的更广泛背景下进行讨论。其理论重点是利用这些技术来扰乱和破坏对手的指挥和控制系统以及通信能力,并利用非军事手段在战争初期建立信息优势,从俄罗斯的角度来看,这包括与美国和北约等对手的非军事冲突时期。

俄罗斯人工智能的发展轨迹是不确定的。但是,由于持续的制裁,俄罗斯很可能会在微电子方面越来越依赖中国,并在与美国的技术竞争中进一步落后。

3 美国在人工智能方面的军事进展概述

五角大楼对人工智能的兴趣和紧迫性既是由于技术发展的速度加快,也是由于它所能带来的变革性能力越来越强。事实上,人工智能正准备从根本上改变军队思考、准备、执行和维持行动的方式。根据大西洋理事会以前的报告大纲,"五次革命 "框架对人工智能在五个广泛的能力领域的潜在影响进行了分类,下面的图3说明了人工智能可以通过不同的方式增强人类的认知和身体能力,融合网络和系统以获得最佳效率和性能,并在信息空间中迎来一个网络冲突和混乱的新时代,以及其他影响。

图3:跨越未来军事能力发展的五个广泛目标的人工智能优先发展项目概述。

  • 迈向完美的态势感知:感知、处理和认知

  • 即将到来的设计时代:制造、供应链和物流

  • 超能力平台和人员:人机性能增强

  • 连接性、致命性和灵活性:通信、导航、目标定位和打击

  • 监控、操纵和武器化:网络和信息作战

美国防部目前有六百多项与人工智能相关的工作正在进行中,其愿景是将人工智能融入国防部任务的每一个要素--从作战行动到支持和维持功能,再到支撑庞大的国防部企业的商业运作和流程。美国政府问责局(GAO)2022年2月的一份报告发现,国防部正在追求人工智能的作战能力,主要集中在"(1)通过情报和监视分析识别目标,(2)向战场上的作战人员提供建议(如在哪里移动部队或哪种武器最适合应对威胁),以及(3)增加无人驾驶系统的自主性。 "国防部的大多数人工智能能力,特别是与作战有关的努力,仍处于开发阶段,尚未与具体的系统接轨或整合。而且,尽管在实验中取得了明显的进展,并在作战行动中部署人工智能能力方面取得了一些经验,但在广泛采用方面仍然存在着重大挑战。

2021年9月,空军第一任首席软件官尼古拉-沙伊兰辞职,以抗议官僚主义和文化挑战,这些挑战减缓了技术的采用,阻碍了美国防部以足够快的速度与中国有效竞争。在沙伊兰看来,20年后,美国及其盟友 "将没有机会在一个中国拥有巨大人口优势的世界中竞争。"后来,他补充说,中国基本上已经赢了,他说,"现在,这已经是一笔交易了。"

沙伊兰关于美国与中国进行无用竞争的评估肯定不是整个美国防部都认同的,但它反映了许多人认为在该部门规避风险和深思熟虑的文化中缺乏紧迫感。

JAIC的负责人Michael Groen中将同意,"在国防部内部,必须发生文化变革。"然而,他也吹捧了美国的创新能力,并强调建立了一个人工智能加速器,并最终确定了一个联合共同基金会(JCF),用于人工智能的开发、测试和在国防部各实体之间共享人工智能工具。"支持云的JCF是向前迈出的重要一步,将允许基于共同标准和架构的人工智能开发。这应有助于鼓励各军种和国防部各部门之间的共享,并且根据JAIC的说法,确保 "国防部一个人工智能倡议的进展将在整个国防部企业中形成势头。"

虽然取得的进展值得赞扬,但仍然存在障碍,这些障碍延缓了人工智能能力的采用,而这种能力对于在不久的将来遏制威胁,以及应对中国在这十年及以后的竞争挑战至关重要。

下面的三个案例研究提供了美国防部人工智能工作中出现的技术、官僚主义和采用方面的进步的例子。这些案例还强调了阻碍美国在与中国以及在较小程度上与俄罗斯的军事技术竞争加剧的情况下,充分运用其国家创新生态系统的能力的持久性问题。

图4:联合人工智能中心(JAIC)的人工智能采用阶段。

用例1:JADC2的不可逆转势头、远大目标和集成挑战

五角大楼最重要的现代化优先事项之一是联合全域指挥与控制(JADC2)计划,该计划被描述为 "将所有军种的传感器连接到一个单一网络的概念。"根据美国国会研究服务部的说法,"JADC2打算通过从众多传感器收集数据,使用人工智能算法处理数据以识别目标,然后推荐最佳武器(包括动能和非动能武器)来对付目标,使指挥官能够做出更好的决策。 "如果成功的话,JADC2有可能消除各军种C2网络之间的孤岛,这些孤岛以前减缓了整个部队的相关信息传输。因此,产生更全面的态势感知,指挥官可以据此做出更好和更快的决定。

2021年12月,有报道称JADC2跨职能小组(CTF)将成立一个 "AI for C2 "工作组,该工作组将研究如何利用负责任的AI来加强和加速指挥和控制,这加强了负责任的AI对该项目的核心作用。

2022年3月,美国防部发布了其JADC2实施计划的非保密版本,用参谋长联席会议主席马克-米利将军的话说,此举代表了实施JADC2 "不可逆转的势头"。

然而,观察家们强调,在按照保持(或恢复)感知、处理和认知方面的优势所需的紧迫时间表实施JADC2方面,有几个持续的挑战。特别是相对于中国而言。

图5. JADC2的逻辑图反映了与国防部JADC2实施计划相关的复杂性和雄心。资料来源:美国国防部。

数据安全和网络安全、数据管理和共享问题、与盟友的互操作性以及与军方网络整合相关的问题,都被认为是认识到JADC2方法的宏伟前景所面临的挑战。一些人还强调,这种包罗万象的雄心也是一种挑战。哈德逊研究所的布莱恩-克拉克和丹-帕特认为,"当今威胁的紧迫性和新技术带来的机遇要求五角大楼领导人将JADC2的重点从美国军事部门的需求转向作战人员的需求。

可以肯定的是,在人工智能开发和整合项目中,不一定要避免宏伟的野心。然而,采用的途径将需要在难以实现的、官僚主义的、耗时的和昂贵的目标与开发能够在美国部队面临的更直接的威胁时限内提供能力和优势的系统之间取得平衡。

用例2:脆弱的人工智能和将人工智能纳入目标的道德和安全挑战

2021年9月,空军部长弗兰克-肯德尔宣布,空军已经 "首次将人工智能算法部署到实际作战的杀伤链中,这表明部署人工智能的时代确实已经到来。"根据肯德尔的说法,将人工智能纳入目标定位过程的目的是 "大大减少人工识别目标的人力密集型任务--缩短杀伤链并加快决策速度。" 成功使用人工智能支持目标定位是人工智能发展的一个里程碑,尽管在更全面地采用人工智能的作用方面仍然存在道德、安全和技术挑战。

例如,2021年美国防部的一项测试强调了人工智能的脆弱性问题。根据Defense One的报道,测试中使用的人工智能目标定位在人工智能不得不从不同角度破译数据的环境中只有大约25%的时间是准确的,尽管它认为它有90%的时间是准确的,这表明缺乏 "适应一套狭窄的假设之外条件"的能力。"这些结果说明了今天的人工智能技术在安全关键环境中的局限性,并加强了在一系列条件下对人工智能进行积极和广泛的现实世界和数字世界测试和评估的必要性。

人工智能目标定位的道德和安全也可能构成对进一步采用的挑战,特别是随着对人工智能算法的信心增加。空军的行动涉及自动目标识别的辅助作用,协助 "情报专家"--即人类决策者。当然,国防部有一个严格的目标定位程序,人工智能的目标定位算法将是其中的一部分,再往前想,自主系统将必须通过这一程序。然而,即使它们是这一程序的一部分,并被设计用来支持人类的决定,高错误率加上对人工智能输出的高度信任,有可能导致不理想或严重的结果。

用例3:人工智能在信息领域应用的局限性

与中国和俄罗斯日益激烈的竞争正在信息和网络领域上演,对美国安全以及美国经济、社会和政体具有真实、持久和破坏性的影响。

对于网络和信息行动来说,人工智能技术和技能是未来进攻和防御行动的核心,突出了人工智能在信息领域的危险性和前景。

人们对智能机器人、合成媒体的威胁越来越关注,例如描述没有发生过的事件或声明的逼真视频或音频制品,以及能够创造出令人信服的散文和文本的大型语言模型。虽然虚假信息是一个需要社会和整个政府应对的挑战,但国防部无疑将在管理和应对这一威胁方面发挥关键作用--由于其在美国政治和社会中的突出地位,其职能作用的性质,以及其持续活动的影响。

人工智能在五角大楼和其他美国政府检测机器人和合成媒体的努力中处于领先地位。例如,DARPA的MediaForensics(MediFor)项目正在使用人工智能算法来 "自动量化图像或视频的完整性"。

然而,鉴于合成媒体通过社交媒体的传播速度,人们对这种检测的速度表示担忧。正如联合参谋部首席信息官丹尼斯-克拉尔中将所观察到的,"机器和人工智能赢得其中一些信息运动的速度改变了我们的游戏......数字化转型、预测分析、ML、人工智能,它们正在改变游戏......如果我们不匹配这种速度,我们将使其达到正确的答案,而这种正确的答案将完全不相关。"

4 加快美国防部AI的应用

正如上面的讨论所示,美国防部在成功部署人工智能信息管理和决策支持工具的基础上,有一系列广泛的人工智能相关举措,处于不同的发展和实验阶段。随着重点转向整合和扩展,加快这些采用工作对于保持美国在与中国的战略竞争中的优势以及有效遏制俄罗斯至关重要。

在这一节中,本文强调了美国防部与其工业伙伴之间关系的一些不协调,这些不协调可能会导致失去创新和有影响力的人工智能项目的机会,扩大使用替代采购方法的积极影响,以及日益紧迫的调整过程和时间表,以确保美国军队能够获得未来战争的高水准技术能力。此外,本节还讨论了国防部实施道德人工智能原则的方法,以及与可信和负责任系统的标准和测试有关的问题。

4.1 美国防部和工业界的伙伴关系:统一观点、流程和时间安排

尽管国防部已经发布了一些高级别文件,概述了人工智能发展和部署的优先领域,但市场满足,甚至理解这些需求的能力还远远不够。最近,IBM对来自全球国防组织的250名技术领导人进行了调查,揭示了国防技术领导人和国防部如何看待人工智能对组织和任务的价值的一些重要差异。例如,只有约三分之一的受访技术领导人表示,他们认为人工智能对军事后勤、医疗和健康服务以及信息操作和深层假想有重大的潜在价值。当被问及人工智能支持的解决方案对商业和其他非战斗应用的潜在价值时,不到三分之一的人提到了维护、采购和人力资源。

这些观点与国防部在人工智能方面的目标有些不一致。例如,包括设备维护和采购在内的军事后勤和维持职能是国防部实施人工智能的首要任务之一。Leidos与退伍军人事务部的合作也说明了人工智能在医疗和健康服务方面的潜力。最后,随着人工智能在虚假信息运动中的使用已经开始,正如上一节的讨论所强调的那样,迫切需要开发技术措施和人工智能支持的工具,以检测和反击人工智能驱动的信息行动。

国防部及其行业伙伴基于各自的问题集和任务,有不同的优先事项和激励措施。但是,对人工智能发展的有价值和关键领域的不同观点可能会导致失去有影响力的人工智能项目的机会。也就是说,即使五角大楼和它的工业伙伴在人工智能方面意见一致,有效的合作也常常被一个笨拙的官僚机构所阻挠,这个机构常常被传统的流程、结构和文化束缚。

国防部的预算规划、采购、收购和签约流程,总的来说,不是为购买软件而设计的。这些 这些体制上的障碍,再加上复杂而冗长的软件开发和合规条例,对小型初创企业和非传统供应商来说尤其困难,因为他们缺乏资源、人员和事先的知识,无法像国防部的主要部门那样驾驭这个系统。

国防部清楚地意识到这些挑战。自2015年以来,国防部长办公室和各军种已经建立了几个实体,如DIU、AFWERX、NavalX和陆军应用实验室,与商业技术部门,特别是初创企业和非传统供应商对接,目的是加速提供同类最佳的技术解决方案。同时,国防部还采取了其他值得注意的措施,以促进使用替代性的采购和合同,这为构建和执行协议提供了比传统采购更大的灵活性。这些包括 "其他交易授权、中间层采购、快速原型设计和快速投入使用以及软件采购的专门途径"。

DIU一直处于使用其中一些替代性采购途径的前沿,从商业技术部门采购人工智能解决方案。空军的AFWERX还与空军研究实验室和国家安全创新网络合作,创新地利用小企业创新研究(SBIR)和小企业技术转让(STTR)资金,以 "提高项目的效率、有效性和过渡率"。例如,在2021年6月,美国空军SBIR/STTR人工智能投标日向关于 "可信人工智能,这表明系统是安全、可靠、强大、有能力和有效的 "主题的提案提供了超过1800万美元。

这些都是朝着正确的方向迈出的步伐,而且确实变得更容易获得国防部的研究、开发和原型制作资金。然而,及时获得生产资金仍然是一个重大挑战。这个 "死亡之谷 "的问题--研究和开发阶段与一个既定的、有资金记录的项目之间的差距--对于非传统的国防公司尤其严重,因为风险资本对初创企业的资助周期与将一个项目纳入国防部预算所需的时间之间存在差异。

五角大楼明白,弥合 "死亡之谷 "对于推进和扩大创新至关重要,并在最近启动了快速国防实验储备,以处理这些问题。然而,使预算规划、采购和签约流程与私人资本的步伐相一致所需的系统性变化,需要国会采取行动,并可能需要数年时间来实施。在实施这些改革方面的延误正在损害国防部获得尖端技术的能力,而这些技术在未来的战场上可能是至关重要的。

4.2 建立可信赖和负责任的人工智能系统

确保美国军队能够使用安全可信的人工智能和自主系统,并按照国际人道主义法律使用这些系统,将有助于美国保持其竞争优势,以对抗俄罗斯等对人工智能的道德使用承诺较少的专制国家。强调值得信赖的人工智能也是至关重要的,因为国防部的大多数人工智能项目都需要人机合作和协作的元素,它们的成功实施在很大程度上取决于操作者对系统的足够信任和使用。最后,国防部和行业伙伴之间就可信和负责任的人工智能的共享标准和测试要求进行更密切的协调,对于推进国防部人工智能的采用至关重要。

除了国防部现有的武器审查和目标程序,包括自主武器系统的协议,该部门还在寻求解决伦理、法律和政策的模糊性,以及人工智能更具体的风险。2020年2月,五角大楼通过了五项道德原则来指导人工智能的发展和使用,呼吁人工智能是负责任的、公平的、可追溯的、可靠的和可治理的。为了将这些原则付诸实践,国防部副部长凯瑟琳-希克斯发布了一份备忘录,指示采取一种 "整体的、综合的和有原则的方法 "来整合负责任的人工智能(RAI),包括六个原则:管理、作战人员的信任、产品和采购生命周期、需求验证、负责任的人工智能生态系统和人工智能劳动力。

同时,2021年11月,DIU发布了其负责任的人工智能指导方针,响应了备忘录中对 "工具、政策、流程、系统和指导 "的呼吁,将道德的人工智能原则纳入该部门的采购政策。这些指导方针是在国防部人工智能项目中操作和实施道德的具体步骤,建立在DIU在预测健康、水下自主、预测性维护和供应链分析等领域的人工智能解决方案的经验上。它们的目的是可操作的、自适应的和有用的,同时确保人工智能供应商、国防部利益相关者和DIU项目经理在人工智能系统生命周期的规划、开发和部署阶段考虑到公平、问责和透明度。

国防部人工智能项目的成功将在很大程度上取决于确保人类发展并保持对其智能机器队友的适当信任。因此,国防部对可信人工智能的强调越来越多地体现在其一些旗舰人工智能项目中。例如,2020年8月,DARPA的空战进化(ACE)项目吸引了大量的关注,因为一个人工智能系统在模拟的空中斗犬比赛中击败了空军的一名顶级F-16战斗机飞行员。 ACE的一个关键问题是 "如何让飞行员足够信任人工智能并使用它",而不是让人类与机器对决。ACE选择了斗狗场景,很大程度上是因为这种类型的空对空战斗包含了许多成为战斗机飞行员群体中值得信赖的伙伴所必需的基本飞行动作。让人工智能掌握作为更复杂任务基础的基本飞行动作,如压制敌方防空系统或护送友军飞机。根据ACE项目经理的说法,AlphaDogfight试验是 "关于增加对人工智能的信任"。

人工智能的发展速度很快,因此很难设计和实施一个足够灵活的监管结构,以保持相关性,同时又不至于限制性太强而扼杀创新。与国防部合作的公司正在寻求符合国防部人工智能道德原则的人工智能系统的开发、部署、使用和维护的指导方针。这些行业伙伴中的许多人已经采用了他们自己的可信和负责任的人工智能解决方案的框架,强调了安全、安保、稳健、弹性、问责制、透明度、可追溯性、可审计性、可解释性、公平性和其他相关质量等属性。

图:2021年10月19日,在亚利桑那州尤马试验场,一名美国陆军士兵使用战术机器人控制器来控制远征模块化自主车辆,作为准备 "聚合项目 "的练习活动。在 "聚合项目21 "期间,士兵们试验了使用这种车辆进行半自主侦察和再补给。无论是在战场上还是在战场之外,对自主和半自主车辆等人工智能能力的信任对于成功至关重要。

目前,对于什么是道德或值得信赖的人工智能系统,没有共同的技术标准,这可能会使非传统的人工智能供应商难以设定预期,并在官僚机构中穿梭。国防部不直接负责制定标准。相反,2021年国防授权法案(NDAA)扩大了国家标准与技术研究所(NIST)的任务,"包括推进人工智能的合作框架、标准、指导方针,支持开发人工智能系统的风险缓解框架,并支持开发技术标准和指导方针,以促进值得信赖的人工智能系统"。2021年7月,NIST在制定其人工智能风险管理框架时,向利益相关者发出了信息请求,旨在帮助组织 "将可信性考虑纳入人工智能产品、服务和系统的设计、开发、使用和评估"。

对这一挑战没有简单的解决方案。但是,让政府、行业、学术界和民间社会的利益相关者参与进来的合作过程可以帮助防止人工智能的发展走上社交媒体的道路,在社交媒体上,公共政策未能预测到虚假信息和其他恶意活动在这些平台上造成的风险和损失,而且反应缓慢。

与标准相关的是与测试、评估、验证和确认(TEVV)相关的挑战。测试和验证过程是为了 "帮助决策者和操作者了解和管理开发、生产、操作和维持人工智能系统的风险",对于建立对人工智能的信任至关重要。国防部目前的TEVV协议和基础设施主要是针对主要的国防采购项目,如船舶、飞机或坦克;它是线性的、顺序的,而且一旦项目过渡到生产和部署,最终是有限的。然而,对于人工智能系统,"开发从未真正完成,所以测试也是如此。"因此,像人工智能这样的适应性强、不断学习的新兴技术需要一个更加敏捷和迭代的开发和测试方法,正如NSCAI建议的那样,"将测试作为需求规范、开发、部署、培训和维护的持续部分,包括运行时监测操作行为。"

建立在开发、安全和运营(DevSecOps)的商业最佳实践基础上的综合和自动化的开发和测试方法,更适合于人工智能/ML系统。虽然JAIC的联合基金有可能实现真正的人工智能DevSecOps方法,但在整个国防部扩大这种努力是一个重大挑战,因为它需要对当前的测试基础设施进行重大改变,以及更多的资源,如带宽、计算支持和技术人员。也就是说,如果不开发更适合人工智能的新测试方法,不调整当前的测试基础设施以支持迭代测试,将阻碍大规模整合和采用可信和负责任的人工智能的努力。

上述关于标准和TEVV的讨论概括了现代人工智能系统对现有国防部框架和流程的独特挑战,以及商业技术公司和国防部对人工智能开发、部署、使用和维护的不同方法。为了加速人工智能的采用,国防部及其行业伙伴需要在具体的、现实的、与操作相关的标准和性能要求、测试过程和评估指标上更好地保持一致,并纳入道德的人工智能原则。一个以可信和负责任的人工智能为导向的国防技术生态系统可以促进最佳做法的相互交流,并降低非传统供应商和初创公司所面临的官僚主义和程序性障碍。

5 主要收获和建议

充分发挥人工智能推动成本和时间效率的能力,支持人类决策者,并实现自主性,将需要更多的技术进步或开发新的作战概念。下面,我们概述了优先努力的三个关键领域,以更成功地将人工智能纳入整个国防部事业,并确保美国能够阻止威胁,并保持对其竞争对手和潜在对手的战略、战役和战术优势。

5.1 优先考虑安全、可靠、受信任和负责任的人工智能开发和部署

与中国日益激烈的战略竞争,精湛的技术和强有力作战能力,以及与私营部门快速的技术开发和整合速度的比较,都给国防部带来了压力,使其更快地走向人工智能系统的实战。在人工智能发展中鼓励更大的风险容忍度,以便在大规模采用人工智能方面取得进展,这有很多好处。但是,仅仅为了 "超越 "中国而匆忙部署容易受到一系列对手攻击的人工智能系统,并且很可能在作战环境中失败,这将被证明是适得其反。

指导美国军队的道德准则反映了对遵守战争法则的基本承诺,而此时,一些独裁国家对人权和人道主义原则很不重视。同时,国防部对新能力的测试和保证采取了严格的方法,旨在确保新武器的使用是负责任的和适当的,并尽量减少事故、误用和滥用系统和能力的风险,因为这可能会产生危险,甚至是灾难性的影响。美国与许多盟友和伙伴共享的这些价值观和原则,在与专制国家竞争时是一种战略资产,因为它们正在部署人工智能军事系统。为了巩固国防部在这个领域的优势,我们建议采取以下步骤。

  • 美国防部应将DIU的“负责任的人工智能指南”纳入相关的提案请求、招标和其他材料中,要求承包商展示他们的人工智能产品和解决方案是如何实施国防部的人工智能道德原则。这将设定一套共同和明确的期望,帮助非传统的人工智能供应商和初创公司在五角大楼的提案过程中游刃有余。最近有国防部为项目制定收购类别的先例,要求工业界调整其开发过程,以满足不断变化的国防部标准。例如,在2020年9月,美国空军为所有采购工作制定了e系列采购指定,要求供应商使用数字工程实践--而不是原型--作为他们激励行业接受数字工程的一部分。

  • 美国防部的行业合作伙伴,特别是非传统的人工智能供应商,应积极与NIST合作,因为该机构继续努力制定标准和指导方针,以促进可信赖的人工智能系统,以确保他们的观点为后续框架提供信息。

  • 本文提到的有效采用人工智能的挑战包括人工智能的脆弱性和对手旨在破坏人工智能算法的网络攻击可能性。克服这些挑战将需要国防部继续致力于提高国防部人工智能系统测试和评估的速度、种类和能力,以确保这些系统在更广泛的不同环境下发挥预期功能。其中一些测试需要在真实世界的环境中进行,但基于模型的模拟的进步可以使人工智能系统的性能在数字/虚拟世界中得到越来越多的验证,减少与这种测试相关的成本和时间。

图:人工智能可以极大地重塑未来的战场。为了实现这一愿景,美国防部必须采取关键步骤,有效利用人工智能。资料来源:美国陆军。

  • 此外,美国防部还应该利用国防部研究与工程副部长(USDR&E)的测试实践和优先事项,以确保计划和部署的人工智能系统能够抵御对手的攻击,包括数据污染和算法损坏。

  • 美国防部应利用盟友和外国合作伙伴来开发、部署和采用可信的人工智能。这种性质的参与对于协调人工智能发展和使用的共同规范至关重要,这些规范遏制并对抗中国和俄罗斯的独裁技术模式。扩大现有合作模式和建立新的伙伴关系的途径可以包括以下内容:

i. 加强对道德、安全和负责任的人工智能的重视,将其作为全日空防务伙伴关系的一部分,通过评估成员方法的共同点和差异,确定未来联合项目和合作的具体机会。

ii. 与 "五眼"、北约和AUKUS伙伴交叉分享和实施联合道德项目。除了支持互操作性,这将增加视角和经验的多样性,并有助于确保人工智能发展工作限制各种形式的偏见。正如本项目所采访的一位前将军所指出的,"多样性是我们确保可靠性的方式。它是必不可少的。"

iii. 扩大与不同能力和地域的盟友和合作伙伴的联系,包括印度、南非、越南,以探索双边和多边研发工作和技术共享计划的机会,解决可信和负责任的人工智能的技术属性。

5.2 调整人工智能发展的关键优先事项,加强国防部和工业伙伴之间的协调,以帮助缩小国防部人工智能能力的差距

如果不与广泛的技术公司建立密切的伙伴关系,国防部将无法实现其在人工智能方面的雄心壮志,并与中国通过军民融合采购技术创新的模式进行有效竞争。这包括与五角大楼有长期联系的国防工业领导人,处于全球创新前沿的技术巨头,寻求扩大其政府投资组合的商业技术参与者,以及处于人工智能发展前沿的初创企业。但是,国防部的预算规划、采购、收购、签约和合规流程可能需要从根本上进行重组,以有效地与这个充满活力和多样化的技术生态系统的整体接触。

系统性变革是一个缓慢而艰巨的过程。但是,拖延这一过渡有可能使美国军队在利用人工智能承诺提供的优势方面落后,从作战速度到决策主导权。同时,以下行动可以帮助改善与行业伙伴的协调,以加快国防部采用人工智能的努力。

  • 国防部应评估其沟通和外联战略,以澄清和精简围绕该部门在人工智能方面的优先事项的信息。

  • 国防部应与技术公司合作,重新审查他们对某些类别的人工智能解决方案的潜在价值的评估,包括但不限于后勤、医疗和健康服务以及信息操作。

  • 国防部应实施NSCAI的建议,加快对采购专业人员的培训,使其了解采购和签约的全部可用选择,并激励他们使用人工智能和数字技术。" 此外,这种采购人员培训举措应确保采购专业人员充分了解国防部的人工智能伦理原则以及可信和负责任的人工智能的技术层面。国防部的道德准则可以作为这种培训的基础。

5.3 促进领先的国防技术公司和非传统供应商之间的协调,以加快美国防部人工智能的采用

在中短期内,美国防部将不会建立全新的人工智能系统,而是将人工智能整合到一系列现有的软件和硬件系统中--从网络防御架构到战斗机到C2。因此,实施人工智能的进展也将取决于简化国防部一直在争取的创新和尖端技术的初创公司和非传统人工智能供应商与负责将新能力整合到传统系统的国防部门之间的合作。

NSCAI建议确定 "国防部门与非传统公司合作的新机会,以便在现有平台上更快地采用人工智能能力。"我们赞同这一建议:改进国防部门与非传统公司之间的协调可以帮助确保人工智能解决方案是强大的,有弹性的,与作战相关的,以及引导有前途的原型穿过 "死亡之谷"。

毫无疑问,从概念到实践可能是很棘手的。本文的研究显示,在将创新的新技术从实验室转移到记录项目中采用的主要挑战在哪里,人们的观点存在着很大的分歧。初创企业倾向于认为系统集成商抗拒参与,而初创企业可能被认为缺乏对收购过程的理解,以及开发的技术难以整合到记录项目中,或难以扩大规模。

弥补这一差距将需要政府采取新的方法来解决非传统供应商对知识产权的担忧。大多数人不愿意放弃敏感技术的所有权,这些技术主要是卖给国防市场以外的客户。这也将涉及到国防部帮助小企业通过加快网络认证和运营授权(ATO)过程等步骤来浏览联邦采购流程,以及帮助有兴趣的公司为国防部的不同组成部分开发使用案例。这种积极的促进作用将帮助那些通过研究和开发拨款与国防部合作的非传统供应商更有准备地与系统集成商达成合作。

最重要的是,优化大型系统集成商和小型创新者的利益,将需要国防部在连接小型公司和那些正在运行的项目方面发挥更积极的对话者作用。目前,国防部在要求公司合作方面存在一些可以理解的犹豫,主要是担心触犯联邦采购条例(FAR)。但是,正如本项目采访的一位行业专家所认为的,国防部可以更积极地了解《联邦采购条例》所允许的内容,并帮助公司建立联系,特别是为了满足特定的采购优先权或计划。

6 结论

在过去的几年里,对人工智能的兴趣和投资已经获得了动力。这在国家安全和国防界尤其如此,因为战略家、政策制定者和行政人员在不断上升的地缘战略竞争中寻求决定性的优势,并为以复杂性、不确定性和最重要的速度为特征的未来操作环境做准备。人工智能现在是美国和中国之间军事技术竞争的中心,这两个国家以及世界上其他国家的军队都已经在部署人工智能系统,目的是为了主导未来的战场。

美国不能冒落后于中国的风险--在人工智能的创新方面,在人工智能的采用方面,在人工智能全面融入国防事业方面,都不能。迫切需要解决一系列技术和官僚程序以及文化问题,迄今为止,这些问题已经抑制了国防部采用人工智能的步伐。具体来说,国防部应优先考虑以下问题。

  • 建立对人工智能的信任:国防部的人工智能努力主要集中在增强人类理解、决策和效能的技术上,而不是取代人类。因此,在人类和他们的智能机器队友之间建立信任和信心是成功开发和部署军事人工智能的一个关键方面。

  • 制定和实施可信和负责任的人工智能标准:目前,对于什么是可信和负责任的人工智能,还没有共同的标准或系统性能要求。因此,五角大楼及其行业伙伴必须与NIST等机构合作,制定和实施与作战相关的标准、测试流程和评估指标,其中包括道德的、可信赖的和负责任的人工智能原则。这将有助于将成功的人工智能研究原型推进到可投入生产的解决方案中。

  • 促进美国创新生态系统和国防工业基地的优化。将尖端的人工智能技术引入国防部还需要五角大楼减少国防部采购过程中经常出现的官僚主义挑战,特别是对于那些在传统国防工业基地之外的创新公司。开发新的手段来支持和激励这些公司的参与,并促进领先的国防技术公司与初创公司和非传统供应商之间的行业内伙伴关系将是至关重要的。

  • 吸引盟友和合作伙伴。正如本文开头所述,乌克兰战争加强了盟友和合作伙伴在执行地缘政治规范和标准方面的重要性。未来人工智能的发展和采用也可能是如此。国防部不仅将受益于工业界和国家安全界的合作,还将受益于与盟友和外国伙伴的合作,以确保建立和颁布规范和标准,从而实现可信、负责和可互操作的人工智能开发和部署。

关于本报告

本报告是在对人工智能的国家安全和国防影响进行为期八个月的研究项目的最终成果。

关于作者

玛格丽特-科纳耶夫(Margarita Konaev)是大西洋理事会斯考克罗夫特战略与安全中心前沿防御业务的非常驻高级研究员。此外,她还担任乔治敦安全与新兴技术中心(CSET)的分析副主任和研究员,对人工智能的军事应用和俄罗斯军事创新感兴趣。她也是新美国安全中心的兼职高级研究员。在此之前,她是西点军校现代战争研究所的非驻地研究员,弗莱彻法律和外交学院的博士后研究员,以及宾夕法尼亚大学佩里世界之家的博士后研究员。在加入CSET之前,她曾在Gartner公司的营销和沟通部门担任高级负责人。

科纳耶夫博士对国际安全、武装冲突、非国家行为者和中东、俄罗斯和欧亚大陆的城市战争的研究已经在《战略研究杂志》、《全球安全研究杂志》、《冲突管理与和平科学》、法国国际关系研究所、《原子科学家公报》、《法律战》、《岩石上的战争》、现代战争研究所、外交政策研究所以及其他一系列机构和组织发表。她拥有圣母大学的政治学博士学位,乔治敦大学的冲突解决硕士学位,以及布兰代斯大学的学士学位。

泰特-努尔金(Tate Nurkin)是OTH情报集团的创始人,也是大西洋理事会斯考克罗夫特战略与安全中心的高级研究员。

在2018年3月建立OTH情报集团之前,努尔金在IHS Markit的简氏公司工作了12年,担任各种职务,包括管理简氏国防、风险和安全咨询业务。从2013年到他离开,他担任战略评估和未来研究(SAFS)中心的创始执行主任,该中心提供有关地缘政治、未来军事能力和全球国防工业的全球竞争的思想领导和定制分析。

实质上,努尔金的研究和分析特别关注中美竞争、国防技术、未来军事能力和全球国防工业及其市场问题。他还擅长设计和提供替代性未来分析活动,如情景规划、红色团队和兵棋推演。

他曾在联合管理服务公司、SAIC的战略评估中心以及博思艾伦公司的建模、模拟、兵棋推演和分析团队工作。2014-2018年,他在世界经济论坛的核安全全球议程委员会和国际安全未来委员会连续任职两年,该委员会的成立是为了诊断和评估第四次工业革命的安全和防御影响。

努尔金拥有佐治亚理工学院萨姆-纳恩国际事务学院的国际事务科学硕士学位,以及杜克大学的历史和政治学学士学位。

成为VIP会员查看完整内容
49
0

自1948年引入信息论以来,信息论已被证明在分析与压缩、存储和传输数据有关的问题方面起着重要作用。例如,信息论允许分析数据通信和压缩的基本限制,并在几十年的实际通信系统设计中发挥了作用。近年来,在使用信息理论方法解决数据压缩、数据通信和网络之外的问题方面出现了复兴,例如压缩感知、数据获取、数据分析、机器学习、图挖掘、社区检测、隐私和公平。在这本书中,我们探索了信号处理、机器学习、学习理论和统计的接口上的一系列广泛的问题,其中源自信息论的工具和方法可以提供类似的好处。几十年来,信息论在这一界面上的作用确实得到了承认。一个突出的例子是在1980年代使用互信息、度量熵和容量等信息理论量来建立估计的极大极小率。在这里,我们打算探索这个界面的现代应用,这些应用正在塑造21世纪的数据科学。

当然,标准信息理论工具与信号处理或数据分析方法之间有一些显著的差异。从整体上说,信息论倾向于关注渐近极限,使用大的块长度,并假设数据是由有限的比特数表示,并通过一个噪声信道观看。标准结果不关心复杂性,而是更多地关注通过可实现性和反向结果表征的基本限制。另一方面,一些信号处理技术,如采样理论,专注于离散时间表示,但不一定假设数据是量化的或系统中有噪声。信号处理通常关注的是最优的具体方法,即达到开发的极限,并具有有限的复杂性。因此,很自然地将这些工具结合起来,以解决更广泛的问题和分析,包括量化、噪声、有限样本和复杂性分析。

这本书的目的是为新兴的数据科学问题的信息理论方法的最近的应用提供一个综述。本书的潜在读者可能是信息理论、信号处理、机器学习、统计学、应用数学、计算机科学或相关研究领域的研究人员,或寻求了解信息理论和数据科学并在此界面上找出开放问题的研究生。本卷的特殊设计确保它可以作为研究人员和学生的教科书的最先进的参考。

这本书包含了16个不同的章节,由世界范围内公认的领先专家撰写,涵盖了信号处理、数据科学和信息论界面上的各种各样的主题。本书以信息理论的介绍作为其余章节的背景开始,也设置了贯穿全书使用的符号。接下来的章节被分为四类: 数据获取(第2-4章),数据表示和分析(第5-9章),信息论和机器学习(第10和11章),以及信息论、统计和压缩(第12-15章)。最后一章,第16章,通过对范诺不等式在一系列数据科学问题中的调研,将本书的几个主题联系起来。章节是独立的,涵盖了各自主题的最新研究结果,并且可以彼此独立地处理。

成为VIP会员查看完整内容
40
0
登陆后查看更多精品内容
本周荟萃主题
区块链
区块链(Blockchain)是由节点参与的分布式数据库系统,它的特点是不可更改,不可伪造,也可以将其理解为账簿系统(ledger)。它是比特币的一个重要概念,完整比特币区块链的副本,记录了其代币(token)的每一笔交易。通过这些信息,我们可以找到每一个地址,在历史上任何一点所拥有的价值。
深度学习
机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。
机器学习
“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科
强化学习
强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。
推荐系统
推荐系统,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
卷积神经网络
在深度学习中,卷积神经网络(CNN或ConvNet)是一类深度神经网络,最常用于分析视觉图像。基于它们的共享权重架构和平移不变性特征,它们也被称为位移不变或空间不变的人工神经网络(SIANN)。它们在图像和视频识别,推荐系统,图像分类,医学图像分析,自然语言处理,和财务时间序列中都有应用。
计算机网络
计算机网络( Computer Networks )指将地理位置不同的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。
命名实体识别
命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。
机器翻译
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
计算机视觉
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
微信扫码咨询专知VIP会员