重磅！《知识表示与推理：技术现状和未来机遇综述》北约最新98页研究报告

本报告由来自美国陆军研究实验室、美国国防情报局、美国国家地理空间情报局(NGA)、英国国防部国防科学技术实验室（Dstl）、加拿大国防研究与发展部、德国弗劳恩霍夫FKIE研究所等多个单位联合撰写。介绍了北约信息系统技术（IST）探索小组111（ET-111）的调查结果。成立ET-111是为了在北约各国之间分享对知识表示和推理（KRR）现状的理解，以了解技术现状并考虑未来的合作活动是否有益。

为了支持高水平的数据融合，当下有一个基础性的需求，即信息和知识要能被人类和机器理解。知识表示是将知识以计算机可操作的形式表达出来，以便对其进行利用。这样做的一个关键原因是，知识可以被推理。基于知识的系统也可能被称为符号人工智能和基于规则的人工智能，并且在过去50多年里一直是一个活跃的研究领域。因此，它可能被一些人认为是 "老派 "的人工智能，与近年来日益突出的基于算法和机器学习的人工智能方法不同（众所周知，后者存在可解释性和概括性问题）。在 "大数据 "时代，知识表示和推理为利用灵活、可解释和基于人类知识的数据提供了一个途径。

这篇综述的第一个目的是为知识表示和推理领域提供一个技术介绍。为读者提供关键概念的知识--以培养理解力--将使人们能够欣赏到知识系统的能力。第二个目的是通过实例，提供对创建知识系统过程的掌握，以及如何在军事背景下使用这种系统来解决现实世界问题。对知识系统最适用的现实世界问题的理解，有助于成功实施KRR并将其与北约系统和理论相结合。

在这份报告中，我们首先讨论了北约成员国面临的一些挑战，以及北约的知识表示和推理可能会对这些领域产生的影响。然后，我们对知识表示、知识工程和推理方法的技术方面做了一个总结。我们讨论了知识表示的具体例子，如MIP信息模型（MIM）、富事件本体（REO）、OPIS和国防情报核心本体（DICO）。我们还描述了WISDOM研发平台和智能态势感知（INSANE）框架，作为使用知识表示来支持感知的例子。

随后，我们回顾了更广泛的研究，包括文本分析如何支持从报告和其他来源的文本中提取知识，关于因果关系的工作以及推理系统中的可解释性和信任问题。

最后，我们总结了报告的结论和对北约联盟的影响，提出了进一步工作的主要建议：

建议1--北约科技组织应赞助一项技术活动，以展示符号和亚符号方法的互补使用及其对改善决策的益处。
建议2--北约科技组织应赞助一个虚拟系列讲座/研讨会，以提高北约科学和业务部门对KRR技术的认识，从而为该领域的进一步技能发展提供催化作用。
建议3--北约科技组织应赞助一个专门的探索小组，考虑因果模型的具体兴趣，以及它在基于知识的系统中的应用，作为未来在诸如建议1活动下进行实际演示的先导。

报告目录

第1章 - 导言
- 1.1 "战争"中的信息
- 1.2 理解和信息融合
- 1.3 知识表示和推理的作用
- 1.4 IST-ET-111的宗旨和目标
- 1.5 本报告的方法和结构
- 1.6 参考文献
第2章 - 知识表示和推理的核心概念
- 2.1 引言
- 2.2 知识、知识系统的定义
- 2.3 专业知识和知识工程
- 2.4 推测和推理
- 2.5 知识图谱
- 2.6 语义启用和互操作性
- 2.7 不确定性管理
- 2.8 符号化与亚符号化的方法
- 2.9 总结
- 2.10 参考文献
第3章 - 实现知识表示和推理
- 3.1 集成、互操作性和信息共享的本体论
- 3.2 W3C语义网栈
- 3.3 案例研究
  - 3.3.1 构建领域本体--DICO开发过程、设计原则和最佳实践
  - 3.3.2 实践中的知识表示和推理WISDOM研发平台
  - 3.3.3 相关性过滤、信息聚合和充实智能态势感知框架
  - 3.3.4 在英国、"五眼"防务和安全社区内交换信息--英国国际信息交流中心的信息交流标准
- 3.4 实施基于知识的系统的机遇和挑战
  - 3.4.1 讨论共同关心的问题
    - 3.4.1.1 我是否真的应该关心，ML方法是否能提供这一切？
    - 3.4.1.2 有了新的技术，这不就导致了新的复杂性吗？
    - 3.4.1.3 KR方法是稳健的吗？
    - 3.4.1.4 是否需要专家技能和专业知识？
  - 3.4.2 知识表示和推理方法的优势和劣势
- 3.5 总结
- 3.6 参考文献
第4章 - 当前知识表示和推理的研究主题
- 4.1 多模态知识表示--处理文本、图像和其他问题
  - 4.1.1 文本分析的符号化方法
  - 4.1.2 文本的矢量空间模型
  - 4.1.3 文本分析的向量空间和知识基础相结合的方法
  - 4.1.4 文本和图像的联合建模
- 4.2 人类交互的考虑因素--自然语言交互
  - 4.2.1 对话系统
  - 4.2.2 自然语言的语义表述
  - 4.2.3 言语行为和对话
- 4.3 因果关系和因果模型
  - 4.3.1 自然语言处理中的因果关系
- 4.4 推断中的可解释性和信任
- 4.5 总结、展望和开放的挑战
- 4.6 参考文献
第5章 - 结论和对未来技术提案的建议
- 5.1 结论 - KRR方法的机会
- 5.2 结论--对基础技能和专业知识的需求
- 5.3 结论--当前的研究主题
- 5.4 建议
附件A--相关的NATO STO活动
附件B - MIP信息模型和富事件本体论
- B.1.1 MIP信息模型(MIM)
- B.2.1 富事件本体论（REO）--事件表示的本体论枢纽
- B.3.1 参考文献
附件C - 国防情报核心本体(DICO)
- C.1.1 DICO开发过程、设计原则和最佳实践
  - C.1.1.1 独特的识别实体
  - C.1.1.2 本体实体和DICO实体类别
- C.2.1 参考文献
附件D--实践中的知识表示和推理--WISDOM研发平台
- D.1.1 WISDOM研发平台
- D.2.1 WISDOM数据策略
  - D.2.1.1 WISDOM研发平台的自动推理能力
- D.3.1 参考文献
附件E - 不确定性管理
- E.1.1 不确定性类型学/分类法
- E.2.1 什么是不确定性？
- E.3.1 不确定性管理的形式主义
- E.4.1 参考文献
附件F - 作者简历

报告导言

1.1 "战争"中的信息

随着传感器、性能、反馈和其他数据数量的不断增加，国防面临的最紧迫的挑战之一是可靠地、快速地筛选、融合最相关的观察和信息并采取作战行动的能力。信息的重要性体现在北约的所有战略重点中[2]。俄罗斯对欧洲-大西洋安全的威胁是基于旨在破坏战略关系（如欧盟、北约等）的虚假信息；打击一切形式和表现的恐怖主义，现在的前提是能够将机密和公开来源的材料联系起来，以确定可以采取行动的联系和行为；网络威胁主要是在信息空间进行的。

北约对联盟地面监视（AGS）系统的收购代表了北约在支持其未来行动中提供丰富数据馈送的能力的重大提升[3]。但是，在英国的 "信息优势 "等概念中，人们认识到，现在只有通过及时和有效地融合这些数据馈送，才能实现真正的优势。

当然，处理信息过载的挑战并不限于国防领域。金融、广告和工程等领域，都在抓住机遇，改善决策，瞄准服务，提高新解决方案的交付速度。近年来，应用机器学习（ML）方法应对这些挑战的潜力已经引起了公众、投资者和世界各地高层领导人的注意。因此，这样的ML方法正在展示其应对防御挑战的潜力，包括图像和视频资料中的物体检测和标记、提取实体和关系的文本分析以及语音检测和翻译。在计算能力、数据可用性和计算框架的重大突破基础上，对数据和人工智能的兴趣将大大增加。

因此，防御能力将越来越能够处理最关键的信息流，节省分析员的时间，提高他们快速发展和保持态势感知的能力。然而，由于人类分析员的注意力也被持续竞争时期的操作和作战活动所牵制[5]，仍然需要不断提高他们在多个领域连接细微但重要的观察的能力。例如，随着作战寻求常规的全频谱效应，物理、社会和网络领域之间观察的相互联系将越来越重要，但如果没有其他能力支持，这种联系可能不容易被发现。重要的是，将这些观察结果与过去的知识、相关人员的固有专长以及之前的经验联系起来是至关重要的。

1.2 理解和信息融合

复杂性一直存在于自然和生物领域中。然而，随着科学和技术的进步，人类现在有能力制造出其复杂性接近生命本身的人工制品。有必要使用先进的方法来处理这种复杂性。

这种复杂性源于数据的速度、密度和空间范围的巨大增长，以及不断增加的各种元素之间的耦合，其中一些是自然的，而许多是合成的。防御的一个核心挑战是应对复杂情况的方法。我们面临着技术的快速发展，提供了更多的数据、信息和能力，同时也面临着具有挑战性的地形，如城市环境和涉及叛乱分子、混合人口、非政府组织的 "人类地形"。这些复杂的情况实际上比以往任何时候都更需要及时的决策来战胜威胁，而决策的质量将始终与对情况的理解程度密切相关。这种理解力受到如此快速的行动和技术变化的挑战，需要新的方法来更好、更快地分解复杂的情况。虽然人类的思维方式仍然深深扎根于经典的还原论概念，即通过将问题分解为子问题来解决，但现在人们认识到，以有效的方式接近复杂性不能脱离还原论方法。

诸如英国的 "信息优势"[6]等国家概念试图催化信息在国防行动中的作用，强调必须进行创新，否则就有可能 "枯萎"并跟不上对手的步伐。美国的 "用机器增强情报"（AIM）倡议[7]也提供了一个战略观点，强调了AI和ML在未来情报能力中的作用。对于IST-ET-111来说，AIM倡议特别强调了代表知识方面的基础研究进展。

多年来，JDL融合模型[8]对实现低层和高层数据融合的技术挑战进行了很好的定义。然而，全面的解决方案，特别是高层的数据融合，仍然缺乏，而且是不断研究和开发的主题。

信息融合的挑战几乎延伸到国防的所有方面，从后勤到人员管理、平台维护和医疗。然而，在北约背景下，重点是联盟行动，如在阿富汗的行动，考虑实现态势感知以支持指挥与控制（C2）和情报功能的挑战也许是最贴切的。这些活动的特点是需要：

将主要观察结果和不太明显的信息和知识结合起来（硬/软融合）。
汇集来自多个领域的信息，而且往往是多种分类的信息。
在有限的信息基础上快速做出决定；
处理不确定性、模糊性和不断变化的信息。

C2和情报活动产出的主要作者和消费者是人类分析员和作战人员，但随着北约部队更多地使用自动化和自主系统，机器在支持、增强和利用基础态势感知和高层融合活动中的作用将越来越重要，需要考虑。

1.3 知识表示和推理的作用

为了支持这种高层的融合，现在有一个基本的需求，即信息和知识要能被人类和机器理解。通过这样做，就有可能应用机器推理（推测）方法，将规则和形式逻辑应用于现有数据，以提供更高层次的推理。知识表示是将知识以计算机可操作的形式表达出来，以便对其进行利用。这样做的一个关键但不是唯一的原因是，知识可以被推理。基于知识的系统也被称为符号人工智能和基于规则的人工智能，并且在过去五十多年里一直是一个活跃的研究领域。

知识表示和对这些知识进行推理的愿望是北约七个新兴和颠覆性技术（EDTs）中三个的核心：数据、人工智能和自主性，其中每一个都重叠并支持另一个[9]。

当然，正是最近对 "机器学习"（也被称为亚符号）方法的兴趣，专注于神经网络等计算方法，一直处于公众对人工智能叙述的最前沿，经常看到ML和AI这两个术语被交替使用。这类系统已经在多种应用中证明了其价值，如产品推荐系统、交通模式的预测和贷款审批。使用ML来支持基于内容的多种数据类型（图像、视频、文本和社交媒体）的分析是现已完成的IST-RTG-144（多内容分析）的核心兴趣。该小组清楚地展示了对单模态进行分析的潜力，以及在更广泛的情报周期内结合这些分析的机会，但它没有考虑自动/半自动融合或针对观察结果进行推理，以支持高水平融合的目标。

ML方法通常利用大量的数据来开发模型，将输出与输入联系起来。对于某些类别的任务，如图像标记，ML是一种行之有效的应用，但即使是人工智能系统的领导者也很谨慎，甚至对它的成功持批评态度[10]。用ML方法表示和包含知识（所谓的神经符号方法）可能是提高未来解决方案的稳健性和性能的一个潜在步骤。

因此，实现这一目标的基本步骤是建立有效的知识表示（符号表示），可以被未来的混合系统所使用。符号方法可能更善于处理稀疏的数据，支持增强的可解释性并纳入过去的人类知识，并使用擅长模式识别和数据聚类/分类问题的计算方法。然而，如果这些方法/技术要支持未来的联盟行动，就需要联合起来努力。这包括

开发特定领域的本体论（为特定领域定义的词汇表）。
部署和评估推理能力。
为事件驱动的处理建立有效的架构。
处理观测中的不确定性和模糊性。
信息共享和观测数据来源。
联合部署和应对规模问题的方法。

1.4 IST-ET-111的宗旨和目标

正是在这种情况下，北约IST-ET-111 "知识表示和推理 "被提出来，目的是汇集北约伙伴对KRR现状的理解，以了解技术现状并考虑未来是否需要开展活动。

通过建立技术现状和北约国家的技术能力，IST-ET-111团队希望这份报告能够支持围绕实现有效的人机团队的最有效方法进行对话。探索小组的建立也是确定如何利用其他北约国家的科学和技术活动来获得近期和长期的业务利益的一个步骤。

最终，我们预计KRR的有效使用会带来以下结果：

更快的决策，以保持在潜在对手的OODA循环中。
更强大的人工智能系统能够处理新的信息和处理不确定性。
透明的系统，提供充分理解和可评估的输出。
随着工作人员在行动中的轮换或行动的结束，保留专题知识，但随后允许更迅速地建立先验能力。
大幅提高利用和辨别现有数据知识的能力。

1.5 本报告的方法和结构

本报告针对的是更广泛的北约STO社区和国家代表，他们

可能需要领导技术变革举措，并可能从在军事背景下使用KRR方法和手段中受益。
需要实施新的解决方案以更好地利用信息和知识；
可能拥有ML方面的专业知识，并正在寻求其他方法来提高结果的稳健性和可解释性。

首先，本报告关注知识表示的核心概念（第2章），认识到利用基于知识的方法的第一步是拥有表示知识的手段，然后才是对知识进行推理的方法，或者换句话说，从我们已经知道的知识中推导出新知识的方法。然后，报告转向实施KRR方法的问题（第3章），用具体的例子来说明其中的问题。最后，对活跃的研究主题进行了简短的讨论（第4章），并提出结论和建议（第5章）。