总结

“用于对抗性活动建模的数据和图生成项目”开发了一种方法，以及可扩展的图建模和生成工具，以生成具有嵌入式对抗性活动路径的真实大规模背景活动图。美国西北太平洋国家实验室（PNNL）作为数据生成器和评估者，制作数据集供活动任务TA2和TA3执行者使用。发布的数据集包括背景活动、感兴趣的活动和建立基础真相的合并图，以及被分离成个别数据类型的合并图过滤版本。代表 TA3 执行者检测的活动模式的模板也作为每个交付物的一部分发布。

1.0 简介

逆向活动建模（MAA）项目开发了一种方法，以及可扩展的图建模和生成工具，以生成具有嵌入式逆向活动路径的真实大规模背景活动图。美国西北太平洋国家实验室（PNNL）作为数据生成器和评估者，制作数据集供MAA任务TA2和TA3执行者使用。发布的数据集包括背景活动、感兴趣的活动和建立基础真相的合并图，以及被分离成单独数据类型的合并图的过滤版本。代表TA3执行者检测的活动模式的模板也作为每个交付品的一部分被发布。

该项目的关键数据生产任务包括开发大规模杀伤性武器（WMDs）和其他过渡领域的情景或用例，准备和提供真实世界的背景和对手活动数据，以及研究和开发可扩展的图集成和建模算法，以构建大规模背景活动图和将对手活动模式嵌入背景活动图中。

3.0 图生成方法

PNNL为MAA执行者开发了一套多样化的图，以开发网络对齐（TA2）和子图匹配（TA3）算法。这是用不同的生成方法实现的，主要是生成两个不同类别的图。该计划的第一阶段侧重于对齐和子图匹配问题的数学表述。这促进了大型合成纯结构图的生成，这些图被用来评估TA2和TA3算法，而不使用个人身份信息以达到保护隐私的要求。

3.1 第一阶段 MAA 图的生成

PNNL开发了新的生成模型来模拟多渠道、异质性的活动图，为获取、制造、扩散和/或部署大规模恐怖武器提供早期指标。由于目前的技术水平支持单渠道、同质化的模型，PNNL开发了一个网络模拟框架来模拟社会网络、通信、采购和合著。同时对多渠道网络进行建模，在规模上有相关的渠道属性，这使得复杂度增加。在一个大型高保真合成图中包括跨渠道的对抗性信号，这就进一步增加了难度。

我们为合成背景图和模板嵌入过程开发了一个框架。背景图是为整个图的群体观察到的大规模的良性活动。相比之下，模板代表了由一小部分个人或团体进行的感兴趣的活动。PNNL对合成图生成的研究领域做出了以下重大贡献。

1.新的生成模型，同时产生一个相关的多通道图。

2.在背景图中的高保真模板嵌入，因为背景和信号活动本来就是同时生成的图。

3.使用容错、分布式算法和执行环境的可扩展生成模型。

如图1所示，PNNL开发了一个图生成管道，在第一阶段生成多个数据集。对于背景图，我们使用活动和组织模式来构建背景，其中一些决定受到主题专家（SME）关于对抗性活动支持需求的意见的强烈影响。在第一阶段结束时，我们生成了一个大型的多渠道图，包括通信（电话和电子邮件）、采购、合著、旅行、财务交易和人口数据渠道。我们使用不同的超参数来配置管道，如通信图中的主题分布、采购行为，以及旅行概率、时间节奏、空间分布等。

图1. 图生成管道

对于多通道通信网络，PNNL开发了一个新的生成模型，该模型使用了独立时态动机（ITeM），如图2所示。ITeMs是小的时间结构，可以对系统中观察到的局部交易进行建模，并用于表示系统的时间演变。我们使用了现实世界中与PNNL的Living-Lab工作的电子邮件和电话通信的对齐数据，并计算了ITeM图案的时间演化模式，如图案形成时间、边缘到达延迟等，以模拟网络。我们还引入了有节奏的时间模式来模拟昼夜节律。生成模型的无记忆性可扩展到数十亿条边。我们用这个模型同时生成了电话和电子邮件网络。

图2. ITeM的图案库

我们还开发了一个模型，它可以代表由恐怖袭击、选举或某位知名人士的死亡等行动所催化的区域性沟通的增加。这类事件通常表现为区域性传播行为的变化，通常是增加。聊天模型以尊重网络拓扑结构的方式复制了局部的增加。如图3所示，带有嵌入式信号的多通道图的多个版本被发布给MAA的执行者。

图3. PNNL的MAA第一阶段图表

3.2 第二阶段MAA图的生成

MAA第二阶段的重点是语义上的、有属性的KG，与第一阶段的纯结构多通道图不同。PNNL使用真实世界的数据源，为TA2和TA3的执行者生成不同的KG数据集。WMD KG仍然是涉及正式评估的主要数据集。此外，PNNL还为洗钱和生物途径发现领域生成了不同的过渡用例KG和挑战问题。

第二阶段KG的生成过程可分为三种不同的方法：

1.从现有KGs转化而来

2.从异质数据源中构建事务性KG

3.基于特定领域本体和来源的KG生成。

PNNL开始了基于DARPA AIDA M18数据集的KG生成。AIDA M18数据是关于2013-2014年的乌克兰-俄罗斯政治冲突。PNNL发布了PNNL_AIDA_V1数据集，其中包括一组从AIDA M18数据集生成的示范性RDF KGs。RDF图模型和相应的序列化被发现对于网络对齐和子图匹配的MAA问题是非最优的。PNNL开发了SPG，将AIDA数据表示为标记的属性图格式。SPG是对RDF的逻辑投影，将RDF重构为属性图模型。PNNL开始使用GDF格式，而不是像Turtle这样的RDF序列化，GDF格式是对图中节点和边的表格表示。根据PNNL关于使用SPG的建议，MAA第二阶段将非RDF图用于TA2和TA3挑战问题。PNNL开发了一个云规模的框架，用于生成基于AIDA的图SPG，如图4所示。

PNNL继续生成WMD活动图，作为其主要的交付物。传统上，KGs被用来描述实体的元数据，并为目标应用提供额外的背景。许多现实世界的领域除了元数据外，还涉及实体之间的时间互动。在复杂的现实世界应用中使用KGs时，对这些归属的交易进行建模是一个关键的要求，例如对对抗性活动进行建模。PNNL开发了新的能力来生成交易型KGs，这些交易型KGs是异质的活动图，代表了一个大的背景图和多个小图的实例，标志着大规模杀伤性武器指标的相关活动。我们将交易定义为实体之间的互动，并带有关于互动的额外元数据。

图4. SPG生成框架

PNNL_NYC_V3和PNNL_NYC_V4是使用PNNL为第二阶段开发的事务性KG生成能力生成的WMD数据集。我们把几个公开的数据源放在一起，涵盖了2018年1月至2019年12月在纽约市（NYC）内发生的事件。我们查看了更广泛的数据源，这些数据源提供了与大规模杀伤性武器密切相关的有价值的相关信息，包括与极端主义和武器制造相关的互联网论坛讨论（以及与纽约市的社区相关的良性话题），以及与各种大规模杀伤性武器相关的话题的书目数据。对于大规模杀伤性武器KGs，我们使用了以下数据源，从V3到V4，数据量不断增加，质量不断提高：

新闻文章
Reddit
文摘
书目/出版物数据。

图5显示了PNNL提出的从异质来源开发交易性KG图的框架。我们利用基于自然语言处理（NLP）的实体和关系提取能力，作为AIDA计划的一部分，并使用云规模的NiFi管道为MAA-WMD场景进行定制。我们还使用WikiData作为参考知识库，将实体和事件纳入纽约市的图中。为了生成NYC和MSB数据集，PNNL还开发了基线能力，以对齐事务性KG中的实体和事件。这些对齐能力是基于在源数据集中观察到的名称稀有性和频率。我们计划在今后的工作中改进它，同时研究过渡问题。

第二阶段图生成的最后一种方法是根据特定领域的本体和来源生成KG。对于MAA COVID19用例，PNNL从哈佛大学INDRA和UIUC Blender Lab数据集等来源生成了一个描述生物路径的KG。他们使用NLP管道从COVID-19开放研究数据集中提取路径知识，该数据集包含了60,000多篇关于COVID-19的科学出版物。我们使用与SARS-CoV-2感染相关的因果断言构建了一个大型的KG，使用的节点类型包括基因、化学、蛋白质、疾病、生物过程、反应、复合体和丰度。边缘类型代表节点之间的功能关系。PNNL侧重于解决数据建模的挑战，以整合新的分类标准和数据源。

图5. 名义上的交易型KG生成框架

3.3 MAA模板生成

除了背景生成，PNNL还开发了新的方法来生成感兴趣的信号并将其嵌入到背景中。对于MAA第一阶段，信号嵌入主要由我们开发的基于图案的生成模型和喋喋不休的模型驱动。这两种方法都确保了信号在背景中不会立即显现。为了衡量信号嵌入的准确性，我们开发了信号-杂波比率，如图6所示。如图7所示，这个比率是通过蒙特卡洛模拟使用一致的机器学习提供的一个难以处理的积分近似值。

图6. MAA第一阶段的信号-杂波测量

图7. 信号与杂波的形成

MAA第二阶段的信号生成方法根据所涉及的用例而有所不同。对于大规模杀伤性武器用例，PNNL继续专注于现实的信号嵌入，并使用与背景图相同的管道生成核心信号，同时进行一些特定场景的定制。我们策划了一个描述WMD活动的数据源集合，并使用NLP管道生成信号。在高层次上，我们使用以下过程来生成和嵌入信号。

1.情景描述和识别关键实体、类型和关系

2.生成信号，将活动描述为一个图

3.信号的模板化（即参数化）。

对于MSB和COVID-19用例，我们没有生成代理现实世界事件的信号，而是与主题专家（SME）合作，在背景中识别真正的正向信号。我们进一步对它们进行参数化，以生成信号。PNNL还为MAA_AIDA用例探索了自动生成模板的方法，它开发了图神经网络能力，根据训练好的信号集学习关键节点类型，以生成额外的模板。

3.4 MAA查询语言

从MAA第一阶段开始，没有为子图匹配问题决定具体的查询语言。PNNL在第一阶段和第二阶段都开发了基于图的查询方法。对于纯结构的第一阶段图，PNNL将查询模板表示为一个细粒度的图，其中每个实体和互动都被列为一个图节点和边。这种方法继续用于第二阶段的初始挑战问题。随着该计划在不同的用例中转向KG，人们发现早期的自下而上的查询规范方法在表达能力和可用性方面受到限制。零散的方法也不支持近似的子图匹配，因为查询需要每个节点和边都出现在结果中。主题专家不需要描述活动的每一个可能的细节（自下而上的方法），因为信息的不可得性、活动的模糊性和群体结构被观察到。

相反，PNNL提出了一种自上而下的方法，使用高层次的节点/边的成员资格、卡度和约束条件来指定一个模板。PNNL开发了Query Like a Graph（QLiG），这是一种新的查询规范，定义了基于图的组件（如节点、边、路径、结构）作为查询语言的基本构件。QLiG允许主题专家使用更高层次的概念，如组、路径和约束，自然地描述特定领域的模式。PNNL开放了该规范，其中的词汇包括以下内容：节点、边缘、结构、路径和约束（归属、结构、类型、成员）。QLiG还定义了可以在查询的其他部分重复使用的边的功能类别。如图8所示，这种强大的能力使主题专家能够在KG中轻松找到模式，因为它简化了MAA的查询。

图8. 自下而上图查询（左）的QLiG表示（右）。

4.0 影响

4.1 MAA的过渡伙伴

为纽约市大规模杀伤性武器用例开发的概念被应用于两个不同的潜在政府过渡合作伙伴的试点研究。在这两个案例中，我们采访了这些机构的分析师，以确定在模糊子图匹配中可以使用什么样的图和模板来帮助解决他们所面临的特殊问题。对于第一个机构，我们创建了5百万个节点和11百万条边的图，有一到两个数据通道，以及六个不同的模板。我们收集并总结了TA3执行者的结果，并向政府合作伙伴展示。他们能够确认其中一些匹配确实是真正的阳性。随后，我们为TA2的执行者提供了与分析员需求有关的匹配任务。

对于我们的第二个过渡伙伴，我们从一个相关的来源收集数据，并创建了一套模板，可以针对一个业务用例进行测试。他们能够确认结果是相关的，并给我们发送了额外的多渠道数据来进行工作。这项工作的结果被认为有足够的价值，他们继续作为过渡伙伴与我们合作。除了模板匹配，我们还提供了图对齐和图生成方面的实验结果。

4.2 MAA用例

除了主要的MAA用例（纽约市WMD）和过渡伙伴用例外，我们还生成了一个与SARS-CoV-2途径有关的生物KG。我们策划了现有的来源，如哈佛大学INDRA和UIUC Blender实验室数据集。源数据是在科学出版物的语料库上使用NLP生成的。这个用例的主要目的是验证MAA图的生成和分析方法，包括在一个不同的应用领域的开发能力。与NYC和过渡伙伴用例相比，MAA COVID-19 KG在图中没有观察到活动和组结构。生物学途径涉及基因、化学品、蛋白质等，而不是交易。这导致了查询模板的生成，其中的模板与其他用例有很大的不同。我们与计算生物学家合作，构建高影响力的科学问题作为图模板。QLiG查询模式被广泛用于描述高阶模糊模板。在与MAA TA3的执行者合作时，我们发现大型的模糊模板导致了高组合的解决方案空间，必须通过对图结构的具体和狭窄的约束来解决。MAA的执行者们能够确定多种匹配的途径，包括地面真相。通过COVID-19用例，我们还强调了图分析的重要性，以提供更丰富的背景信息，并增强基于关键词的搜索方法，如谷歌搜索。

4.3 出版物

PNNL发表了多篇论文、报告、数据集和发明披露，涉及合成图的生成、时间图的描述、图算法的评估、图神经网络的应用和人机界面。

Cottam JA, NC Heller, CL Ebsch, RD Deshmukh, PS Mackey, and G Chin. 2020. "对准的评估。精度、召回率、加权和限制"。In IEEE International Conference on Big Data (Big Data 2020), December 10-13, 2020, Atlanta, GA, 2513 - 2519. Piscataway, New Jersey:IEEE. PNNL-SA-156949. doi:10.1109/BigData50022.2020.9378064

Cottam JA, S Purohit, PS Mackey, and G Chin. 2018. "包括对抗性活动的多通道大型网络模拟"。In IEEE International Conference on Big Data (Big Data 2018), December 10-13, 2018, Seattle, WA, 3947-3950. Piscataway, New Jersey: IEEE. PNNL-SA- 138688. doi:10.1109/BigData.2018.8622305

Dunning MP and S Purohit. 2019. "全球恐怖主义数据的高阶时态分析"。在GTA³ 3.0。The 3rd workshop on Graph Techniques for Adversarial Activity Analytics. Pnnl-SA- 148159。

Ebsch CL, JA Cottam, and G Chin. 2021. "在有分类约束的情况下评估子图匹配问题"。In The 5th workshop on Graph Techniques for Adversarial Activity Analytics (GTA³ 4.0). pnnl-sa-167487.

Ebsch CL, JA Cottam, NC Heller, RD Deshmukh, and G Chin. 2020. "Using Graph Edit Distance for Noisy Subgraph Matching of Semantic Property Graphs"。由C.L. Ebsch在第四届对抗性活动分析图技术研讨会上发表，乔治亚州亚特兰大。pnnl-sa- 158130.

Joaristi M, S Purohit, RD Deshmukh, and G Chin. 2020. "使用图卷积神经网络的数据驱动模板发现"。In IEEE International Conference on Big Data (Big Data 2020), December 10-13, 2020, Atlanta, GA, 2534-2538. Piscataway, New Jersey: IEEE. PNNLSA-156967. doi:10.1109/BigData50022.2020.9378318

Mackey P, K Porterfield, E Fitzhenry, S Choudhury, and G Chin. 2018. "时间子图同构的时间学边缘驱动方法"。In IEEE International Conference on Big Data (Big Data 2018), December 10-13, 2018, Seattle, WA, 3947-3950. Piscataway, New Jersey:IEEE. PNNL-SA-138688. doi:10.1109/BigData.2018.8622305

Mackey PS, WP Smith, MP Dunning, S Purohit, CJ Larimer, MJ Orren, and JA Cottam, NC Heller, CL Ebsch, TM Langlie-Miletich, and G Chin. 2021. "多层子图匹配的对抗性活动检测"。提交给Graph Fest 2021的摘要，马里兰州巴尔的摩。pnnl-sa- 161036.

Orren M, P Mackey, N Heller, and G Chin. 2020. "通过名称唯一性估计的多渠道实体对齐"。In IEEE International Conference on Big Data (Big Data 2020), December 10-13, 2020, Atlanta, GA, 2534-2538. Piscataway, New Jersey: IEEE. PNNL-SA- 156967. doi:10.1109/BigData50022.2020.9378318

Purohit S, F Shelobolin, L Holder, L Holder, and G Chin. 07/19/2021. "Covid-19的流行病学指标和航空旅行数据的时间分析"。提交给SIAM应用和计算离散算法会议的摘要，"在线会议"，华盛顿。pnnl-sa-160489.

Purohit S, L Holder, and G Chin. 2018. "基于时态动机分布的时态图生成"。In 14TH INTERNATIONAL WORKSHOP ON MINING AND LEARNING WITH GRAPHS (MLG 2018), August 20, 2018, London, United Kingdom. pnnl-sa-134797.

Purohit S, NC Heller, G Chin, CL Ebsch, RD Deshmukh, and JA Cottam. 2021. "子图同构的困难度量"。提交给2021年复杂网络在线会议的摘要，西班牙。pnnl-sa-166380.

Purohit S, PS Mackey, JD Zucker, A Bohra, RD Deshmukh, and G Chin. 2021. "QLiG: Query Like a Graph For Subgraph Matching"。由S. Purohit在2021年人工智能与知识工程 "在线会议 "上发表，美国。pnnl-sa-168736.

Purohit S, PS Mackey, WP Smith, MP Dunning, MJ Orren, TM Langlie-Miletich, RD Deshmukh, A Bohra, TJ Martin, DJ Aimone, and G Chin. 2021. "为对抗性活动建模的事务性知识图谱生成"。在2021年IEEE大数据会议上。pnnl-sa-167380。