互动、讨论和各种信息的交流使网络成为今天的场所。文本、图像、视频,甚至诸如地理空间和健康数据等信息都以前所未有的规模被分享。网络上的这种信息交流为各种数据驱动的应用产生了一个广泛的、可自由访问的数据源--有多种机会,但也有风险。在本文中,我们介绍了研究项目ADRIAN--"在线网络中依赖权威的风险识别和分析 "的总体思路,该项目致力于研究和开发基于人工智能的方法,以检测基于异质性在线数据集的个人和机构的潜在威胁。我们将首先监测选定的社交运动应用程序,并分析收集的地理空间数据。在第二步,体育应用和社交媒体平台的用户资料将被关联起来,以便能够形成一个个人集群,并能够识别潜在的威胁。由于所谓的 "数字孪生 "可以通过这种方式重建,因此会产生敏感数据。如果这些数据也能与其他机密数据相关联,就有可能估计出个人、团体或地点所受威胁的合理性。
现代网络是基于互动、讨论和信息交流的。然而,网络也为数据驱动的应用创造了一个巨大的、可自由访问的信息源。由于网络上用户生成的数据以自动化的方式与现有资源有效地联系在一起,即使是无意中透露的个人信息也会产生破坏性的后果。因此,即使是微不足道的,有时是无意披露的信息也会对个人、团体或整个组织产生潜在的有害影响[1,2,3]。尽管服务提供商现在有责任和利益来确保网络上用户数据的安全和隐私,但这些数据被滥用、泄露,或者公开的信息被用来对付原始创建者[4]或政府机构[5]的情况越来越多。执法部门和其他人群在社交媒体平台上面临着越来越多的潜在威胁,这不仅仅是自2020年美国发生暴乱以来。特别是,社交媒体账户和帖子(如Twitter或Instagram)与流行的体育应用程序的跟踪和位置数据的收集和链接,使用户和他们的亲人可以被识别,使他们可以追踪,成为网络攻击的潜在目标(如网络跟踪,doxing,身份盗窃)[5,6]。在这种情况下,另一个与安全有关的方面是,可以利用收集到的跑步路线的地理空间数据来定位军事基地[7]。由于不是所有的信息本身或组合都会造成威胁,单纯的数据最小化、限制数据访问、数据规避和预防工作是不够的[8]。在研究项目ADRIAN--"在线网络中依赖权威的风险识别和分析"中,我们采取了主动搜索、建模、预测和突出网络威胁的方法,并特别针对政府机构进行研究。我们的方法的目标是自动监测选定的(体育)应用程序,并分析其收集的数据,将其与社会媒体资料相关联,形成个人集群,以确定潜在的目标并评估其风险潜力。这是基于处理文本(如推文)、图像(如建筑物前的自拍、地图)和地理空间信息(如跑步路线)。这意味着我们正在处理一个异质的数据集。由于它的构成,对处理方法的要求也非常不同。由于在数据分析和知识提取过程中可以通过这种方式重建所谓的 "数字孪生",因此产生了极其敏感的(元)数据[6]。通过将这些信息与其他分类数据相关联,就有可能确定相应(群体)个人或地点的威胁可信度。为了实现这些目标,技术实施必须结合信息检索方法和法医语言学的方法。此外,网络分析和聚类的方法将被用来开发新的评估功能,以根据披露的信息识别目标(人、地点等)。
在本文中,我们介绍了我们对这一主题的理解,也介绍了我们的方法和我们的原型,我们正在不断地开发。本文的组织结构如下。在第2节中,我们回顾了当前的研究现状,重点是现有的方法和定义,因为通常缺乏统一的术语。在第3节中,我们介绍了我们自己在ADRIAN中采取的方法,从有针对性的数据收集、数据聚合和充实以及交互式可视化开始。在第4节中,我们介绍了我们在原型上的工作,并在第5节中讨论了我们的方法,然后在第6节中得出结论并提出展望。