↑↑点击上方蓝字关注我们
摘要:提出一种基于本体的军事术语知识图谱构建方法,用于获取军事术语数据中的语义信息并构建军事术语知识图谱。该方法在军事术语数据分析的基础上构建军事术语本体,采用基于规则的方法和基于预训练模型的方法抽取军事术语关系,并使用图数据库存储军事术语知识,可以构建出高质量的军事术语知识图谱,支持语义搜索、智能问答等智能化应用。为严格规范军事用语,军事管理部门编写了军事术语。军事术语是军队在作战、训练以及其他工作中统一使用的规范化用语,是军事组织和军事人员交流军事思想、传递军事信息、统一军事认知的重要工具。军事术语作为军事领域内的专用术语,专门指称军事相关的概念,具有无歧义、解释性高的特点,在表述军事概念、统一军事认知、协调军事行动等方面起到了巨大的作用。但是,当前军事领域当中存在军事术语应用不规范的军事法规、军事公文。常见的问题有形近混用、义疏滥用等。例如“推进”和“前出”两个军事术语均表示部队向前移动。前者表示对抗敌人前进,后者表示没有遇敌的情况前进。二者所传达的语义对于指挥人员战略部署以及军事行动方向具有重要作用,滥用这两个术语可能导致延误战机等严重后果。随着信息技术的不断发展,信息化作战逐渐成为作战的新形式,目前已有的军事知识图谱均采用网络百科等数据构成,这些数据中的军事术语的数量以及质量难以满足军事文本智能处理等任务的要求。因此,如何构建军事术语知识图谱、发掘军事术语潜在价值,从而规范军事用语、支撑军事术语智能化应用,已成为当前亟待解决的问题。近年来,知识图谱相关技术经历了快速发展,为军事术语的信息组织提供了解决方案。知识图谱于2012年被Google正式提出,其初衷是为了提高搜索引擎的能力,增强用户的搜索质量以及搜索体验。与此同时,知识图谱也被引入各行各业并发挥了巨大作用。知识图谱可以解决军事领域中的知识表达、共享、分析和应用等问题,为推动军事领域智能化发展注入了强大的动力。雷瑛融合了多个数据源构建军事知识图谱,为军事领域人员快速获取军事相关知识提供帮助。葛斌提出军事知识图谱构建方法与计算框架,为军事信息组织与知识管理提供模板。丁君怡使用开源数据的武器装备数据构建知识图谱,为基于开源数据的知识图谱构建提供了指导。车金立等人提出了一种军事装备知识图谱的构建方法,有效利用网络中的军事装备数据构建军事装备知识图谱,解决了军事装备数据分布稀疏以及数据之间缺乏良好的关联与组织的问题。赵瑜等人提出基于开源数据的军事领域知识图谱构建方法,提出了包含开源数据知识库构建与检索展示的军事领域知识图谱框架,并设计了知识发现算法,为军事领域知识图谱的维护提供了自动化实现方案。上述知识图谱构建方法所采用的数据都来源于网络,数据的质量无法保证,难以满足军事术语知识图谱构建的质量要求。为此,本文提出一种基于本体的军事术语知识图谱构建方法,用于构建军事术语概念体系和高质量的军事术语知识图谱,进一步挖掘军事术语语义信息的潜在价值,为军事相关人员的作战提供参考信息。
1 军事术语知识图谱构建流程****
军事术语知识图谱构建流程如图1所示。本文在分析军事术语数据的基础上,设计军事术语本体。军事术语本体定义了军事术语类别和军事术语关系。构建军事术语知识图谱的主要内容为实体识别和关系抽取。军事术语数据为半结构化数据,因此,军事术语数据中能够直接提取出军事术语实体信息。军事术语关系信息采用基于规则的方法和基于预训练模型的方法联合抽取。以上两种关系抽取方法抽取的军事术语关系信息存储在Neo4j图数据库中并进行可视化,便于军事领域人员进一步分析利用。 图1 军事术语知识图谱构建流程
2 军事术语本体构建****
军事术语本体对军事术语数据进行顶层设计,规定了术语实体属性、关系等要素,保证了知识图谱构建过程中的规范性和准确性。智能问答系统将用户提出的问题解析为基于实体及其关系的多跳查询,从而返回最终的关联实体。军事术语本体通过规定的实体属性和关系,可以为基于军事术语知识图谱的问答提供具有可解释性的推理,保证了多跳路径的可靠性,为用户提供一个高置信度的答案。
2.1 军事术语数据结构分析本文构建军事术语知识图谱的数据来源主要是军事概念相关的书籍及内印的标准化数据。军事术语是由军事领域专家编写的规范化术语,具有文字直白精炼、内容科学准确、形式规范统一的特点。军事术语采用的叙述风格都严格按照军事术语编撰手册进行编撰,使用的叙述风格、词语和标点符号具有统一的标准。军事术语文本数据主要由军事术语概念的定义和附加说明组成,定义是对军事术语所表述的军事概念的本质特征或内涵和外延的确切而简要的说明,附加说明是对军事术语概念的补充解释,因此,可以采用基于规则的方法抽取军事术语之间的关系。为了弥补基于规则的抽取方法需要大量人工构建规则的缺陷,本文进一步采用基于预训练模型的方法抽取军事术语之间的关系。基于规则的方法和基于预训练模型的方法相互补充,能够高效且准确地提取军事术语的关系。
2.2 军事术语本体设计
本体论源于一个哲学上的概念,是表达哲学理论的一个术语。本体是指对概念、数据和实体之间的类别、属性和关系的表示、命名和定义。Studer等人将本体定义为本体是共享概念模型的明确的形式化规范说明。该定义覆盖了本体的四大特征:共享、明确、概念化和形式化,该定义被各个领域的专家学者高度认可。通常,本体可以采用一个五元组进行表示,即O=(C, R, F, A, I)。C表示本体当中的概念,本体中的概念可以是广义上的概念,也可以是一般意义上的概念。本体中的概念通常构成一个分类层次,例如军事术语本体当中的军事思想概念、军事战略概念;R表示本体中概念之间的一种关联关系,例如军事术语的同义词是军语;F表示函数,它是本体中一种特殊的关系;A表示公理,它用于表示本体中的永真式;I表示某个概念的基本元素,即某概念类所指的具体实体,例如军事术语、陆军战略。
本文通过归纳整合军事术语相关的本体概念对军事术语进行分类,并借鉴了军事百科全书对军事术语概念的分类。军事术语实体类分为军事思想、军事工作等16大类。军事术语类别的具体定义如下:
图2 军事术语本体结构示意图
3 军事术语知识图谱构建
传统的军事术语搜索引擎仅仅通过计算文本相似度获取与搜索内容相关的结果,无法基于搜索内容的语义获取答案,影响了作战人员的搜索效率。为了解决该问题,军事术语知识图谱从原始数据中挖掘高质量的实体和关系信息,构建军事术语之间的语义关联。基于该知识图谱可以将搜索内容解析为实体和关系要素,从而返回图谱中与这些要素所关联的实体,为用户提供更加完整、准确的搜索结果。
3.1 军事术语实体构建实体构建的核心是命名实体识别,是指从文本数据集中识别出命名实体。军事术语原始数据为半结构化的形式。军事术语的属性主要包括术语名称、英文名称、术语简介以及术语类别等信息。因此,按照军事术语本体的定义,从军事术语的原始数据中能够直接获取军事术语的实体及其属性信息。
3.2 军事术语关系抽取
军事术语之间的关系需要采用专门的方法从原始文本数据中抽取出军事术语本体中定义的各类关系。本文采用基于规则的方法抽取军事术语三元组信息,并使用该三元组信息训练军事术语关系抽取模型,再将该模型应用于军事术语关系抽取任务中。两种关系抽取方法相互补充,不仅保证了军事术语关系抽取结果的质量,而且提高了军事术语关系抽取的效率。
表1 军事术语关系抽取规则及正则表达式示例
近年来,基于无监督深度学习的预训练模型在自然语言处理领域展现了强大的能力,成为了工业界和学术界的主流研究,在智能搜索、智能问答等方面得到了广泛应用。预训练技术通过使用大规模无标注的文本语料来训练深层网络结构,从而得到一组模型参数,这种深层网络结构通常被称为预训练模型[12]。预训练模型训练过程由预训练阶段和微调阶段组成,在预训练阶段模型基于无标注文本数据采用预训练任务学习通用的语法、语义等知识,在微调阶段采用基于标注的数据微调模型参数,学习领域任务模式,应用到下游任务。
目前,主流的预训练模型主要包括ELMo、GPT、Bert等。ElMo模型利用双向的LTSM编码器可以捕捉到上下文潜在的语义信息,解决传统模型无法解决的一词多义的问题。GPT模型则是利用海量的数据训练出一个生成式的预训练模型,该模型采用改进的Transformer的解码器作为网络架构,用于学习可迁移到多种下游任务的通用文本表示。Bert采用双向的Transformer层,基于双向的Transformer能够学习上下文信息,并且Bert在多种信息抽取任务的数据集上取得了最佳的效果。然而,以上模型都是针对英文的数据集进行训练的预训练模型,并不适用于面向中文的军事术语关系抽取模型。Bert-wwm是谷歌公司在2019年发布的Bert的升级版本,该模型使用全字掩蔽(wwm)缓解在训练前Bert中屏蔽部分Wordpiece分词的缺点,使用中文维基百科等中文语料进行训练的预训练模型。Bert-wwm适用于中文领域的模型的微调任务。为此,本文采用Bert-wwm作为微调的预训练模型。
为能高效预测军事术语之间的关系,本文采用R-Bert的方法抽取军事术语关系。首先对数据中的军事术语实体信息使用Bert-wwm预训练模型对军事术语数据进行编码,然后将Bert-wwm输出的向量信息中的头实体和尾实体的向量进行平均,再进行激活和全连接操作得到最终的表示向量,公式如(1)和(2)所示。
其中,W1和W2为两个随机初始化向量,b1和b2为随机初始化的偏置值。 为了表示头实体和尾实体的上下文语义,模型采用[CLS]表示,[CLS]的向量计算公式如(3)所示。
将得到的头实体向量、尾实体向量和[CLS]向量进行连接操作,得到最终的关系向量。最后,关系向量经SoftMax激活函数得到最终关系抽取结果,公式如(4)所示。
军事术语关系抽取模型的结构如图3所示。 图3 军事术语关系抽取模型 3) 结果分析 基于规则的方法抽取出军事术语关系的数据集分布如表2所示。为训练军事术语关系抽取模型,本文把军事术语训练数据按照8:1:1的比例划分为训练集、验证集和测试集。训练集和验证集用于训练军事术语关系抽取模型。模型的训练采用Adam优化器,设定初始学习率为1×10-4,dropout率设置为0.1,Batch-Size大小设置为16,并对关系抽取的目标函数进行优化,微调出军事术语关系抽取模型。最终,经过测试,军事术语关系抽取模型的准确率为94.11%,召回率为93.95%,F1值为94.03%。 表2 军事术语数据集分布
基于规则的方法构建了一个高质量的军事术语关系三元组数据集,并为军事术语关系抽取模型提供了训练数据。但是,基于规则的方法需要大量的人工构建规则,难以抽取更丰富的军事术语关系。基于预训练模型的方法抽取军事术语关系的准确率达到94.11%,基本达到了基于规则的方法的准确率。采用基于预训练模型的方法进一步处理军事术语原始数据,能够高效地抽取军事术语关系信息,与基于规则的抽取方法形成有效互补。 4 知识图谱存储与可视化****
知识图谱的存储可以采用关系型数据库或图数据库。关系型数据库查询不同实体之间关系时存在多个表之间的连接操作,这将降低知识图谱的查询效率。图数据库是一个使用图结构进行语义查询的非关系型数据库,它使用节点、边和属性来表示和存储三元组数据。图数据库可以快速地检索难以在关系数据中建模的复杂结构,查询节点关系的效率高于关系型数据库,并且图数据能够直观地表示实体及其关系。鉴于图数据库的优点以及军事术语知识图谱结构特征,本文使用Neo4j图数据库存储军事术语三元组信息。军事术语知识图谱的可视化展示示例如图4所示。 图4 军事术语知识图谱示例
5 军事术语知识图谱应用前景****
本文构建的军事术语知识图谱包含实体46 432个,实体之间的关系98 378个。通过构建军事术语知识图谱能够捕捉军语之间的多元异构关系,从而提高检索系统的语义理解能力,实现更高质量的检索结果,提供智能问答服务。 随着人工智能的快速发展,以预训练语言模型为代表的自然语言处理技术已经在信息抽取、智能对话、摘要生成等通用场景中取得了广泛的应用。尽管预训练语言模型能够学习一般性的词法、语法和句法等知识,但该类模型基于单词之间的高频共现信号学习单词的语义,而军事术语属于领域稀疏词,这使得该类模型无法理解军事术语的语义,从而限制了模型在军事领域的应用。军事术语知识图谱能够为通用预训练语言模型提供实体以及实体间的关联信息,从而帮助预训练语言模型理解稀疏军事术语的语义。基于军事术语知识图谱的表示学习技术能够将知识图谱中字符形式的实体和关系转换为表示向量,通过军事术语本体和预训练任务为预训练语言模型注入军事术语及其关系的语义,从而生成军事领域适用的领域预训练语言模型,促进人工智能技术在军事文本智能处理、重要情报发现等军事场景中的应用。
本文阐述了基于本体的军事术语知识图谱构建方法。在分析军事术语数据特征的基础上,定义军事术语本体;通过对军事术语数据的分析,归纳军事术语抽取规则,并采用基于规则方法和基于预训练模型的方法联合抽取军事术语三元组信息;最后,将军事术语三元组信息存储在Neo4j图数据库中,形成网状结构的知识图谱。该方法依据规范准确的高质量军事术语数据,挖掘军事术语数据中蕴含的丰富的语义信息,为军事术语知识图谱的构建提供参考方案。 END | 作 者:黄伟春, 肖刚, 杨健, 袁皓| 责 编:胡前进| 审 核:张培培 企业使命:以电子装备增强国防 以科技产业服务社会 企业愿景:建设信息系统与智能装备领域国内领先、国际先进的创新型高科技集团 核心价值观:人本 责任 团队 进取 分享收藏点赞在看