作者:白宁超,工学硕士,现工作于四川省计算机研究院,著有《自然语言处理理论与实战》一书,作者公众号:机器学习和自然语言处理(公众号ID:datathinks)
定义:源于哲学的概念,知识工程学者借 用了这个概念,在开发知识系统时用于领域知识的获取。本体是用于描述一个领域的术语集合,其组织结构是层次结构化的,可以作为一个知识库的骨架和基础。
目标:获取、描述和表示相关领域的知识,提供对该领域知识的共同理解,确定领域内共同认可的词汇,提供该领域特定的概念定义和概念之间的关系,提供该领域中发生的活动以及该领域的主要理论和基本原理,达到人机交流的效果。
用途:交流、共享、互操作、重用等。
构成:五元素(建模元语)①类(Classes)或概念(Concepts);② 关系(Relations);③ 函数(Functions);④ 公理(Axioms);⑤ 实例(Instances)
构成图例:
分类:
应用主题(5种): 领域本体、通用或常识本体、知识本体、语言学本体和任务本体。
详细程度和领域依赖度:顶级本体(top-level Ontologies)、领域本体(domain Ontologies)、任务本体(task Ontologies)和应用本体(application Ontologies)
应用领域:
应用于知识工程、自然语言处理、系统建模、信息处理、数字图书馆、信息检索和语义Web、软件复用、面向对象技术等领域。
典型应用案例:
基于语义的信息检索,特别是网络搜索引擎和数字化图书馆。
基于本体的数据集成、机器学习等。
领域本体的应用。比如,在生物信息学中已建成的GeneOntology,尽管只包括了part-of等简单的关系,但是对生物信息学界已经有巨大的影响。
语义Web服务。
在线元数据管理和自动信息发布。
本体研究的现状:
国外主要代表为:
万维网联盟W3C的研究;
德国卡尔斯鲁厄大学基于本体的知识门户和语义门户的研究;
美国斯坦福大学的知识系统实验室对本体建模工具和本体应用层面的研究。
2.国内主要代表为:
中国科学院计算所、数学所、自动化所的若干实验室,代表人物是陆汝铃院士等人。
哈尔滨工业大学计算机系,代表人物是王念滨博士。
浙江大学人工智能研究所,代表人物是博士生导师高济教授。
建立本体:
手工建立本体
半自动构建本体
自动构建本体
建立本体的难点:
现状大多手工建立本体费时费力,特定领域需专家参与。
通用的大规模本体少,大多本体只针对某个具体应用领域构造的
在实际应用中,不同本体之间映射、扩充与合并处理等操作复杂。
现实的知识体系变化时,先前构造的本体必须作相应的演化保持一致性。
定义:领域本体(Domain ontology) 是描述指定领域知识的一种专门本体,它给出了领域实体概念及相互关系领域活动以及该领域所具有的特性和规律的一种形式化描述。
领域本体构建主要方法:手工构建、复用已有本体(半自动构建)以及自动构建本体。
作用: 明确专业术语、关系及其领域公理, 使其形式化;在人与人之间、人与机器之间达到共享;实现一定程度的领域知识复用。如:企业本体、医学概念本体、酶催化生物学本体、陶瓷材料机械属性本体等。
构建原则:
① 明确性和客观性:用自然语言对所定义术语给出明确的、客观的语义定义。
② 完全性:定义是完整的,完全能表达所描述术语的含义。
③ 一致性:由术语得出的推论与术语本身含义不会产生矛盾。
④ 最大单调可扩展性:添加通用或专用的术语时,不需要修改己有的内容。
⑤ 最小承诺:尽可能少的约束。
⑥ 最小编码偏差:尽可能独立于具体的编码语言。
⑦ 兄弟概念间的语义差别应尽可能小。
⑧ 使用多样的概念层次结构实现多继承机制。
⑨ 尽可能使用标准化的术语名称。
构建工程思想:(比较出名的)
1 IDEF-5方法:
IDEF的概念是在结构化分析方法的基础上发展起来的。用于描述和获取企业本体的方法。IDEF5通过使用图表语言和细化说明语言,获取关于客观存在的概念、属性和关系,并将它们形式化成本体。
IDEF5创建本体的5个主要步骤是:① 定义课题、组织队伍;② 收集数据;③ 分析数据;④ 本体初步开发;⑤ 本体优化与验证。
2 Skeletal Methodolody骨架法
骨架法(Skeletal Methodology),又称Enterprise法,专门用来创建企业本体(是有关企业建模过程的本体)。"骨架法"流程见图3。
3 TOVE企业建模法
通过本体建立指定知识的逻辑模型。用一阶逻辑构造了形式化的集成模型,包含企业设计本体、项目本体、调度本体或服务本体。
4 Methontology方法
该方法是在结合了骨架法和GOMEZ-PEREZ方法后,提出的一种更为通用的本体建设方法。这个本体开发方法更接近软件工程开发方法。它将本体开发进程和本体生命周期两个方面区别开来,并使用不同的技术予以支持。
专用于创建化学本体(有关化学元素周期表的本体),该方法已被马德里大学理工分校人工智能图书馆采用。它的流程包括:
(1)管理阶段:系统规划包括任务进展情况、需要的资源、如何保证质量等问题。
(2)开发阶段:分为规范说明、概念化、形式化、执行以及维护五个步骤。
(3)维护阶段:包括知识获取、系统集成、评价、文档说明、配置管理五个步骤。
5 循环获取法
是一种环状的结构。基本流程如下:
(1)资源选取:这是环形的起点,是一个通用的核心本体的选择。任何大型的通用本体(像Cyc、Dahlgren的本体)、词汇-语义网(像WordNet,GermaNet)、或者领域相关的本体(像TOVE)都可以作为这个过程的开始。选定基础本体后,用户必须确定用于抽取领域相关实体的文本。
(2)概念学习:从选择的文本中获取领域相关的概念,建立概念之间的分类关系。
(3)领域集中:除去领域无关的概念,只留下和领域相关的。
(4)关系学习:除了基础本体中继承的关系,其它关系通过学习从文本中抽取。
(5)评价:对得到的领域相关的本体进行评价,还可以进一步地重复上述过程。
循环获取法图示:
6 七步法
斯坦福大学医学院开发的七步法,主要用于领域本体的构建。七个步骤分别是: ① 确定本体的专业领域和范畴;② 考查复用现有本体的可能性;③ 列出本体中的重要术语;④ 定义类和类的等级体系(完善等级体系可行的方法有:自顶向下法、自低向上法和综合法[7]);⑤ 定义类的属性;⑥定义属性的分面;⑦ 创建实例[1]。
构建领域本体的步骤:
1 确定领域本体的专业领域和范畴
2 考虑复用现有的本体
3 列出本体涉及领域中的重要术语
4 定义分类概念和概念分类层次
5 定义概念之间的关系
主要特点:强调构建本体时要按照一定的规范和标准。相对于一般的系统,本体更强调共享、重用,可以为不同系统提供一种统一的语言,因此本体构建的工程性更为明显。
方法:目前为止,本体工程中比较有名的几种方法包括TOVE 法、Methontology方法、骨架法、IDEF-5法和七步法等。(大多是手工构建领域本体)
现状: 由于本体工程到目前为止仍处于相对不成熟的阶段,领域本体的建设还处于探索期,因此构建过程中还存在着很多问题。
方法成熟度: 以上常用方法的依次为:七步法、Methontology方法、IDEF-5法、TOVE法、骨架法。
叙词表: 叙词表又称为主题词表,它是一种语义词典,由术语及术语之间的各种关系组成,能反映某学科领域的语义相关概念。叙词表收录了某一领域的所有叙词和非叙词,按照一定顺序排列。由于叙词表包含丰富的领域概念和一定的语义关系,在表达知识结构上与本体有着天然联系,包含了本学科领域中相对比较完整的术语,因此,国内外很多学术团体都在尝试着基于叙词表进行本体的构建,研究重点在于叙词表向本体转换的方法。
叙词表进行转换的两种思路:
直接用某种本体表示语言表示叙词表中的词汇和关系;
仅将叙词表作为本体中概念的来源。
国内外研究现状:
国外:如由联合国粮农组织转换为业本体的Agrovoc叙词表,教育资料网关(GEM) 中的受控词表,艺术和建筑叙词表(AAT) 等。 国外比较成熟的是通过本体表示语言对叙词表的词语和关系进行转换有以下几种:
用XML Schema构建叙词标记语言。
用RDF Schema关系表示叙词内容。
用RDF Schema表示叙词关系。
用DAML + OIL关系表示叙词关系。
国内:对叙词表转化的研究,正处于热点阶段,主要有《国防科学技术叙词表》和《中国农业科学叙词表》的一部分。中国农业科学院科的常春博士基于《中国农业科学叙词表》的"作物大类",构建了一个有关食物安全的本体原型。中国国防科技信息中心的唐爱民等则对如何基于国防叙词表来构建国防领域本体进行了研究, 他们结合Enterprise方法、Methontology方法与软件开发模型——"瀑布模型"提出了一种基于叙词表的领域本体构建方法。他们通过基于《国防科学技术叙词表》成功构建了军用飞机领域本体的原型,构建模型如下图:基于叙词表的领域本体构建流程图:
其中,领域本体的详细设计过程也可称为领域本体的具体构建过程,详细设计是本方法中最核心、最关键的步骤,流程如图:
本体构建的理论探讨已经比较成熟,但当将构建完的本体与实际应用联系起来的时候,就会存在的一些问题:① 领域本体构建与应用脱节;②领域本体难以复用和集成;③ 由叙词表难以转化成真正的本体;④ 本体构建的概念体系不够规范。 针对本体构建与应用中出现的问题,提出了基于顶层本体开发领域本体的指导方法。该方法从本体工程方法论的成熟度和领域本体构建的特点出发,借鉴了骨架法和七步法,并融合了叙词表和顶层本体资源,对概念体系的规范化校验和本体的标准化处理提出了具体的方法和步骤。
1 手工构建:TOVE 法、骨架法、IDEF-5 法、METHONTOLOGY法、SENSUS 法、KACTUS 工程法、七步法。本体的构建主观性太强, 且比较随意, 缺少科学管理和评价机制。主要问题:
1) 需求描述不充分和建设过程的无计划性
2) 建设过程缺少规范性
3) 成果没有评价标准
4) 忽视本体的共享和重用
2 复用已有的本体
基于叙词表和基于顶层本体的构建方法均属于复用已有本体的半自动构建方法。复用已有的本体,可以获得领域知识以及概念关系,使得本体构建有一个很好的起点。
目前可复用的本体资源主要有:① 叙词表资源,如中国农业科学叙词表、国防科学技术叙词表等;② 顶级本体,如Cyc、SUMO、WordNet、FrameNet等;③ 数据库资源;④ 在线本体库,如Ontology Engineering Group 和DAML。
瓶颈问题:
1 很少有现存的不经修改就能被复用的本体
2 有不少领域没有可供利用的本体资源。
3 本体复用带来了不同本体匹配的问题
4 有些本体资源改造起来需要大量的投入,改造否值得待研究。
3 自动构建本体
自动构建本体是目前的一个研究热点。研究者借鉴知识获取的相关技术,有基于自然语言规则的方法和基于统计分析的机器学习方法。
利用机器学习会产生大量的噪音数据
缺乏必要的语义逻辑基础
抽取的概念关系松散且可信度无法得到很好的保障。
利用自然语言处理,概念间潜在关系的分析则需要依赖复杂的语言处理模型。
尽管机器学习应用于本体自动构建有巨大的潜力,但是距离良好的可理解性尚有很大的距离,随着研究的深入这种状况应该有望得到改善。
本体是某一领域共享的、概念化( conceptualization) 、形式化表示的知识体系。第二代互联网的发展需要大量的领域本体作为支撑。目前,领域本体主要依赖手工构建,需要耗费大量的人力, 因此本体的构建成为第二代互联网发展的瓶颈。 首先对本体的相关理论(包括本体的定义、描述语言、建设工具等)进行介绍,结合领域本体一般构建原则,对各种领域本体构建方法以及存在的问题进行了详细分析。 创建领域本体的起点可产生自不同情况。可以是从抓取开始,也可以从已存在本体开始,还可从数据源文集开始,或者是后两个方法的组合。创建本体的自动化程度也是不同的,从完全的人工、半自动化到全自动化。当前, 全自动化的方法只能实现受限条件下的轻量级本体的构建。领域主体的构建是一项极其艰巨的任务, 如何应用知识获取技术来降低本体构建的开销目前也是一个很有意义的研究方向。
作者:白宁超,工学硕士,现工作于四川省计算机研究院,研究方向是自然语言处理和机器学习。曾参与国家自然基金项目和四川省科技支撑计划等多个省级项目。著有《自然语言处理理论与实战》一书。点击阅读原文可直达原文链接。
作者博客官网:
https://bainingchao.github.io/
作者公众号,欢迎关注: