新智元报道
作者:专知
来自“ 知识图谱标准化”
本文件给出了知识图谱的技术框架中知识图谱供应方、知识图谱集成方、知识图谱用户、知识图 谱生态合作伙伴的主要活动、任务组成和质量一般性能等。本文件适用于知识图谱及其应用系统的构建、应用、实施与维护。
本文件给出了知识图谱的技术框架中知识图谱供应方、知识图谱集成方、知识图谱用户、知识图 谱生态合作伙伴的主要活动、任务组成和质量一般性能等。本文件适用于知识图谱及其应用系统的构建、应用、实施与维护。
目的意义
当前,人工智能发展进入新阶段,其迅速发展正在深刻改变人类社会生活、 改变世界,成为国际竞争的新焦点和经济发展的新引擎。其中,如何从海量数据 中获取有用的信息是人工智能关注的一个重要问题。知识图谱技术提供了一种从 海量文本和图像等数据中抽取结构化知识的手段,是搜索引擎、问答系统等应用 的核心技术。在国务院发布的《新一代人工智能发展规划》中明确指出要发展“知 识计算引擎和知识服务技术”,重点突破知识加工、深度搜索和可视交互核心技术,实现对知识持续增量的自动获取,具备概念识别、实体发现、属性预测、知 识演化建模和关系挖掘能力,形成涵盖数十亿实体规模的多源、多学科和多数据 类型的跨媒体知识图谱。知识图谱技术提供了一种从海量文本和图像等数据中抽 取结构化知识的手段,是搜索引擎、问答系统等应用的核心技术,并在金融证券、 生物医疗、交通、教育、农业、电信、电商、出版等行业已有非常丰富的应用场 景。但是,目前还缺少一套规范化的知识图谱技术框架指导相关企业,特别是中 小型企业和创业公司有效开展技术研发,同时与其他行业的现有系统之间实现互 联互通和信息融合。存在的问题如下:
1)知识图谱相关核心术语定义缺失,各方使用术语混杂、内容不明确、体 系不统一;2)知识图谱构成描述不统一、不明确,内容划分混乱;
3)知识图谱构建技术路径及主要组成活动间关系不明确;
4)知识图谱应用系统架构不统一,核心模块定义缺失;
5)知识图谱应用系统集成与部署路径及主要组成活动间关系不明确。
本文件在编制过程中,通过参考大量已经发布的国内外标准,并广泛听取产 学研用相关单位的意见和建议,结合知识图谱技术水平和应用现状,对知识图谱 供应方、知识图谱集成方、知识图谱用户、知识图谱生态合作伙伴等利益相关方 划分进行明确,提出了各利益相关方的输入输出关系和主要活动构成等。
范围和主要技术内容
本标准规定了知识图谱的框架,包括知识图谱的输入要求,知识图谱的建立过程,即知识图谱的提取、存储、挖掘与推断、性能指标、知识图谱的应用、相关领域、知识图谱涉及的人工智能技术以及其他需要的数字基础设施。 本标准的目标使用者包括:任意类型与规模的企业,包括应用或实施知识图谱系统的公有和民营企业、政府主管部门、非营利组织等。 本标准的主要技术内容包括:知识图谱架构、输入要求、场景定义、性能指标、构建知识图谱所需的人工智能技术和数字基础设施等。
产业化情况、推广应用论证和预期达到的经济效果
知识图谱作为机器认知智能实现的基础之一,是人工智能的重要组成部分, 有助于实现自动化和智能化获取、挖掘和应用知识,获得了产业界和学术界的广 泛关注。知识图谱是以结构化的形式描述客观世界中的概念、实体及其关系的大 型知识网络,将信息表达成更接近人类认知的形式,提供了一种更好地组织、管 理和理解海量信息的能力。在政策部署、技术研发、标准研制、产业化推广、前 沿应用场景试点等多方面因素的共同驱动下,知识图谱逐渐实现在智慧金融、智 慧医疗、智慧能源、智能制造等众多领域的落地应用和深度融合,同时在各行业 的数字化转型过程中,跨领域、行业或产业的知识图谱也逐渐获得关注。
在上述背景下,本标准对目前知识图谱应用比较好的金融证券、生物医疗、 交通、教育、农业、电信、电商、出版等行业的应用过程特点、需求、主要问题 和未来趋势进行了归纳总结。制定本标准有助于不同类型的企业基于规范化的实 施路径进行知识图谱应用的开发。同时,该标准还有利于给知识图谱研发企业提 供数字化基础设施支持的人员,如云平台研发人员,信息安全工程师等理解知识 图谱,从而提供更有效的技术支持。不同行业的应用企业和人员也可通过这一框 架提取出更多类型的知识,产生更多可能的应用场景。此外,本标准的研制对推 动企业进行知识驱动的数字化转型升级具有重要意义,为进一步加快知识要素的 规划化获取、挖掘、应用与流通奠定了基础。
知识图谱概念模型
知识图谱的概念模型可划分为本体层和实例层,如图1所示。其中,本体层由实体类型和其属性、 实体类型间关系类型、规则等本体相关知识元素构成;实例层是对本体层的实例化,由实体类型对应 的实体及其属性以及实体间关系等实体相关知识元素构成。 图1示出的知识图谱概念模式的主体是实体。实体是真实对象的抽象,实体类型是某类实体的进一 步抽象。基于不同层次的抽象,图中的本体层和与实例层是相对的。构建某个知识领域的某个层次的 特定知识图谱时,“实体”这个抽象称呼将使用所关注的特定对象的具体名称取代。图中名为“属性” 的两个方框是分别针对本体层的所有实体类型和实例层的所有实体。本体层的“属性”是指对应实体 类型的属性,各个属性是概括性描述;实体层的“属性”是指对应实体的属性,是某实体类型实例的 属性的具体描述。同时,多个实体和关系的组合可以构成新的复杂实体,如:由时间、人物、地点等 要素构成的事件,由不同模块构成的产品等。
知识图谱技术框架
图2示出从构建到使用知识图谱涉及的各类技术活动的框架,简称技术框架。这些活动归纳为知识 图谱的构建、基于知识图谱的产品或服务的开发、知识图谱的使用、以及面向知识图谱开发和使用的 辅助支持四大类。
图 2 知识图谱技术框架
图2示出的四大类知识图谱相关活动简述如下:
a) 知识图谱的构建:此组活动主要包括知识表示、知识建模、知识获取等活动。其主要目标是构 建出所需的知识图谱,同时开发出相应的基础工具和/或服务。此组活动的主要依据是知识图 谱应用需求和质量要求;往往需要行业知识、业务数据、辅助知识等予以支持。
b) 基于知识图谱的产品或服务开发:此组活动主要包括需求分析、系统设计、知识图谱集成等活 动。这些活动的执行基于上述a)描述的活动构建的知识图谱和相应的知识图谱应用需求等完成 知识图谱应用系统的开发和集成,并提供配套的产品或服务。
c) 知识图谱的使用:此组活动主要包括知识应用、知识维护、知识提供等活动。这些活动的执行 基于上述b)描述的活动产生的知识图谱应用系统或服务。通过这些活动完成知识的使用和维护, 并对外提供必要的知识。
d) 知识图谱开发和使用的支持:此组活动主要包括基础设施提供、数据提供、安全保障、咨询评 估等。它们对上述a)、b)和c)描述的活动的执行提供必要支持,例如:提供辅助数据或知识、 支撑技术或服务等。
上述四大类活动分别主要由以下四类参与者执行:
1) 知识图谱供应方:主要执行知识图谱的构建和提供活动;
2) 知识图谱集成方:主要执行基于知识图谱的工具或服务开发和集成活动;
3) 知识图谱用户:主要执行知识图谱的使用活动;
4) 知识图谱生态系统合作伙伴:主要执行知识图谱开发和使用的支持活动。每类参与者有其主要执行的活动,同时可能执行涉及四大类活动中的多项活动,知识图谱利益相 关方构成及其关系见附录A。
参考资料:
https://mp.weixin.qq.com/s/B_NGGeGEYMUT1rhmgACscA