进入21世纪以来, 地球科学研究正进入一个以建立新知识体系为核心和大数据驱动为手段的重大转折时 期, 从传统的百科全书式的学科知识体系到计算机可理解与可操作的知识图谱是地学知识研究的一次革命性跃 迁. 地学知识图谱在采纳一般知识表达的图模式基础上, 拓展地学知识所特有的时空特征, 融合图、文、数等地 学要素, 从而建立全域地学知识表达模型; 发展联邦式群智协同地学知识图谱构建方法, 协同全球地球科学家, 实 现高质量的专业知识图谱构建; 发展基于深度解析的多模态地学数据动态知识图谱构建方法, 从海量的地学文献 资料中提取地学知识, 实现最新、最全的动态地学知识图谱构建. 全面而系统的地学知识图谱不仅可以深化现有 的地学大数据分析, 而且可以推进大数据驱动的高精度地质时间轴构建、规则与数据驱动的智能地图编制、地 学知识演化与推理分析等研究, 将进一步拓展数据与知识双重驱动的地学研究新方向, 开辟地球科学、信息科学 和数据科学交叉的新领域, 实现地学研究的源头创新和时空大数据研究的重大理论突破。
http://www.chinacaj.net/i,34,13064,0.html
1 引言
新一轮科技革命与产业变革正在全球兴起, 人类 正迈进大数据、云计算、人工智能、区块链与物联 网融合发展的新科技时代, 以大数据和深度学习为基 础的第二代人工智能在图像识别、语音翻译等领域 得到广泛应用(Guo等, 2014; Guo, 2017a, 2017b). 大数 据不仅正在改变人类生活、生产和思维的方式, 而且 正在引导科学研究从实验、理论、模拟的科学范式, 进入到大数据驱动的第四科学范式(Tansley和Tolle, 2009).
现代对地观测系统实现小时级的全球监测, 各类 自动观测台站网络实现了对全球降水、生物量等要 素的持续观测, 数字化出版文献资料实现了随地随时 可接入, 地球科学研究已经进入了一个全球覆盖、全 天候监测、全要素观测的大数据时代. 同时, 作为典 型的数据密集型科学, 地球科学在数据集成与共享、 数据挖掘与知识发现等方面面临诸如数据混杂、机 理缺乏的空间统计分析的挑战, 大数据的众多潜在优 势在地球科学相关研究中尚未得到充分发挥, 知识驱 动的地球科学大数据分析的理论与方法亟待发展, 构 建全域地学知识图谱、探讨地学知识演化等, 是当代 地学知识研究的前沿领域和战略重点(翟明国等, 2018; 汪品先和翦知湣, 2019). 人工智能是大数据价 值挖掘与提升的关键, 而知识图谱则是人工智能的重 要基石之一, 是实现统计表征与物理表征融合的核心 基础. 本文从地学知识表达的图模型、地学知识图谱 构建方法和地学知识图谱应用等方面, 阐述和讨论面 向地学大数据分析的地学知识图谱研究的关键科学 问题与前沿方向, 展望地球时空大数据分析和知识发 现的研究. 2 地学知识表达模式 地学是研究地球各圈层形成、演化及其相互作用 的科学, 包括大气科学、海洋科学、地理学、地质学 和地球物理学等分支学科, 其学科知识体系复杂多样 (孙鸿烈, 2017). 如何兼顾地学现象与过程的多尺度时 空特征, 融合图、文、数等多种信息载体表征, 构建跨 越地球科学各分支学科的地学知识表达模式是地学知 识图谱研究的基础和出发点.
2 地学知识表达模式
地学是研究地球各圈层形成、演化及其相互作用 的科学, 包括大气科学、海洋科学、地理学、地质学 和地球物理学等分支学科, 其学科知识体系复杂多样 (孙鸿烈, 2017). 如何兼顾地学现象与过程的多尺度时 空特征, 融合图、文、数等多种信息载体表征, 构建跨 越地球科学各分支学科的地学知识表达模式是地学知 识图谱研究的基础和出发点.
2.1 地学知识体系与地学知识图谱
地球系统是一个复杂的巨系统, 空间上绵延数万 里, 时间上跨越数十亿年. 认知地球的地学知识宏观 庞大, 构建完整的地学知识体系是一个系统性知识工 程, 也是地球科学家不懈的追求. 作为一门学科知识, 地学知识具备一般知识所应具有的通用特性, 遵循常 见的知识分类体系, 如经济合作与发展组织将知识分 为关于事物和现实的知识、关于自然规律和原理的知 识、关于技能和诀窍的知识以及关于人力资源的知识 等四类(经济合作与发展组织, 1997); 美国心理学家、 教育家本杰明·布鲁姆将知识分为事实性知识、概念 性知识、程序性知识和元知识等四类(经济合作与发 展组织, 1997). 这些知识工程的研究成果, 均可成为地 学知识体系建设的基础.
但与其他学科知识相比, 多尺度时空特性则是地 学知识构成的基本要素. 一方面, 地球科学家在思考 和研究问题时, 一般需要锁定研究对象的空间范围和 时间跨度, 如地质学家常采用百万年作为重大地质事 件度量的基本时间单位, 采用洲际的空间尺度研究板 块运动; 另一方面, 限于技术条件, 地球科学所使用的 观测和分析方法与途径也是多尺度的, 如古生物学家 的化石标本、地质年代学家的“金钉子”剖面, 均具有 有限的、可观测的空间尺度. 因此, 采纳一般知识分 类体系、融合时空特征、综合运用图文数各要素载 体, 以树状知识架构为主体, 融合网状、知识链等架 构, 构建一个开放式、可拓展的地学知识框架, 则是 地学知识体系建设的核心和创新之处.
地学知识图谱是以结构化的图模式, 将相关知识 有效组织起来形成计算机可理解和可计算的一种知识 体系. 知识图谱概念和雏形可以追溯到20世纪60年代, 并在图书情报领域得到广泛应用. Boyack等(2005)用 节点和线条构建了一幅知识图谱, 展示出80万篇科技 文献之间存在的内在联系和学科关系; Auer等(2007) 采用语义网络等方法, 推动开放型链接数据库DBpedia建设. 语义网络描述客观世界中的概念、实体及其相互关系的方法也是地学知识图谱表达的有效方法 (唐杰, 2020; 张雪英等, 2020); 2012年谷歌正式发布知 识图谱引擎(Singhal, 2012), 建成了包含6亿多实体、 180多亿条属性或关系的知识节点, 创建了用于从非结 构化网络文本中获取事实信息的新一代知识图“Knowledge Vault”(Dong等, 2014; 陆锋等, 2017), 极大 地推动了知识图谱技术方法的发展和应用.
自2017年以来, 美国将开放知识网络(Open Knowledge Network)作为一项国家科技战略予以重点 推动(NSTC, 2018). 2019年美国国家自然科学基金会 (NSF)资助的43项学科融合加速先导项目(总预算3900 万美元)中, 包含了21项以开放知识网络为主题的项 目, 并计划继续投入更大的资金支持该方向(https:// www.nsf.gov/pubs/2019/nsf19050/nsf19050.jsp; https:// www.nsf.gov/od/oia/convergence-accelerator/index.jsp). 其中, 美国爱达荷大学主持的深时知识图谱(Deep Time Knowledge Graph)项目, 通过引入最新的语义网 模型建立机器可读的深时“语言”, 以此联通国际地质 年代标准和区域地质年代标准, 统一管理不同版本的 地质年表的时代概念, 并使用其开展网络环境下深时 数据的探索和分析(Ma等, 2020). 目前, SocialWiki联 合豆瓣时间等多家青年媒体共同发起“人类知识谱系 建设计划”, 试图通过全球的协作, 绘制更加广泛的学 科图谱, 帮助人们探索和学习知识. 这些研究和实践都 将有助于促进地学知识图谱的研究.
2.2 全域地学知识图谱自适应表达模型
知识表达是构建计算机可理解、可计算的知识图 谱的基础, 也是知识交流过程中的重要步骤. 常见的知 识表达方式包括自然语言、结构化表格和图形图像 等, 其中, 自然语言表达一般是定性的、含糊的描述, 结构化表格难以刻画地学实体间的时空关系, 图形图 像则不足以精确描述复杂地学过程. 因此, 面对地学 大数据的分析和复杂多样的地学知识体系的整合, 迫 切需要发展一种综合性的形式化表达语言(许珺等, 2010). 以有向图为代表的图模式有效地建立了知识对 象间的语义关联, 可以采纳作为地学知识表达的基本 模式, 并通过时空拓展, 成为地学知识图谱的一种有 效表达模式. 例如, 在地理学科领域, 学者们提出了 YAGO2(Hoffart等, 2013)、GeoKG(Wang等, 2019)等 地理知识表达模型, 以有向图结构记录地理知识(Ballatore等, 2015). 其中, YAGO2是通用知识图谱YAGO 的升级版本, 增添了时间和空间表达的谓词描述, 进而 记录了每个实体的时间信息和空间信息; GeoKG则从 地理学学科角度出发, 提出了以地理实体为核心围绕 时间、空间、属性、状态、改变和关系的地理知识表达模型, 实现了地理实体演化过程的形式化描述.
现有的地学知识表达模型一般将时间、空间和部 分属性信息进行简单的补充或记录, 难以表达复杂的 全域地学知识(张雪英等, 2020; Oramas等, 2017). 如 何从图结构本质出发, 融合地学知识中复杂的时空特 征、计算属性及地学知识关系与规则, 构建跨时空维 度的地学知识图谱表达模型, 则是一项具有重要挑战 的基础研究. 基于此, 我们提出一种由复杂时空信息 表达模型(实体对象表达模型)和地学实体对象关系 (边)构成的全域地学知识图谱自适应表达的基本模型 (图1). 该模型仍然采用头实体/实体组合、尾实体/实 体组合和离散化关系/映射函数三元组资源的描述框 架, 但在节点上拓展了时间和空间特征, 在边关系上融 入复杂模型; 在地学场景上增加了智能识别和对象知 识对齐, 对底层地学知识图谱的自适应表达形式、存 储结构等进行重组, 以适应特定场景和特定领域高效 推理的需求, 从而达到地学知识图谱在全域的自适应 表达.
为了从海量结构化与非结构化、出版发行和内部使用的地学文本文献中, 挖掘隐含的大量地学知识, 特别是最新的动态知识,研究人员提出了基于深度解析的多模态地学数据动态知识图谱构建方法,包括:
(1)基于多源地学数据深度解析的非结构话数据感知。针对海量的文本、图片、数据表格、地图等非结构化的文本资料进行分类, 并对同一来源的数据标记其关联属性, 如地图的名称、区域等, 实现文本关联与多源数据感知;在标记的基础上, 对所处理的文本进行分割、纯文本提取、文本分词和句法分析等, 特别是采用一定已有规则知识消除文本中的非实质性的半结构化文本; 采用文本匹配和统计学习等方法, 对不同来源、具有一定相似性的图-文-数进行标记关联, 特别是通过基于规则过滤以及神经网络模型, 对文本描述中关键词信息的抽取。
(2)基于关键词的实体对象与知识抽取。深度学习的关键之一是有大量优质的训练语料样本, 而依靠人工选取、标注训练语料的方式难以实现, 发展高效、可信的无监督学习算法至为关键, 如基于关键词图模型的对象抽取。在该类算法中, 采用基于海量文本分词结果和词频-逆向文档频率(TF-IDF)算法量化地学领域实体的统计特征, 依据排序结果搭建常用词表, 构建海量文本的语言网络图; 基于图特征大小和向量匹配排序, 在语言网络图上寻找具有重要作用的词或者短语, 筛选出文本中的关键词, 抽取相应的对象实体, 构建图文数-关键词的索引关系, 完成地学知识中图表-文本描述-数字间的匹配, 从而实现基于非结构化文本的地学知识提取。
(3)知识歧义消除与动态地学知识图谱构建。针对由多数据源引起的知识歧义和冲突问题, 以地学知识图谱中实体概念特定的语义时空关联为特征通过深度强化学习进行分类和聚类, 以分别解决一词多义和多词同义问题; 并以信源属性为特征, 通过特征学习训练信源可信度完成属性对齐以消除知识冲突。
地学知识图谱是地球科学研究的前沿方向, 构建地学知识图谱是地球科学界的一项系统性知识工程。地学知识图谱的广泛应用可以推动地球科学与信息科学、数据科学的交叉融合, 促进学科发展。基于知识驱动的时空地学大数据分析有助于实现更加精准的地学分析, 推动基于统计表征和物理表征的地学大数据综合分析; 基于已有地学知识库和知识引擎, 可以推动地学知识体系研究, 理解地学知识演化的特征,发现新的地学知识, 形成新的研究突破点和创新点;将地学知识和地图编制知识融合, 可以推动地图制图的智能化与自动化发展; 将地学知识与地球系统模型结合, 可以推动矿产资源的探测与预测研究。
全域地学知识图谱自适应表达模型
基于深度解析的多模态地学数据动态知识图谱构建框架
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“GKG” 就可以获取《大数据时代的地学知识图谱研究展望》专知下载链接