2023年7月26日,为促进知识图谱系统间的互联互通,推进知识要素的规范、有序和可靠流动,《知识图谱互联互通白皮书》(2023年版)于第三届知识图谱产业发展论坛暨知识图谱与大模型融合研讨会正式发布。
知识图谱作为机器认知智能实现的基础之一,是人工智能的重要组成部分。《知识图谱互联互通白皮书》(2023年版)由中国电子技术标准化研究院依托知识图谱产业推进方阵、全国信标委人工智能分委会知识图谱工作组联合东软集团股份有限公司、深圳市矽赫科技有限公司、蚂蚁科技集团股份有限公司、华为云计算技术有限公司、中国医学科学院生物医学工程研究所、网智天元科技集团股份有限公司、郑州中业科技股份有限公司等51家企事业单位、高校和研究院所共同编制,见附件。
白皮书从技术、产业、政策等层面的核心需求出发,详细分析了知识图谱互联互通的内涵与外延、任务与约束、典型应用场景和实践案例,并明确了开展和实施过程中面临的难点与挑战。此后,进一步提出了知识图谱互联互通的统一架构、面向知识图谱互联互通的知识表示框架、本体模型注册流程、知识融合与计算流程,并从技术发展、政策支持、标准化需求、产业推广措施等方面给出了展望与建议。
目前,中国电子技术标准化研究院已联合多家单位共同建立知识图谱产业推进方阵、全国信标委人工智能分委会知识图谱工作组,牵头研制国家标准GB/T 42131-2022《人工智能 知识图谱技术框架》、IEEE Std 2807:2022《Framework of Knowledge Graphs》等IEEE P2807知识图谱系列标准及团体标准共10余项,并由我院专家担任ISO/IEC DIS 5392《信息技术 人工智能 知识工程参考架构》国际标准项目的编辑。
技术展望
1、大规模预训练模型与知识图谱互联互通的关系
大规模预训练模型与知识图谱为机器智能获取知识,推动知识工程发展提供解决方案。预训练模型在自然语言处理领域取得显著成果,具有强大的语义理解和生成能力,通过海量文本数据学习,捕获自然语言中的语法、句法和语义信息。知识图谱以结构化方式描述客观世界的概念、实体及其关系,实现人与机器对知识共同可读,进一步展示知识逻辑关系,并在众多领域取得成功实践。两者各有优势和劣势。知识图谱将大规模知识结构化描述,实现人和机器对知识的可见、可读和可理解,保障了知识的管理、维护和溯源能力,使领域知识图谱知识质量高、内容可信、逻辑体系完整。但也面临构建流程长、非结构化数据知识获取难度大、知识建模对专家经验依赖度高、知识应用模式相对单一等问题。大规模预训练模型通过大型神经网络模型获取与参数化存储文本中知识内容,具备高质量对话、内容生成、跨任务泛化、逻辑推理能力。但知识主要为机器可见,人不可见;机器可读、人不可读,难以操作或解释,导致企业或结构对知识难以便捷、高效地管理、维护和溯源。此外,预训练模型在复杂推理、生成结果可靠性方面存在局限性,如产生与事实不符的回答。
2. 知识图谱与大规模预训练模型的相互支撑
大规模预训练模型可应用于知识获取、建模、融合、计算和问答等环节,缩短构建周期,扩大知识图谱规模,提升构建效能。在知识获取方面,预训练模型能抽取非结构化数据中的实体、关系、属性及事件。在知识建模方面,模型可降低专家投入强度,提高工作效率。在知识计算方面,预训练模型基于上下文建立实体关联,完成知识补全。在知识应用方面,预训练模型拓展了智能问答、检索、推荐、辅助决策和知识管理等应用类型。知识图谱可约束预训练模型生成结果的逻辑关系和知识依据,提高时效性和准确性。明确数据来源可为用户提供完整反馈。领域知识图谱为模型提供结构化、高质量的领域知识来源,帮助捕捉和理解领域内语义关系,提高自然语言处理任务表现。同时,为大规模预训练模型的微调提供多样化数据输入,提升特定任务模型性能。综合而言,大规模预训练模型与知识图谱在多个环节相互支撑,提高知识构建与应用效能。预训练模型在知识获取、建模、计算和应用方面发挥作用,缩短构建周期,拓展知识图谱规模。知识图谱可提高预训练模型生成结果的可靠性、时效性和知识溯源能力,同时为领域知识学习和应用提供结构化、高质量的领域知识来源,帮助提高模型性能。
3. 知识图谱与大规模预训练模型的融合应用
知识图谱与大规模预训练模型具有高互补性。融合两者可实现知识的可见、可读、可操作,强化知识来源的兼容泛化能力,并实现广泛的多领域知识应用。通过保护知识图谱中的安全性和隐私,限制预训练模型的学习范围,有助于满足企业对私有化部署、领域知识积累、知识产权保护及知识内容管理与更新的需求,构建可控、可信、可管理的知识工程系统。