转载公众号 | 老刘说NLP
知识图谱发展至今已有数年,无论是学界还是业界,都对知识图谱有了不同的见解,如何形成规范化、标准化的知识图谱认识,并在垂直行业中应用落地,是知识图谱从业者的重要使命。而专业性、垂直性的技术白皮书,是解决上述问题的一个重要手段。
我们在之前的文章《知识图谱指引:五大开源知识图谱技术白皮书/报告概述与开放下载》 一文中整理了《知识图谱选型与实施指南_2021》、《中国知识图谱行业研究报告_2020》、《面向人工智能“新基建”的知识图谱行业白皮书_2020》、《知识图谱标准化白皮书_2019》、《知识图谱发展报告_2018》共5个代表性的知识图谱材报告。
这两天是CCKS2022会议的日子,借此机会,我们从学术界和工业界两个角度出发,对发布的《CIPS-知识图谱发展报告2022》、《艾瑞咨询-2022年中国知识图谱行业研究报告》进行简要介绍。
两种视角下看问题,往往能更好的掌握根本解,有个更全局的认识。
以中文信息学会语言与知识计算专委会,在昨天进行的ccks2022知识图谱与语义计算大会上,发布《知识图谱发展报告_2022》,在内容编排上从数据资源、技术发展以及平台上进行了汇总,粗读了一下,具有很好的参考价值。
正如报告中所说,本发展报告的定位是深度科普,旨在向政府、企业、媒体中对知识图谱感兴趣的社会各 界人士简要介绍相关领域的基本概念、基本方法和应用方向,向高等院校、科研院所和高新技术企业中从事相关工作的专业人士介绍相关领域的前沿技术和发展趋势。
地址:http://cips-upload.bj.bcebos.com/KGDevReport2022.pdf
从内容上看,与2018年发布的知识图谱发展报告项目,2022版的报告新增了知识图谱质量评估与管理、基于知识的搜索与推荐以及知识图谱交叉前沿的章节。
1、近几年来的知识图谱发展趋势
在知识表示和建模中,知识图谱表示形式更加多样化,从单一语言和符号表示的知识图 谱,到多语言和多模态的知识图谱;从结构化知识表示发展到与半结构化和非结构化数据融 合的概念-实体-上下文一体化知识表示,从符号知识表示到融合符号和数值的知识表示。
在知识获取方面,低资源、真实场景下的知识获取技术也有了长足进步,由传统限定领 域的知识抽取,到如今开放领域的多类别知识抽取;由基于知识库的关系获取,到以知识为 指导的面向大规模预训练技术的关系获取;由粗粒度有监督学习到细粒度小样本学习,以及 由单一模态的概念抽取到跨模态的联合学习。
在知识图谱应用方面,知识图谱领域应用越来越广泛,以多模态知识为驱动的虚拟数字 人推动着人工智能走向更广阔的应用场景,“知识图谱+产业”的新范式凸显着以知识为中心 的应用与现实业务的深度融合。“知识图谱+其他学科(如区块链、物联网)”的交叉研究也 正在兴起和发展。
知识图谱未来发展趋势和面临的挑战在于,能否利用大规模预训练模型进一步促进知识表示、获取和推理技术的发展,能否基于认知推理实现具有认知能力的人工智能新架构,能否利用知识的可解释性释放更多产业潜能和应用。
2、我们在事件知识上的工作写入报告
惊喜的是,在本次报告中,我们在事理图谱的工作被整理进报告中《事件知识资源 》章节当中:
“自2018年首次被提出[刘&薛, 2018],事理图谱的研究与应用在近年来已经有了一定的发展,主要体现在事理图谱基本轮廓的确定与传播、领域事理图谱雏形 Demo 的研制与应用探索、事理图谱在领域的复制与延伸三个方面。”
链接:
[刘 & 薛, 2018] 刘焕勇, 薛云志.事理图谱,下一代知识图谱. (2018)[2022-04-30]
“大规模实时(事件逻辑与概念)事理知识库“学迹”[Datahorizon.Cn,2020]包括事件概念抽取、事件因果逻辑抽取、事件数据关联推荐与推理。截至目前,“学迹” 已经积累事件概念描述三元组 500 余万,因果事件三元组两千余万,概念上下位三元组一百 余万。“学迹”为三元组提供了一个搜索入口,围绕事件,提供事件的前序原因、后续结果, 事件的关联概念,事件关联产业链的搜索。”
链接:
[Datahorizon.Cn, 2020] OpenKG.org.学迹:大规模实时(事件逻辑与概念)事理知识库. (2020-03- 23)[2022-04-30]. http://openkg.cn/dataset/event-concept-graph-xueji
学术界与工业界的gap依然存在,作为工业界的代表性咨询机构艾瑞咨询,在早些日子发布了2022年中国知识图谱行业研究报告。
地址:https://www.iresearch.com.cn/Detail/report?id=4043&isfree=0
因为该报告是从应用落地的角度上出发进行的汇总,所以更能够给出落地上的意见,很具有参考价值,参考文献1中就行业规模现状与趋势、算法与落地难点为例进行了介绍:
1、行业规模现状与趋势
金融与公安两大行业的知识图谱占比较高且增长速度较快,其业务与知识图谱可密切结合,同时具备建设意愿与资金投入,因而成为了市场规模的主要拉力。
未来,随着政务数字化建设的完善,政务对知识图谱的业务需求会逐渐唤醒,成为未来市场的拉力之一。
2、算法与落地难点
在知识图谱的搭建过程中,仍然面临着各类算法难点,主要难点可归结为生产流程中的算法难点和算法性能上的难点。
前者体现为知识获取受数据集限制、知识融合干扰因素较多、知识计算的数据集与算力不足等问题,而后者体现为算法泛化能力不足、鲁棒性不足、缺乏统一测评指标等问题。
算法上的难点有赖于供需双方、学术界、政府持续攻坚,而非一方努力即可收获成功。
现阶段,知识图谱的市场开拓面临着两大难点:
客户认知有待培养与技术产品化能力欠缺。
从需求方角度看,广大潜在客户对知识图谱普遍缺乏认知,不知道知识图谱产品与技术的存在,采购意识尚未觉醒,而机会客户对知识图谱多持观望态度,不确定知识图谱能否为自身业务带来价值。
从供给方角度看,厂商开发一整套知识图谱解决方案会涉及建模、求解、应用三方面的巨大成本,需要将成本以保证盈利且客户能够承担的思路分摊到各类费用中。
各类费用汇总一般会形成售价较高的重量级解决方案,而重量级解决方案的市场受众有限,性价比高的轻量级产品更符合广大客户偏好。
如何将高成本开发出的重量级技术解决方案以“小而美”且经济实惠的方式封装并出售,是厂商不得不解决的问题。
本文主要从学术界和工业界两个角度,以2022年的知识图谱技术发展报告为基础,介绍了知识图谱的技术以及落地应用。
实际上,经过这几年的发展,知识图谱已经取得了长足的发展,但其在落地过程中是一个强业务耦合的事情,并不存在标准、毫无人工参与的一键式生成工具存在,需要人工给定现验的知识【如本体定义、数据标注等】,并加入人工审核等手段,并投入大量人力,才能真正意义上推动和解决知识图谱落地问题。
感谢学术界与工业界在推动知识图谱发展征途上所作出的贡献,对撰写上述报告的朋友表示充分敬意。
1、https://mp.weixin.qq.com/s/SkZMd4-qS-L1C3oHPq3xyA
2、http://www.cipsc.org.cn
3、https://mp.weixin.qq.com/s/SkZMd4-qS-L1C3oHPq3xyA
老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。
就职于360人工智能研究院、曾就职于中国科学院软件研究所。
老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
点击阅读原文,进入 OpenKG 网站。