首发于认知智能

知识图谱在垂直领域落地中的“三要素与两原则“

知识图谱技术现在已经是如火如荼的在各个行业遍地开花。我们团队算是国内比较早研究和应用知识图谱的团队。近年来除了在学术和通用领域知识图谱有不少成果外。也与不少行业企业有挺多项目合作,所以也积累了一些知识图谱落地过程中的经验。所以聊一下,知识图谱项目实际落地中一些方法论的东西。概括起来是“三要素与两原则”。

一 知识图谱落地“三要素"

先明确各个要素的作用和局限才能更好的开展后续的工作。知识图谱系统的核心三要素包括人、算法与数据。三者相互影响、密不可分,共同构成了知识图谱系统的坚实基础。算法需要人定义特征、选择模型;算法需要标注数据;数据来自人的活动,来自人的标注;算法的结果支撑人的行为与决策。另外,算力其实也是实际落地中会存在的一个问题,硬件开销也可能是一笔不小的成本。只不过这个问题可以通过增加算力和优化算法去解决,就不单独讨论。

1.人

在项目开展中,第一件事就是找人组建团队,那应该找什么人?这里的人就是要回答这个问题。人是知识图谱系统的发起者、设计者、实施者与评价者,是知识图谱系统的核心。知识图谱中的人员涉及众多角色,按照知识图谱系统生命周期的三个主要阶段可以分为几类角色。

(1)在分析与论证阶段,需要领域专家与知识图谱系统工程师共同开展需求分析,论述知识图谱系统建设的必要性与可行性。必要性从应用需求的迫切性与业务价值等角度进行评判。可行性从数据资源禀赋、应用要求以及知识表示的复杂程度等角度来评估,并进一步合理规划知识图谱系统建设所需要的数据资源、人员投入以及成本投入等等。

(2)在设计与实施阶段,需要各类工程师完成数据治理、知识加工、算法设计以及样本标注等各环节的任务。在结果输出后还需要业务人员和用户加入进来,协助进行结果评估,问题反馈,供工程师们进行迭代优化。

(3)在运营与评价阶段,需要运维工程师对于知识图谱系统进行长期运维,需要用户对系统效果持续进行评价反馈。

2.数据

首先是作为知识图谱知识来源的数据。数据是符号化的记录,数据经过知识加工而成为知识。知识图谱系统所使用的数据类型众多,可以按照模态分为关系数据、文本数据、多媒体数据;还可以按照来源分为内部数据与外部数据。外部数据可以分为百科数据、Web数据、社交媒体、新闻媒体数据、企业内部业务数据等等;知识图谱的数据来源同样是多样的,面向不同类型、不同来源的数据,知识获取、知识验证等算法都需要定制。大规模自动化知识获取在数据处理层面就面临着的巨大挑战。

另外在具体构建的过程中,需要用的各种算法模型,基于有监督学习的模型都是需要进行训练数据的标注,标注数据也是一块繁重的工作。因此在实际项目中优先使用好的数据源,在保证效果的基础上选择一些不太依赖标注数据的算法模型。

3.算法

算法是对于知识图谱系统整个生命周期中涉及的自动化计算过程、模型、策略的总称。知识图谱构建、管理与应用等各个环节均涉及大量算法。知识构建环节包括知识的获取模型、知识的融合策略、知识的验证机制以及知识的评估方法。知识管理环节,涉及知识图谱的存储模型、组织方法、索引方式、查询模型、检索方法等等。知识应用环节,涉及基于知识图谱的语言理解模型、语义搜索模型、智能推荐模型、自然语言问答模型、面向知识图谱的推理机制与解释方法等等。

二 知识图谱落地"两原则"

知识图谱日益承担起助力行业智能化的使命。探索基于知识图谱的行业智能化演进路径因而十分关键。经过多年实践,这一路径日渐清晰,呈现出知识资源建设与知识应用迭代式发展模式。落地的基本原则:整体规划,应用引领,以用促建。知识资源建设与知识应用迭代式发展路径。

1.应用引领,以用促建

垂直行业智能化落地,要遵循以应用为导向。整个图谱建设和应用最好要整体规划,并选择一个个小的场景逐步落地。根据当前企业的业务发展需要和数据,技术基础,选择合适的应用场景,在具体的应用中建设图谱能力,并直接产生业务价值。不能盲目的为了图谱而图谱,没有具体业务出口做支撑,只是作为技术能力储备,除非是头部企业的AILab不追求短期变现,否则很难在企业内部得到足够的支持。只有产生了具体的业务价值,才能有足够的动力,推动图谱为核心的智能化转型项目的长期,稳步发展。

2. 知识资源建设与知识应用迭代式发展路径

在知识图谱垂直行业的智能化落地中,也不要想着一下子把什么都做的尽善尽美,相比较于知识应用,知识的获取与知识资源的建设是更大的瓶颈。知识资源建设任重道远,很难一蹴而就,只能扎扎实实推进知识资源建设,积累知识库,没有捷径。采取由点及面的迭代式螺旋发展模式。

在每一轮迭代周期,把握好适度原则,优先选择预期效果较好的应用场景,合理把控好知识的边界与体量,建设以知识图谱为核心的知识资源,并开展相应的知识应用。再根据来自内外部用户的反馈,完善相应的应用与知识资源建设。当特定应用初现成效之后,再从有限的应用逐步拓展到更多的应用场景,建设更多的知识资源。整个过程持续迭代下去,直至完成全面的智能化。

编辑于 2022-01-04 22:21