通向大规模医疗知识图谱：万字详解天衍实验室知识图谱对齐技术

会员服务 ·

通向大规模医疗知识图谱：万字详解天衍实验室知识图谱对齐技术

2022 年 2 月 17 日 PaperWeekly

本期 AI Drive，由腾讯天衍实验室研究员-张子恒，详细解读天衍实验室知识图谱对齐技术。

具体主题如下：

为什么需要知识图谱对齐
面向医疗领域知识的知识图谱对齐技术
总结及未来展望

什么是知识图谱对齐以及为什么需要这种技术？

根据定义，指在多个异源异构的知识图谱中发现完全等价的实体，即发现指代相同真实世界物体的两个实体，可称为实体对齐。如 WWW 20 一篇文章所指出，当判定如上图中所示两个中心节点的两个 writer 是否是同一作者时，可以通过 writer 的关系以及尾节点的 don't stop dreaming 的书本/戏剧来判定这两个 writer 是否为同一实体，是否指代同一作家。

在医疗领域方面，这个问题会更加复杂。

首先，医疗领域中会存在字符串名称不完全匹配的情况，上述例子中的“龋齿”和“烂牙”，从属性的数量可以看到，龋齿有预防的属性，但是烂牙在目前 KG中是没有属性的，对于知识的学习或信息的利用会造成一定的影响。

从最基础的医疗 AI 场景来讲，在广泛的医疗场景当中，医疗的知识图谱证明了其可以有效地为算法提供医学知识支撑，为算法的预测结果提供可靠的医学解释。在可预见的未来，医疗知识图谱将会在医疗强知识属性领域发挥至关重要的作用。

需要知识图谱对齐有两个原因:第一，是真实场景中单一的知识图谱的覆盖程度比较局限，会大幅度影响下游利用知识图谱算法的适用性。像 KBQA 模型，如果知识图谱覆盖度有限，KBQA 能回答的问题的范围相对比较局限。广泛采用的解决方法是：通过知识图谱对齐技术，向多个知识图谱进行对齐并且融合，得到规模更大、覆盖度更广的图谱，并突破局限。

而且，大规模知识图谱的构建成本比较大，尤其在医疗强知识领域的属性。

如果去校验某一节点，人工成本非常高，相比小规模的垂域突破，比如关于药物或者药物间相互作用的图谱，它们的规模更小，可以在控制成本的基础上把握知识的准确率或者知识图谱的质量，因此，可以通过图谱对齐技术将规模比较小、相对质量比较高的图谱进行融合，构建一个大规模高质量的医疗知识图谱。

面向医疗领域知识的知识图谱对齐技术

在明确为何需要知识图谱对齐技术后，我们做出了以下尝试：

第一，提出真实场景的医疗数据集以及真实场景的评估方式；

第二，提出了基于本体指导的知识图谱对齐技术；

第三，提出了可以融合概率推理和图谱建模的知识图谱对齐技术；

最后，写了一篇 demo 文章，将知识图谱对齐技术开源成工具，方便学术社区直接使用。

上述文章分别发表到 COLING、ACL、IJCAI 和 CIKM 的会议上。下面，我们详细介绍这几项工作。

1. 提出真实场景的医疗数据集以及真实的场景评估方式

首先，对于 embedding-based 方法总结，目前在做知识图谱对齐或者实体对齐任务上，embedding-based 或图谱建模方式会遵循三步走的范式。第一步，先将两个知识图谱中的实体进行建模，这个过程可以使用 TransE 模型或 GNN 模型。

第二步，通过将图谱的下降空间投影映射到另一知识图谱下降空间中的方式，用传统转移矩阵或其他方法，可以在推理或者预测的过程中用余弦相似度或者空间距离度量，计算两个实体的特征向量之间的相似程度，寻找出指代真实世界的实体对。

基于 SOTA embedding-based 方法存在大量问题，当转移或者投射向量空间时，会依赖种子数据，即最开始标注的实体对齐结果。

构建数据集方面，它的规模约 9000 个实体，请医学专家进行标注，最后全部标注了 9000 多对齐对，在最开始的第一批返回结果当中，可以发现标注人员最倾向于标注图中红色方框的位置，这些实体对实体 mapping 编辑距离比较少，即实体名称几乎完全一致、属性数量比较多，这是比较有偏的信息。如果训练数据不在整个知识图谱上进行 random 采样，PARIS 的数据尤其是在实体的名称以及属性的数量上有偏性，对后面的模型训练会造成干扰。

因此，提出名为 MED-BBK-9K 工业数据集，右边 MED 的知识图谱来自于实际业务中所用的医疗知识图谱的子集，规模大概在 9162 个实体。

左边是从中爬虫软件和公开的 NER 等工具，在百度百科上构建出对应的医疗图谱，进行人工标注，比如“龋齿”和“烂牙”或者“麻痹性肠梗阻”的对齐。先前举例的实体名称和属性的数量在这里面很明显体现出来。比如，“龋齿”和“烂牙”的名称完全不一致，但麻痹性肠梗阻的名称是完全一致的。

另一点，是属性的数量，比如，完整图里来自 BBK 图谱的麻痹肠梗阻有两个属性的键值对（key-value pair），但 KG 只有医保 ICD10 一个属性的键值对（key-value pair），这会对模型训练过程造成不小的影响。

通过实验结果进行分析，比较细粒度地观察当时实验的 4 个 SOTA 模型，分别是 BootEA、MultiKE、RDGCN和RSN4EA。在此我们也提出两种评估方式，ideal 和 industrial。

ideal 仿照数据随机采样，但是 industry 里面的种子数据只采用名字相同且属性数量较多的实体，这是符合现实场景的，称之为有偏的种子训练数据。

另外，在模型评估过程中，除了看 All Test Mappings，即所有的测试数据上，会对测试数据进行划分，划分标准有两个，一是名称，二是属性，与采样的总数据的方式对应。

在 Name-based Splits 中分别考虑两个实体名称是完全一致的、接近或者完全不同的，同时考虑它的属性数量是较少的、中等或者较多的。具体划分要看这个数据集各自的不同情况。在数据层面上，选择两个数据集。另外，提出了 MED-BBK-9K 数据集，首先，第一个实验结果发现，如蓝色和红色箭头所示，从整体来看，当模型的训练方式由 ideal 变成 industry 时，只改变种子数据的采样方式，比如 BootEA 的 MRR 由 86.4% 掉到了 6.5%，这是非常明显的性能下降。

在很大程度上，这表明了总数据的选择对于引擎性能、模型性能是至关重要的。如果看红色箭头，RSM4EA 在工业数据集上，从 ideal 的评估方式到真实产品的评估方式，MRR 从 25.3 掉到了 1%，这是不可用的状态。

更细粒度等分析，MultiKE、RDGCN 充分考虑实体名称信息，把这些实体内容信息建模在里面的模型，它们在预测不同的实体对时，在名字相同的实体对的预测上性能非常高，在实体名称完全不一致时，预测上性能非常低，比如Hits@1 只有 3.6% 或者 6.2%。

这是当时提出的基于真实场景的医疗数据集和新的评估方式，希望能尽量拟合真实场景发现的特点，真正提出模型落地的进行使用，而非在工业数据集上进行测试和度量。

2. 基于本体指导的知识图谱对齐技术

它是来自于开源知识图谱对齐任务上的例子，如上图所示，来自 KG1 的 Victoria 在一些模型里被错误地对齐到了 KG2 中的 Victoria，虽然名称完全一致，但 Victoria 应该对应到 Queen Victoria 上，在思考怎样可以避免这种错误的对齐结果发生的同时，发现了本体信息，即可以借助来增益模型效果的信息。

首先，是来自 KG1 的 Victoria，它的本体或类别，在 DBpedia 里所定义的类别是皇室， Victoria（e3）定义的是教育组织，通过最直观的想法也可以判定皇室不大可能和教育组织去对齐，希望在知识图谱对齐过程中引入本体类别信息，避免类别冲突的 bad case 的出现。

OntoEA 是一种基于增强 enbedding-bassed 知识图谱对齐方法，用本体的信息避免类别冲突，OntoEA 是第一个在这个任务当中用到本体信息以及图谱建模。

上图是 OntoEA 的具体模型层面信息。首先，OntoEA 对知识图谱进行 embedding 和知识图谱结构的学习，考虑到以下 4 种信息：第一是图谱本身的结构信息，第二是本体信息，即右图所示的 O 的表达，第三是 membership，membership 指的是每一个实体它对应的本体当中的哪个类别，以及最后 mappings 的总数据。

因此，OntoEA 有 5 个具体的模块来组成：

第一是和其他模型最相近的 1 个知识图谱实体的 embedding 部分，将 KG 单独建模到上升空间里；

第二是本体建模信息，它在 OntoEA 中实现的是通过非线性的转换去学习到本体当中的层级信息，因为本体没有采用完整的本体，而只是采用 ontology embedding 的关系本体，它在拓扑学上是数的结构，这个结构的层级关系能够反映类别之间是否冲突；

第三是 confliction loss，是提出了 CCM 的举证，即 class conflict matrix 类别冲突矩阵，去建模两类别在该本体当中冲突的概率；

第四是 membership loss，即把两个知识图谱层面的 embedding 和本体的 imbedding 融合，让其可以 jointly learning 的策略；

最后是 alignment loss，根据种子数据构建两个知识图谱的 embedding space 之间的转移矩阵。

该实验要基于整体的政策来做，所以，第一步，对之前知识图谱对齐的数据集进行本体扩充，一共扩充了 7 个数据集，包括发表在 VLDB 的 benchmarking 工作提出的 EN-FR15KV1/V2、EN-DE15KV1/V2 和 D/W15KV1/V2 以及工业数据集 MED-BBK-9K。

对于不同版本的数据，所构建出的中间的本体信息，或者本体的数量，比如，类别的数量或者层级关系，它们是不一样的，它在后面 OntoEA 整个模型、性能的表现上有比较大的差异。

如以上的实验表格，在 OntoEA 的实验中，把所有算法进行分框。上面 block 中是所有没有用到名称信息的实体模型，实体的名称信息，在整个实体对齐或者知识图谱对齐过程起到的影响，是比较大的，要区分开来，可以看到，上面 block 和下面 block 的性能差异比较大。

对此，实现了 OntoEA 的两个版本，没有用到名称信息（w/o SI）和有用到名称信息（w/ SI）。

可以看到，在不同的数据集上，OntoEA 几乎比所有的 baseline 模型都有一定程度的性能提升，尤其在工业数据集上。比如看 MED-BBK-9K 数据集，可以看到 OntoEA 有名字版本的 Hits@1 是 51.7， RDGCN 只有 30.6，提升幅度将近 70%。如果看 Hits@1、Hits@5 和 MRR，也都超过了平均 65% 以上的性能提升。

另外是本体信息的对比，以 EN-FR 的 V1/V2 版本为例，在构建之初，V1/V2 版本最大的区别在于实体平均度的差异。

V2 版本的两个知识图谱，英语的 DBPl5K 和法语的 DBPl5K 的图谱更加稠密，每个实体的连接边更加多，但是它们所属的类别相对更少，比如 V2 版本只有 104 个类别，而 V1 的版本有 189 个类别，对应到 OntoEA 没有用到名称信息，但它的提升是比较直观的。

在 V1 类别信息比较多的情况下，它的提升幅度在 10% 以上，但是 V2 版本在本体规模比较有限的情况下，它的提升有限。这其中反映的结论是，有限的本体所带来的本体之道的含义会相对更弱，带来的性能的增益会更加局限，这符合预期的实验结果。

接下来是 ablation study，第一，我们做了不同度的分析，在分析测试集中，按照一个实体对齐中实体对的平均度（出度加入度）对测试集进行划分，在 0~10 区间，即度数最少、最长尾的实体上 OntoEA 的性能是深蓝色线，平均都优于其他模型，在工业数据集上的提升更加明显，可以证明当时提出的假设:对于长尾的实体或者本身在知识图谱建模中可能用到信息量比较少的实体来说，本体信息的加入对于建模带来的信息增益会更大。

第二，我们再去检查类别冲突的 bad case 是否解决。有三个数据集，分别是 EN-FR 的 V1/V2 和工业数据集。可以看到，在最左边图示里，它表达的含义是 BootEA，所有的 bad case 当中有 42.2% 的 bad case 来自于类别冲突，但是对此 OntoEA 的 bad case 的百分比降到了 3%，在 V2 上降到 0.3%，在工业数据集上是由最低的 51.5% 降到了 34%，反过来可以印证当时加入本体信息所期待的效果，即可以减少 false positive 对齐结果，尤其是类别冲突所带来的 false positive。

3. 融合概率推理和图谱建模的知识图谱对齐技术

虽然 OntoEA 的性能相对于之前的 SOTA 模型和信息化有不小的提升，但是距离真正能够落地使用，尤其用在 MED-BBK-9K 知识图谱上是比较局限的。在同期做了另外一个工作，这个工作参考了一些文献里所提到的在语义网领域（Semantics Web）里面做的比较多的本体对齐或者图谱对齐系统。

以 PARIS 系统为例，传统方法用到 logic consistency 技术或者相对 embedding 比较传统的技术 lexical matching，在语义网领域的效果证明了在很多数据集上不逊于 embedding-based 方法，比如 PARIS 的核心或者里面很重要的是基于对 functionality 的计算。functionality 最直观的理解是对于头实体的唯一指向性的描述，当 functionality 是 1 的时候，如果你的实体是确定的，有这个关系数据的尾实体也一定是确定的。如果 founder 的 functionality 是 1，对于任何一家公司的头实体来讲，只要有 founder 的关系，对应的尾实体是确定的（即创始人是唯一确定的）。它基于很多逻辑推理的工作。PARIS 在计算评估设计对齐概率时，会充分用到 functionality 的计算以及关系对齐计算。

传统的方法，在 logical reasoning 上表现得比较好，但是无法很好建模知识图谱本身的结构信息，而与此相对的 embedding-based 方法能很好建模种子图谱的结构信息或者空间信息，但缺少基于逻辑推理或逻辑判断本身对齐效果整体的一个衡量和把控。

我们希望提出一种无监督的迭代框架，让两种完全不同方式模型可以在统一的框架中进行运作，首先，提出尝试将 traditional reasoning 方法以及 SOTA 的 embedding-based 方法相结合，在知识图谱对齐任务上，提出框架 PRASE（Probabilistic Reasoning And Semantic Embedding）。整个 PRASE 的引擎架构如上图所示，主要分为三个模块，一是 PR 模块，二是 SE 模块，三是迭代式的学习算法，让两个模块相互交互融合。

PR 模块目前的开发基于 PARIS，相对于 PARIS 计算，不同点在于需要把 embedding-based 方法，即我们称之为 Feedback 反馈融入 PRASE 计算过程中。

在 PRASE 计算实体的等价权重、等价概率时，融入了 embedding-based 方法对于实体在特征空间、特征向量的编码应用，比如（1-β）sim（e,e’)，是从 embedding based 拿到的反馈，它表示的意义是:当计算 e 和 e’ 的等价概率时，需要 e 和 e’ 在特征空间的相似度，这个相似度可以是余弦相似性，也可以是其他空间度量方法，再乘以一个 sim，加回原来 PARIS 里计算两个实体相等的概率，可以提升整个引擎的召回，PRASE 在自己计算时精准率比较高，召回率比较低，embedding-based 方法可以补足召回。

关系相等的概率称之为 subsumption 概率，即公式所说的 P(r’⊆r)，它是一个包含关系，完全等价。

PR 模块在内部有自迭代，即在实体对齐的概率以及关系从属概率上，不断迭代优化之后，在局部达到稳定或者达到最优解，一起输出两个实体对齐的概率，这是 PM 模块的细节。

在 SE 模块上，把 SE 模块设计得更独立，或者能够使用到更多的 SOTA 方法，可以适配到 MTransE、BootEA、MultiKE 的 SOTA 模型。设计完后发现，只要 embedding-based 方法可以输出对齐实体或者知识图谱当中实体的特征向量或者在空间中的表达，它都可以融入到整个 PRASE 框架当中。

因此，实现了PRASE的变体，如PRASE-MTransE、PRASE-BootEA、PRASE-MultiKE。在给定的大迭代轮次 K 的情况下，两个模块会不断进行交互。

交互的主要方式是种子数据以及两个模块分别对齐的结果，以及 SE 模块的 Entity Embeddings 的交互。在迭代过 K 次之后，最终由 PR 模块输出。

在实验结果上，可以看到 PRASE 的整体提升效果。

首先，把所有模型进行分框，第一个 block 是 embedding based 方法，第二个模块使用基于推理的传统方法主要有两个，PARIS 和 LogMap。实现了两个基线模型，一个是 STR-Match，另一个是 EMB-Match，即一个基于字面相似度匹配，另一个基于词向量的匹配，可以看到在 D-Y-100K 数据集上，STR-Match 能达到百分百的 precision/recall/F-score，从数据集本身的难度或参考意义上来说，另外的数据集来自于 OpenEA，不同的是，采用了大规模的知识图谱数据，以及工业数据集 MED-BBK-9K。

可以看到 PRASE 的模型都超过了 conventional方法和 embedding based 方法，在 MED-BBK-9K，PARIS-MultiKE 的 F1 是 71.1%，相对于 second best 的 LogMap 的 58.4，提升了 21.7% 的幅度。

及时相较于最开始的 OntoEA 的性能，也有相当大的进步和提升，几乎可以在工业产品中进行落地和应用了。

即使在其他的一些数据集上，比如 EN-DE、EN-FR 双语数据集上，PARIS 可以达到近乎满分的效果。在相对异构或者相对来源会更加不同一点的 D-W-100K 上，它的性能提升是很明显的，如果和 PARIS 自身相比，PRASE 在 recall 上的提升用到了 embedding-based 提供的实体空间特征的向量，recall 提升会大幅度领先于 PARIS 的性能。

接下来是 ablation study，在 SE 模块，即 embedding 模块，会给 PR 模块一些不同的反馈，比如可以反馈对接的结果，也可以反馈对齐实体的 embedding，如果对齐结果里标注返回对齐的特征向量 E，不管是和 PARIS 自身对比，还是不同的 feedback 之间的对比，当同时加上了 mapping feedback 和 embedding feedback 之后，整个 PRASE 的性能，尤其是 recall 的提升非常明显，比如在 EN-FR-100K 上从 87.7~93.8，它的 precision 下降不会很明显，这是当时所期待的实验结果。

另外 probabilistic reasoning 是关于迭代轮次，即在最外层的 PR 和 SE 模块整个大的迭代轮次上，设置了超参数 K，方便用到更多的轮次值，通过实验发现，在第二个迭代轮次之后，整个模型的性能的增益比较局限，但是它带来的时间开销变得非常大，在后面的迭代轮次中，embedding based 的方法比较耗时。通过实验结果和时间的统计，尤其是引擎效率统计来说，推荐 iteration number K 设置比较小的数值，比如两个迭代轮次。

4. 知识图谱对齐在线工具 PRASEMap

我们提出了 PRASEMap 模型，重新优化了底层的代码，比如一些关于核心计算的部分，或者关于 embedding-based 方法的加速，把 embedding-based 尽量复现到高可用的使用状态，或者开发相对独立的 App 方便学术社区进行使用。

因此，我们发表了一篇 CIKM 的 demo 文章，主要展示 PRASEMap 系统。

PRASEMap 可以理解为 PRASE 在线的 web 应用。PRASEMap 相对于 PRASE，我们提出了新的想法和融入了新的思考。PRASEMap 有三个比较创新的点：首先，PRASEMap 是完全高可用的知识图谱对齐系统，在系统里预设知识图谱数据或者对于用户上传的知识图谱数据进行实体对齐的预测。第二，提供一个注册和登录的界面，帮助用户进行初始化或者监督、继续任务进程。最后提供了直观的用户交互界面，方便用户可视化展示知识图谱对齐的效果，或者在标注过程中需要了解的知识图谱中某实体的一阶或者二阶的邻居关系。

上图是关于对齐之后的知识图谱的展示效果，在知识图谱对齐中，当中心实体是对齐的，其邻居很多也是对齐的，如果知识图谱的构建不容易，这样的例子也可以完全展示出这样的效果，或者开发这样前端的框架，是为了方便大家更直观地理解知识图谱对齐之后的可解释或者深层次的关系，通过这种邻居关系信息的传导，构建起跨图谱的对齐关系。

第二，引入了一个新的尝试，提出了新的观点是 PRASEMap，即可以用两种方式来进行运行，第一是全自动模式，即整个系统默认的方法，不需要任何种子数据，也不需要任何人工监督成分，直接把知识图谱进行上传，或者在系统里选定默认的知识图谱，来运行 PRASEMap 系统。

与此同时，我们也关注到这篇文章所提出的在知识图谱的对齐过程中，包括在 PRASE 整个设计框架中，PR、SE 模块交互迭代过程中可以引入人工标注的成分或者人工纠错成分。

在 PRASEMap 实验中，我们引入了半自动的方法，或者引入了方便人机交互的方法，在某迭代轮次之后，允许 PRASEMap 接受人工标注的结果，来增强知识图谱对齐的效果。上图左下角的这张图是用户反馈的表格，PRASEMap 会产出当前轮次对于预测结果里低置信度的实体，这时，由人工进行标注，这两个实体究竟是等价或不是等价，通过这样标注进行提交，在下个迭代轮次里面可以优化对齐效果。

同时，PRASEMap 提供了一个可视化的接口，方便用户了解。如果只知道实体的 DBpedia 地址，通过可视化信息可以更加直观告诉使用者或者标注人员，这样的实体在知识图谱中的定义，因此可以更加方便标注者进行标注，也可以使标注结果更加正确，使得整个知识图谱对齐系统的性能提高。

新的方法

在过去一年里，我们围绕构建大型医疗知识图谱共做了四方面工作。

第一，发现大多数基于 embedding-based 的方法知识图谱对齐框架在实际使用中存在严重依赖种子数据、种子数据严重有偏的问题，可以提出基于真实医疗场景的知识图谱对齐数据以及真实场景的评估方式。

第二，提出基于本体指导的知识图谱对齐系统 OntoEA，减少对齐结果当中的类别冲突，提升长尾实体的对齐效果。OntoEA 在多个数据集包括工业数据集上都超过了 SOTA 方法。

第三，尝试将传统的概率推理系统和基于图谱建模的系统的深度学习方法进行结合，提出了统一的框架 PRASE，充分发挥了两者的优势，从而取得比两个方向都要更好的知识图谱对齐性能。

最后，将 PRASE 进行封装开发，实现 PRASEMap 公开在线高可用的知识图谱对齐工具，方便学术社区直接进行使用。

未来，我们将会继续探索知识图谱对齐当中的可解释吸引或者多模态制度对齐的任务。

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

登录查看更多

知识荟萃

精品入门和进阶教程、论文和代码整理等

查看相关VIP内容、论文、资讯等

知识图谱研究现状及军事应用

专知会员服务

198+阅读 · 2022年4月8日

《智慧城市知识图谱模型与本体构建方法》拓尔思知识图谱研究院等

专知会员服务

48+阅读 · 2022年3月27日

「实体对齐」最新2022综述

专知会员服务

135+阅读 · 2022年3月15日

知识图谱可解释推理研究综述

专知会员服务

177+阅读 · 2021年12月31日

面向知识图谱的知识推理综述

专知会员服务

152+阅读 · 2021年11月1日

面向知识图谱的信息抽取

专知会员服务

200+阅读 · 2020年10月14日

【IJCAJ 2019】多视角知识图谱嵌入的实体对齐，Multi-view Knowledge Graph Embedding for Entity Alignment

专知会员服务

59+阅读 · 2020年6月30日

知识图谱融合方法，140页ppt，南京大学胡伟老师

专知会员服务

145+阅读 · 2020年2月19日

知识图谱更新技术研究及其应用，复旦大学硕士论文

专知会员服务

105+阅读 · 2019年11月4日

医疗知识图谱构建与应用

专知会员服务

388+阅读 · 2019年9月25日

基于知识图谱的行业问答系统搭建分几步？

PaperWeekly

2+阅读 · 2021年11月11日

知识图谱构建-关系抽取和属性抽取

深度学习自然语言处理

26+阅读 · 2020年3月1日

知识图谱的行业落地实现

竹间智能Emotibot

51+阅读 · 2019年9月16日

【知识图谱】详解知识图谱关键技术与应用、AI图谱技术在知乎的应用实践、如何构建多快好省的“知识图谱即服务”

产业智能官

24+阅读 · 2019年2月10日

一文详解知识图谱关键技术与应用 | 公开课笔记

AI100

12+阅读 · 2018年9月8日

【知识图谱】知识图谱实体链接无监督学习框架

产业智能官

10+阅读 · 2018年4月15日

【知识图谱】一个有效的知识图谱是如何构建的？

产业智能官

57+阅读 · 2018年4月5日

【知识图谱】医学知识图谱构建技术与研究进展

产业智能官

44+阅读 · 2017年11月16日

医学知识图谱构建技术与研究进展

人工智能学家

18+阅读 · 2017年11月11日

【知识图谱】如何构建知识图谱

产业智能官

135+阅读 · 2017年9月19日

面向知识库的实体链接技术研究

国家自然科学基金

13+阅读 · 2015年12月31日

基于关键词的大规模链接数据搜索技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于Wiki的垂直搜索语义技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于自然语言处理技术的生物实体语义网络研究和应用

国家自然科学基金

2+阅读 · 2012年12月31日

实现网络控制系统自治化三大关键技术的算法研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于数据驱动的复杂工业过程输入空间边界求解及应用

国家自然科学基金

1+阅读 · 2012年12月31日

构建面向Web的、以实体为中心的知识库的关键技术研究

国家自然科学基金

7+阅读 · 2012年12月31日

中文动态语义网构建技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

互联网环境下中文实体知识挖掘关键技术研究

国家自然科学基金

3+阅读 · 2012年12月31日

基于群体智能的组合软件测试优化关键问题研究

国家自然科学基金

0+阅读 · 2010年12月31日

Counting and enumerating optimum cut sets for hypergraph $k$-partitioning problems for fixed $k$

Arxiv

0+阅读 · 2022年4月20日

An Efficient Algorithm for the Proximity Connected Two Center Problem

Arxiv

0+阅读 · 2022年4月19日

CAKE: A Scalable Commonsense-Aware Framework For Multi-View Knowledge Graph Completion

Arxiv

0+阅读 · 2022年4月17日

GPL: Generative Pseudo Labeling for Unsupervised Domain Adaptation of Dense Retrieval

Arxiv

0+阅读 · 2022年4月15日

Scene Graph Generation: A Comprehensive Survey

Arxiv

26+阅读 · 2022年1月3日

What is Event Knowledge Graph: A Survey

Arxiv

33+阅读 · 2021年12月31日

Trustworthy AI: From Principles to Practices

Arxiv

46+阅读 · 2021年10月4日

Knowledge Graphs

Arxiv

102+阅读 · 2020年3月4日

Domain Representation for Knowledge Graph Embedding

Arxiv

14+阅读 · 2019年9月11日

From Knowledge Graph Embedding to Ontology Embedding: Region Based Representations of Relational Structures

Arxiv

10+阅读 · 2018年5月26日

VIP会员

通向大规模医疗知识图谱：万字详解天衍实验室知识图谱对齐技术

相关内容

知识荟萃

更多