题目: Optimization of Retrieval Algorithms on Large Scale Knowledge Graphs
摘要: 知识图谱在最近的知识挖掘和发现中发挥了重要的作用,例如在生命科学或生物信息学领域。虽然在查询优化、查询变换以及大规模知识图谱的存储和检索等方面已经做了大量的研究,但算法优化仍然是使用图数据的主要挑战和关键因素。在大规模标记属性图上优化算法的研究很少。在这里,我们提出了两种优化方法,并将它们与直接查询图数据库的简单方法进行了比较。我们工作的目的是确定像Neo4j这样的图形数据库的限制因素,我们描述了一个解决这些挑战的新方案。为此,我们建议使用一个分类模式来区别图数据库中问题的复杂性。我们在一个测试系统上评估我们的优化方法,该测试系统包含一个由文本挖掘数据丰富的生物医学出版物数据派生的知识图谱。这个密集的图谱有超过71M的节点和850M的关系数据。结果是非常令人鼓舞的,根据问题的不同,我们能够显示44到3839之间的加速因子。