本文整理自漆桂林老师在广州知识图谱与问答系统论坛上的演讲。
首先向大家介绍一下我们研讨会的一些情况。本次研讨会是知识图谱系列活动之一,我们几乎每个月都会举行知识图谱相关的活动。这次活动是知识图谱论坛,它是在中文信息协会下属的语言与知识计算专业委员会组织的活动。这个组织是我们中国的知识图谱的一个官方组织,这个组织的主任是李涓子教授。由于李涓子教授事务繁忙,所以由我跟刘康老师来主持这个论坛,我们作为系列论坛的组织方,那么这一次非常高兴能够到广州来,把这个论坛放到广州来,而且本次论坛的主题也非常有吸引力,知识图谱与问答系统论坛。我可能不会给大家介绍知识图谱,因为王昊奋老师会做更深入的介绍。我给大家介绍的我们正在做的一个事情,这个是我们知识图谱领域下面要发生的一个大事,希望大家能够仔细关注,也希望大家能够来做一些贡献。
我们正在做的一件事情是叫 OpenKG,即构建开放知识图谱的社区。也就是说我们强调的是一种开放。现在我们还叫社区,但是我们正在进行把 OpenKG 注册成一个组织。
关于 KG 的几个事实
那么我们 OpenKG 的这个构建的原因是什么呢?首先要看到,现在大家做知识图谱非常希望有一些现有的中文图谱能够利用。就目前而言,我们可以看到,在现在开放的情况下,英文的知识图谱相对还是比较多一点,像 Freebase,Yago,Dbpedia 等,这些都是国外做的挺不错的。那么我们中文知识图谱其实现在也在慢慢的兴起,比如 Zhishi.me,CN-DBPedia,X-Lore,PKU-PIE 等等。当然我们不能指望完全用技术的手段,来构建我们所有的图谱,而是希望用到各种各样的技术混合起来。
那么最麻烦的事情是什么?就是构建一个图谱的时候,我怎么去冷启动。因为通常情况下,我们先要冷启动,然后再去补全,做质量的提升。那么对于冷启动,大家一般都会去找各种现有的资源,我们做NLP的学者,都会用一些资源,比如用一些词典。那么我们知识图谱也是一样的,就是我们会有这种资源提供出来。我们现在所有的KG 面临的共同的一个问题就是,知识的严重缺乏。那么大家通常都是通过纯手工众包的方式,或者是通过内部结构文本的数据,或者是开放域的结构化、半结构化数据,以及开放域的文本抽取等各种方式去获取。
关于 OPEN
关于OpenKG,我们的动机就是要把这些数据能够汇集起来,汇集在一起,然后把它们开放出去,给大家来使用。当然开放它并不等于说是免费的,开放并不是说这个一定放在那里,谁怎么用都可以。那么我们这个数据的开放,第一,它会有一些价值,我们会有这种链接,把数据链结起来。我们现在正在做的一些事情,就是把不同的知识图谱的数据进行一些关联,然后我们会在上面把这些数据的价值,通过开源的方式,类似于这种开源软件的方式把它开源出去,然后会提供一些API 进行访问。通过这样的方式去提高数据的可公开性。当然开源的数据必可避免的就是版权的问题。这些数据除了我们把它放在一个地方,让大家去用以外,我们肯定还是要遵循一定的商业化的规则,我们会有一些开放数据的许可协议,我们这里面也会处理好这种数据的版权问题。
关于 OpenKG
那么我们的使命是什么?就是我们要去传播开放知识图谱的各种价值以及各种理念,并且培育开放的知识图谱社区,然后构建开放域的链接知识图谱,在此基础上,我们能共同的探索这种开放知识图谱的商业模式以及这种商业的价值。
OpenKG是由陈华钧教授发起,现在基本上都是由他来牵头这个事情,还有我们其他的几位老师,我,王昊奋,谢殿侠,曾毅,鲍捷,我们是主要的发起人,然后我们有很多其他的这个高校、公司的发起人。
近期工作
我们近期做了很多事情,第一是我们正在培育一个开放的社区,那么我们这个社区里面,首先建立了一个语义网和知识图谱的微信群,如果没有加入群的,可以向王昊奋老师申请。第二个是我们自己也有了一个公众号:开放知识图谱。通过这个公众号,我们提供问答功能,同时持续分享各种知识图谱与自然语言处理的各种信息,比如一些资料,讲座等等。另外,我们正在做的是几个开放的垂直领域的社区,第一个是医疗,第二个是金融。我们也在组织一些社区的活动,那么这也是跟我们的中国信息协会在合作的,就是KG 沙龙的活动。我们还积极参与了 CCKS 的组织。
除了以上这些事情,我们目前做的最大的事情就是汇集了几个典型的中文知识库,这里面其中包括 Zhishi.me,其中有 1000 万个实体,10 亿个三元组,CN—DBPedia 也将近 1000 万个实体。那么还有其他的,比如说 XLORE 这是李涓子老师他们做的,然后包括 Belief Engine,北大的一些数据等等。
此外,我们不仅仅讨论孤立的数据,我们还要把这些数据能够链接起来,产生优势互补的这种效益。所以我们做了这种开放数据的链接,当然链接完全是共享开放的,大部分都可以下载,但是里面的内容,每一家的内容还是私有的,可以通过 API 的方式去访问。目前数据链接这块是由胡伟老师负责。
另外在垂直领域,在医疗这块,我们跟 OMAHA 开放医疗与健康领域做了一个合作。另外,最近我们在做一个事情叫 Bot Schema,是东南大学正在跟海知智能一起合作。Bot Schema 相当于我们把一些跟图谱相关的数据构建起来,用来做各种Bot 的服务。当然我们也期待着其他的公司、研究所、学校能够加入我们,提高大家数据的可发现性,并且与其他的数据进行链接,包括大家的数据能够实现商业化,共同构建这种开放领域的知识图谱。
最后总结一下就是开放对于知识图谱是非常重要的,是实现知识图谱价值的一种必要的手段和途径,那么它也可以帮助知识图谱创造更好商业的价值。
最后做一个宣传,就是我们全国的知识图谱与语义计算大会,CCKS2017 将于成都 8 月 26 号到 29 号在成都举办。我们已经请了国际上的一些在知识图谱领域非常有名的专家、学者,其中还包括一个讲习班,如果这边有很多学生的应该很感兴趣。讲习班我们请到了像谷歌做知识图谱的一个专家,过来为大家讲课,讲课费也不是很贵,应该是可以承受,而且肯定是很有收获。那么也欢迎大家关注我们这个会议,欢迎到成都来,谢谢大家。
OpenKG.CN
中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。
点击阅读原文,进入 OpenKG 博客。