导读:
ACM CIKM 2017全称是The 26th ACM International Conference on Information and Knowledge Management,是国际计算机学会(ACM)主办的数据库、知识管理、信息检索领域的重要学术会议。
本届CIKM于11月6日-10日在享有“花园城市”美誉的新加坡举办,蚂蚁金服多位小伙伴前往参会。会议共收到Full/Short Paper投稿1274篇,其中Full Paper投稿855篇,录用171篇(录用率20%);Short Paper投稿419篇,录用119篇 (28%),反映了数据库、知识管理、信息检索领域国际前沿的研究水平。
参会归来后,小编邀请了参会的同学与各位读者们第一时间分享了CIKM的参会感受。在接下来的CIKM系列分享中,你将会看到:CIKM最佳论文鉴赏,Network Embedding专题和Transfer Learning 专题。本篇文章是CIKM系列分享的第一篇:CIKM最佳论文鉴赏。其他内容将在明后天的稿件推送中发出,敬请期待。
前记
本届会议参会人数超过700人,来自全球40多个国家的研科研院所,以及谷歌、微软、FaceBook、亚马逊、阿里巴巴、腾讯、搜狗等国内外知名企业。
有几点值得一提:
来自中国的参会者人数,居首!
来自中国的论文作者人数,依然居首!
特别给力的是,本届CIKM所有的Best Paper,Best Runner-ups Papers,Best Demo奖项毫无遗漏全部被华人学者包揽!
会议产出的3个Best奖项如下:
最佳长论文奖:Hike: A Hybrid Human-Machine Method for Entity Alignment in Large-Scale Knowledge Bases(本篇文章将对这篇论文进行详细解读)
最佳短论文奖:Text Coherence Analysis Based on Deep Neural Network
最佳Demo奖:AliMe Assist: An Intelligent Assistant for Creating an Innovative E-commerce Experience - Feng-Lin Li; Minghui Qiu; Haiqing Chen; Xiongwei Wang ; Xing Gao; Jun Huang; Juwei Ren; Zhongzhou Zhao; Weipeng Zhao; Lei Wang; Guwei Jin ; Wei Chu
在这里再次祝贺阿里小蜜团队,以压倒性优势拿下最佳Demo奖!
最佳论文背景解读
今年的最佳长论文奖由清华大学的李国良老师团队获得,论文题为:Hike: A Hybrid Human-Machine Method for Entity Alignment in Large-Scale Knowledge Bases《一种基于人机协作的大型知识图谱对齐方法》。因为是最佳论文,本篇分享单独对该文章做细致解读。为了能让各位读者有所得,涉及的细节较多,篇幅较长。如果你只是想一瞥论文思路,并不打算深究细节,那么后续章节中只挑“快读”部分阅读即可。
知识库是对客观世界的事物及其相互关系的一种形式化描述(包括实体、类和关系等,下图是2个知识库的示例,圆圈表示实体,实线矩形表示类,实体之间的箭头表示关系),其目的是让机器像人一样能够记忆、理解、推理,在知识管理、信息检索等领域具有广泛应用。目前很多国内外企业和高校已经建立数百个大型知识库(例如谷歌的Freebase等)。为了提高知识库的覆盖率和准确率,一个重要的任务是集成这些异构知识库。然而,由于这些知识库体量大、不一致性和不确定性高,目前自动化的知识库对齐方法质量不高,召回率低。
文章提出一种新型的人机协作的方法(A Hybrid Human-Machine Method),解决大规模知识库(Knowledge Base)之间实体对齐(Entity Alignment)的问题,并拿到了优于已有的自动对齐方法的结果。实体对齐是知识库对齐的一个子任务,是要判断两个知识库K和K′中,哪些实体描述的是同样的东东,并把它们link起来,例如下图中的hhenry_walthall和henry_b_walthall属于同一实体。
大规模知识库之间的实体对齐问题,有很多挑战:
知识库中拥有海量的实体,如果纯靠人工去标记实体并做对齐工作,不论从人工成本还是可行性方面看,都是很不现实的。
有自动的实体对齐算法,但是召回率只达到70%,质量不高。
读后感受
通过仔细地品读整篇文章,个人觉得这个工作之所以能拿下最佳论文奖项,原因有如下几个方面:
工作内容本身:围绕着“能应用于大规模数据集”这一目标,打出了一系列组合拳,包括实体划分(显著降低计算量,并让问题可并行计算)、偏序构建(使得未知问题的解可通过已知问题的答案推理得到)、问题选择+众包机制+推断算法(进一步降低计算量和花销)和错误容忍机制(提升质量),终使得实体对齐得以在大规模数据集落地。
工作非常饱满:几乎每一个细节之处都处理得很精致,不马虎;环环相扣,不断提出问题和解决问题,读后有一种淋漓尽致的感觉。
当然,文章中也存在一些值得商榷的地方和影响阅读的小瑕疵,整体感觉是后半部分质量不及前半部分。但本篇分享不做细节勘误。如果你在细读原论文时有任何细节困惑,欢迎在本文评论区留言交流!
论文解读
下面正式进入对论文细节的解读。为避免概念混淆,请留意:
(1)下文提到的实体对,永远都是指分别来自2个知识库的实体构成的实体对,同一个知识库中不谈实体对。此外,所述实体对只单纯是成对的实体,并不意味着一定是“对齐的”实体。
(2)后文中根据语境,会交叉使用“实体对”和“问题”两种表述,记得它们是一样的东东,因为每个实体对(ei,ej)都对应着如下问题:这俩实体是否匹配?
Introduction
论文背景
随着World Wide Web的发展,有越来越多异构的大规模知识库(Knowledge Base)产生,比如DBPedia(一个从维基百科的词条里撷取出的结构化的知识库)、YAGO(从WordNet和维基百科等构成的知识库)等等。知识库广泛应用于自动问答(Question Answer)、语义搜索(Semantic Search)等领域。知识库有几种组成元素:实体(entity,如Alibaba Group),类(class,实体所属的类别,如Company),关系(relation,如Alibaba Group isA Company,isA即是关系),属性(property),字面值(iteral,如日期、数值等)等。不同的知识库是异构的,因此可以互为补充。例如DBPedia有很多实体(entity)但只有少量的class,而YAGO则拥有成千上万的class(见下表),倘若可以link这两个知识库,便可以起到互相补充以提高知识库覆盖度的作用。
通常,我们会以三元组(s,p,o)表达知识库中的一条条事实:s=subject ,可以是实体或类;o=object,可以是实体、类或字面值;p=predicate (谓词),可以是关系或属性。
先贴一下方案的框架图,可以看到:输入是两个知识库K和K′,输出是两个知识库之间匹配的实体对,主要流程有Entity Partition,Partial Order Construction,Question Selection和Error Tolerance。
接下来,我们看看论文作者是如何环环相扣,以较小的计算量和花销解决实体对齐问题的。
转自:蚂蚁金服科技
完整内容请点击“阅读原文”