论文链接:
http://keg.cs.tsinghua.edu.cn/jietang/publications/KDD08-Tang-et-al-ArnetMiner.pdf
在这篇文章中,作者主要介绍了一个自主研发的面向研究者社会网络的挖掘搜索系统 ArnetMiner 的体系结构和关键技术。下面我们来将详细解读一下这篇文章。
近些年,学术社交网络发展迅速,为众多研究学者提供了良好的交流平台,也产生了巨大的学术信息数据集。随着数据挖掘和人工智能技术的发展,针对学术社交网络进行数据挖掘和知识提取,进而为科学研究领域提供全方位的服务成为一大研究热点。
在作者开始这项研究之时,学术圈已有 DBLP、CiteSeer、Google Scholar 等学术搜索系统发布,但是往往存在以下两项不足之处:
1)缺乏语义信息。无论用户输入的个人资料或使用启发式方法提取的各类信息,语义存在不完整或不一致性,缺少有效获得大规模语义信息的方法;
2)缺乏异构对象的统一建模方法。以前,学术网络中不同类型的信息如学者、论文、会议期刊是单独建模的,因此无法准确捕捉它们之间的依赖关系。
为解决这两个问题,作者所在的研究团队开发了ArnetMiner(https://www.aminer.cn/ )系统。该系统旨在解决以下几个问题:
1)如何自动从互联网海量信息中提取研究人员的个人档案?
2)如何集成不同来源提取的学术相关信息(例如研究人员的个人档案和出版物)?
3)如何以统一的方法为不同类型的信息建模?
4)如何基于已构建的网络,提供强大的挖掘和搜索服务?
图 1 给出了 AMiner 系统框架图,AMiner 系统自下而上主要包括五个部分:
1)研究者个人信息抽取(Extraction):即从网络上自动识别到研究者的个人主页,并训练一个统一的模型,从中抽取研究者的各种基本信息。同时,从不同来源的论文数据库抽取或收集作者所发表的论文信息;
2)个人信息融合(Integration):通过使用研究者姓名作为标识符,将提取的研究者的个人资料和提取的出版物信息进行整合。提出了马尔科夫随机场概率模型,以解决融合不同来源论文数据时面临的重名歧义问题;
3)存储和访问(Storage and Access):系统将集成的数据存储在研究者网络知识库(RNKB)中,利用MySQL作为存储数据库,并使用反向文件索引方法进行信息索引;
4)建模(Modeling):文章提出一个概率生成模型,通过对学术网络中的研究者、论文、会议等不同类型的信息进行综合分析,对每种信息进行主题分布估计;
5)搜索服务(Search Services):基于建模结果,提供多种搜索服务,包括专家搜索、关联关系搜索、论文推荐以及引用推荐等。
该系统重点解决三个技术难点:
1)学术网络中研究者个人信息自动抽取问题;
2)不同来源学术论文融合过程中的重名排歧问题;
3)学术网络中研究者、论文、会议等异质实体的统一建模问题。
个人自动信息抽取
图2 :研究者个人主页和理想的标注结果
研究者重名排歧
图 3 给出了一个重名排岐的实例。图中每个点表示一篇论文,每条有向边表示两篇论文之间的不同类型的关系,这些关系即可以转化为上述约束。两个点之间的距离反应了它们在内容上相似度。实线框表示论文属于同一个作者(聚类类别)。
从图中可以非常直观地看出,仅根据内容相似度不能取得很好的聚类效果,但是不同类型的关系对于区分不同的作者非常有效。例如,根据节点3和8之间的合作关系,很容易将它们分配到同一个类别。
学术网络建模对于任何搜索或建议任务都是至关重要的。传统上,信息通常是基于“词袋(BOW)”模型来表示的。
AMiner 提供的核心服务是专家搜索,即根据用户查询的话题找出在相关领域的权威专家。因此,仅仅依靠关键词进行专家匹配,几乎无法返回有效的结果。而如果我们知道自然语言处理领域的权威会议是“ACL”等,根据研究者发表的会议信息,就可以很容易判断出他是否是该领域的权威专家。
因此,作者提出了一个统一的主题模型 ACT,同时对研究者论文、作者和会议的主题进行分布建模,设计了一种可以有效地利用学术网络的异质实体与关联信息,来发现领域内专家方法。
文章提出主题模型 ACT 对研究者异质信息网络统一进行建模,从中估计出不同类型的实体,包括研究者、会议、关键词以及论文在不同隐含话题上的概率分布。
ACT1 模型:每位作者与主题上的多项式分布相关联,并且论文中的每个单词和会议标记都是从抽样的主题中生成的。
ACT2 模型:每个“作者-会议”对都与主题上的多项式分布相关联,然后从采样的主题中生成每个单词。
ACT3 模型:每位作者都与一个主题分布相关联,并且在为论文中的所有单词标记采样主题之后,生成会议标记。
有了这些概率分布,当用户给定一个查询词,就可以推断与之概率分布相近的专家,进而还可以推断出相关的会议和论文等异构网络中存在的各种实体类型。
为验证模型的有效性,作者将 ACT 模型分别应用于专业知识搜索与关联搜索中。
表 1 给出六种基线搜索方法的性能比较(%)
AMiner 平台自 2006 年上线以来,经过 10 余年的技术攻关,已经建成了智能型科技情报挖掘和知识服务系统,建立了超过 1 亿学者、4 亿论文和专利的科技情报智库,提供科技趋势分析、专家发现、智能指派、人才地图等科技情报智能服务。