总奖金15万,双赛道同名消歧挑战赛报名进行中

2020 年 11 月 24 日 PaperWeekly



2020链想家计算科技大赛,由区块链教育新媒体平台链想家主办,biendata竞赛平台承办。旨在培养高质量的高新技术人才队伍,实现区块链技术与人工智能技术对不同行业的赋能改造。
 
链想家致力于将本次大赛打造为中国参赛人数最多的前沿科技比赛之一,并以大赛为抓手,进一步宣传贯彻国家创新驱动战略,深化人工智能和区块链技术在各行各业的应用改革,推动社会各界对高新技术人才培养的重视,切实提高大众的创新精神、创业意识、创新创业能力。助推传统产业转型发展,促进各行各业形成新业态、新经济、新模式。

目前,人工智能已经成为国家科技发展战略的核心。此外,当前充满风波的国际局势也对我国自主开发人工智能技术提出了新的要求。特别地,如果能自动地对国内外大量的科技信息分析工作,有十分重大的意义。在此背景下,链想家联合 AMiner 共同发布了同名消歧挑战赛,旨在让机器对科技领域的人才进行自动化地归类和消歧。本次比赛截止日期为2020年12月30日,总奖金15万元。

 复制打开以下链接参赛(推荐在电脑端打开):

赛道一:https://www.biendata.xyz/competition/chaindream_nd_task1/
赛道二:https://www.biendata.xyz/competition/chaindream_nd_task2/


赛题描述

Task

 
本次比赛有两个基础的论文消歧任务,分别为冷启动消歧和论文增量消歧义。
 
I. 论文的冷启动消歧
Name Disambiguation from Scratch
任务描述:给定一堆拥有同名作者的论文,要求返回一组论文聚类,使得一个聚类内部的论文都是一个人的,不同聚类间的论文不属于一个人。最终目的是识别出哪些同名作者的论文属于同一个人。
 
参考方法: 解决这一问题的常用思路就是通过聚类算法,即通过提取论文特征,定义聚类相似度度量,从而将一堆论文聚成的几类论文,使得聚类内部论文尽可能相似,而类间论文有较大不同,最终可以将每一类论文看成属于同一个人的论文。 根据用于聚类的特征和衡量论文相似度标准的不同,可大概分为如下几个思路:
  • 基于人为定义规则(rule-based)的方法,手动定义一些聚类标准,比如对应作者机构一样的论文聚成一类等,从而获得聚类结果;

  • 基于监督信息的聚类,利用给出的训练数据集,构建二分类样本去训练一个衡量论文之间距离的模型,然后根据模型去计算测试集中论文的相似度,以此为基础进行聚类;

  • 基于原子聚类的方法[1],大致思路是首先用较强的规则进行聚类,例如:俩篇论文如果有俩个以上的共同作者,那么这俩篇论文属于同一类,这样可以保证聚类内部的准确率,随后用弱规则将先前的聚类合并,从而提高召回率;

  • 基于图聚类的方法[2],利用论文之间的结构以及属性关系去构建统一的概率图,随后通过算法估计了聚类人数K,最后使用图聚类算法去解决问题;

  • 基于向量的方法[3],有些工作考虑了传统特征的局限性,所以利用了低维语义空间的向量表示方法,通过将论文映射成低维空间的向量表示,在此之上定义论文之间相似度的度量方式,基于向量使用聚类方法。


评估方法:使用Macro Pairwise-F1作为模型评估度量



II. 论文的增量消歧
Continuous Name Disambiguation

任务描述:线上系统每天会新增大量的论文,如何准确快速的将论文分配到系统中已有作者档案,这是线上学术系统最亟待解决的问题。所以问题抽象定义为:给定一批新增论文以及系统已有的作者论文集,最终目的是把新增论文分配到正确的作者档案中。
 
参考方法: 增量消歧任务与冷启动消歧的任务不同,它是基于有一定作者档案的基础,对新增论文进行分配,同时还要兼顾论文的NIL问题,即论文不能分配给任意一个已有的档案,可分为分类和排序打分两种思路来解决:
  • 基于分类的方法:容易直接想到的方法就是将这个问题转化成为二分类任务,将已有的作者档案与新增论文进行比较,提取合作者,单位机构或者会议期刊之间相似度的特征。随后利用分类器进行0/1分类;

  • 基于排序打分的方法[4]:将这个任务转化成信息检索中的RANKING问题, 对于每篇待分配的论文,首先挑选对应的candidate author然后同样的去提取交互特征,最后用learning to rank框架去训练一个打分模型,最后对于每个candidate author进行打分,然后按照得分高低排序,选择top-1的author;


解决NIL的问题:在获取最有可能分配的author profile后,还需要进一步判断是否真正将paper分配过去,即NIL的问题。在实体链接领域中,可以在分类或排序打分模型的基础上,额外再提取整体candidate authors得分的分布特征,去训练一个判别模型进∂一步判断NIL的情形。[4]中总结并提出了一些解决NIL的方法。

 
评估方法:使用WeightedF1 作为模型评估度量。

参考文献

[1]. Wang et al. Name Disambiguation Using Atomic Clusters. Web-Age Information Management. WAIM '08.

[2]. Jie et al. A Unified Probabilistic Framework for Name Disambiguation in Digital Library. IEEE Transaction on Knowledge and Data Engineering (TKDE’12).

[3]. Zhang et al. Name Disambiguation in AMiner: Clustering, Maintenance, and Human in the Loop. In Proceedings of the Twenty-Forth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD'18).

[4]. Chen et al. CONNA: Addressing Name Disambiguation on The Fly. IEEE Transaction on Knowledge and Data Engineering (TKDE’20)








上赛季获奖方案

Review


论文的冷启动消歧

Name Disambiguation from Scratch

 

第一名:基于网络嵌入和语义表征的作者名消歧 https://www.biendata.xyz/models/detail/3637/

 

第二名:基于LGB二分类与层次聚类的同名消歧冷启动

https://www.biendata.xyz/models/category/3643



论文的增量消歧

Continuous Name Disambiguation


第一名:FIND:基于特征工程的增量同名消歧方法

https://www.biendata.xyz/models/category/3650/

 

第二名:基于XGBoost的人名消歧方法的研究

https://www.biendata.xyz/models/category/3678/

 

第三名:基于SVM的同名作者消歧

https://www.biendata.xyz/models/category/3625/

 



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



关于PaperWeekly


PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。



 

登录查看更多
0

相关内容

论文(Paper)是专知网站核心资料文档,包括全球顶级期刊、顶级会议论文,及全球顶尖高校博士硕士学位论文。重点关注中国计算机学会推荐的国际学术会议和期刊,CCF-A、B、C三类。通过人机协作方式,汇编、挖掘后呈现于专知网站。
【AAAI2021】维基百科检索跳转来回答复杂的问题
专知会员服务
14+阅读 · 2021年1月5日
专知会员服务
75+阅读 · 2020年12月19日
专知会员服务
31+阅读 · 2020年9月2日
【ICML 2020 】小样本学习即领域迁移
专知会员服务
77+阅读 · 2020年6月26日
专知会员服务
155+阅读 · 2020年4月21日
中文知识图谱构建技术以及应用的综述
专知会员服务
312+阅读 · 2019年10月19日
多因子融合的实体识别与链指消歧
AI科技评论
10+阅读 · 2019年8月20日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
阿里健康夺冠中文电子病历实体识别评测任务
AI掘金志
40+阅读 · 2018年8月17日
AI 竞赛 | 2018 机器阅读理解技术竞赛
AI研习社
7+阅读 · 2018年3月16日
Arxiv
1+阅读 · 2021年2月3日
Arxiv
0+阅读 · 2021年2月3日
Arxiv
8+阅读 · 2020年8月30日
Arxiv
5+阅读 · 2020年3月17日
Arxiv
5+阅读 · 2019年11月22日
Multi-Grained Named Entity Recognition
Arxiv
6+阅读 · 2019年6月20日
Arxiv
4+阅读 · 2018年3月23日
VIP会员
相关VIP内容
相关资讯
相关论文
Arxiv
1+阅读 · 2021年2月3日
Arxiv
0+阅读 · 2021年2月3日
Arxiv
8+阅读 · 2020年8月30日
Arxiv
5+阅读 · 2020年3月17日
Arxiv
5+阅读 · 2019年11月22日
Multi-Grained Named Entity Recognition
Arxiv
6+阅读 · 2019年6月20日
Arxiv
4+阅读 · 2018年3月23日
Top
微信扫码咨询专知VIP会员