总奖金15万元 | 链想家联合AMiner发布同名消岐第二期竞赛

2020 年 6 月 4 日 AINLP

点击蓝字关注biendata



OAG-WhoIsWho同名消岐挑战赛(第二期)正式启动上线


在许多线上应用中,同名消歧 (Name Disambiguation —- aiming at disambiguating WhoIsWho) 一直是一个具有挑战性的问题,如科学文献管理、人物搜索、社交网络分析等。同时,随着科学文献的大量增长,使得该问题的解决变得愈加困难与紧迫。尽管同名消歧已经在学术界和工业界被大量研究,但由于数据的杂乱以及同名情景十分复杂,导致该问题仍未能很好解决。


收录各种论文的线上学术搜索系统如Google Scholar, Dblp和AMiner等,已经成为目前学术界非常重要的学术交流以及论文搜索平台。然而由于论文分配算法的局限性,现有的学术系统内部存在着大量的论文分配错误;此外,每天都会有大量新论文进入系统。如何准确快速地将论文分配到系统中已有的作者档案以及维护作者档案的一致性,是线上学术系统亟待解决的难题。


在此背景下,链想家联合AMiner共同发布了同名消岐挑战赛,本次比赛是OAG-WhoIsWho同名消岐系列挑战赛的第二期。第一期竞赛吸引了超过500支队伍,1000人参赛,并且在同名消歧领域取得了良好的反响,也提出了不少具有启发性的解决问题思路。同时北京智源人工智能研究院和AMiner也公开发布了相关的数据集OAG – WhoIsWho_v1 (https://www.aminer.cn/whoiswho),旨在为大家提供解决学术系统内部的同名消歧问题的benchmark。第二期竞赛相对于第一期来说使用了更好的数据集标注框架和更新的竞赛任务,相关数据集在竞赛完成后也会发布在上述网页。


第一期竞赛地址:https://www.biendata.com/competition/aminer2019/


据了解,OAG-WhoIsWho系列数据集是目前为止最大的人工标注的同名消歧数据集,后续AMiner会以增量的方式发布更多的数据集并配套相关竞赛,打造出本领域的ImageNet,敬请期待。


扫描下方二维码或点击阅读原文即可查看比赛详情


比赛概况

Overview

本次比赛开放时间为2020年5月20日,在10月31日初赛提交将截止并关闭提交入口,11月1日开启复赛并同步开放测试集数据下载与复赛提交入口。参赛选手有24小时的时间进行复赛提交,11月2日复赛提交截止后将关闭复赛提交入口。比赛提交结束后经组委会完成参赛队伍审查,最终将于11月15日前决出最终排名。


赛题任务

Task

比赛共设置了两条赛道:

赛道一 论文的冷启动消歧(Name Disambiguation from Scratch)

赛道二 论文的增量消歧(Continuous Name Disambiguation)


赛道一的任务要求参赛选手从给定的一组有同名作者的论文中,识别出哪些同名作者的论文属于同一个人;赛道二的任务则要求参赛选手将一组新增的论文准确分配到系统已有的作者中,包含解决论文分配的NIL问题。


本次比赛所使用的OAG-WhoIsWho_v2数据集使用了更好的标注框架,数据更为准确。数据集可在竞赛界面下载,全部数据集会在竞赛结束后陆续发布。


比赛时间

Timeline

2020年5月20日 - 2020年11月15日


奖励项设置

Prize

本次比赛总奖金共15万元

赛道一奖金设置:

一等奖 ¥40,000 1队

二等奖 ¥25,000 1队

三等奖 ¥10,000 1队


赛道二奖金设置:

一等奖 ¥40,000 1队

二等奖 ¥25,000 1队

三等奖 ¥10,000 1队


点击阅读原文或扫描下图中的二维码

进入大赛官网,选择同名消岐挑战赛注册报名 -下载数据,即可参赛。


关于biendata.com


biendata旨在以人工智能竞赛为基础打造全方位的数据科学爱好者社区。成立至今与多家国内外顶级学术机构、科技企业合作,赛题领域涵盖机器视觉、自然语言处理、知识图谱、推荐系统等机器学习领域;以及粒子物理学、神经生物学、药物化学、互联网、电子商务、智能医疗、自动写作,以及工业制造等基础或应用学科。
  • 10万+数据科学爱好者用户

  • 国内外顶级学术机构合作

  • 行业内有影响力的评测数据


扫描二维码关注biendata

登录查看更多
0

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
【资源】100+本免费数据科学书
专知会员服务
107+阅读 · 2020年3月17日
专知会员服务
51+阅读 · 2020年1月13日
哈工大讯飞联合实验室发布中文XLNet预训练模型
哈工大SCIR
13+阅读 · 2019年8月20日
FlyAI算法竞赛:百万现金奖励实时瓜分
AINLP
5+阅读 · 2019年4月1日
谷歌发布问答系统新语料,同时发布相关挑战赛
AI 竞赛 | 2018 机器阅读理解技术竞赛
AI研习社
7+阅读 · 2018年3月16日
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
Revealing the Dark Secrets of BERT
Arxiv
4+阅读 · 2019年9月11日
Arxiv
15+阅读 · 2019年9月11日
Arxiv
6+阅读 · 2019年8月22日
Deep Learning for Generic Object Detection: A Survey
Arxiv
13+阅读 · 2018年9月6日
Arxiv
6+阅读 · 2018年4月23日
Arxiv
5+阅读 · 2018年1月30日
VIP会员
相关论文
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
Revealing the Dark Secrets of BERT
Arxiv
4+阅读 · 2019年9月11日
Arxiv
15+阅读 · 2019年9月11日
Arxiv
6+阅读 · 2019年8月22日
Deep Learning for Generic Object Detection: A Survey
Arxiv
13+阅读 · 2018年9月6日
Arxiv
6+阅读 · 2018年4月23日
Arxiv
5+阅读 · 2018年1月30日
Top
微信扫码咨询专知VIP会员