总奖金15万元 | 链想家联合AMiner发布同名消歧第二期竞赛

2020 年 6 月 6 日 学术头条

【导读】OAG-WhoIsWho 同名消歧挑战赛（第二期）正式启动上线

在许多线上应用中，同名消歧 (Name Disambiguation —- aiming at disambiguating WhoIsWho) 一直是一个具有挑战性的问题，如科学文献管理、人物搜索、社交网络分析等。同时，随着科学文献的大量增长，使得该问题的解决变得愈加困难与紧迫。尽管同名消歧已经在学术界和工业界被大量研究，但由于数据的杂乱以及同名情景十分复杂，导致该问题仍未能很好解决。

收录各种论文的线上学术搜索系统如 Google Scholar, Dblp 和 AMiner 等，已经成为目前学术界非常重要的学术交流以及论文搜索平台。然而由于论文分配算法的局限性，现有的学术系统内部存在着大量的论文分配错误；此外，每天都会有大量新论文进入系统。如何准确快速地将论文分配到系统中已有的作者档案以及维护作者档案的一致性，是线上学术系统亟待解决的难题。

在此背景下，链想家联合 AMiner 共同发布了同名消歧挑战赛，本次比赛是 OAG-WhoIsWho 同名消歧系列挑战赛的第二期。第一期竞赛（https://biendata.com/competition/aminer2019/）吸引了超过 500 支队伍，1000 人参赛，并且在同名消歧领域取得了良好的反响，也提出了不少具有启发性的解决问题思路。同时北京智源人工智能研究院和 AMiner 也公开发布了相关的数据集 OAG – WhoIsWho_v1 (https://www.aminer.cn/whoiswho)，旨在为大家提供解决学术系统内部的同名消歧问题的 benchmark。第二期竞赛相对于第一期来说使用了更好的数据集标注框架和更新的竞赛任务，相关数据集在竞赛完成后也会发布在上述网页。

据了解，OAG-WhoIsWho 系列数据集是目前为止最大的人工标注的同名消歧数据集，后续 AMiner 会以增量的方式发布更多的数据集并配套相关竞赛，打造出本领域的 ImageNet，敬请期待。

扫描下方二维码或点击阅读原文即可查看比赛详情。

比赛概况

本次比赛开放时间为 2020 年 5 月 20 日，在 10 月 31 日初赛提交将截止并关闭提交入口，11 月 1 日开启复赛并同步开放测试集数据下载与复赛提交入口。参赛选手有 24 小时的时间进行复赛提交，11 月 2 日复赛提交截止后将关闭复赛提交入口。比赛提交结束后经组委会完成参赛队伍审查，最终将于 11 月 15 日前决出最终排名。

比赛共设置了两条赛道：
赛道一论文的冷启动消歧(Name Disambiguation from Scratch)
赛道二论文的增量消歧(Continuous Name Disambiguation)

赛道一的任务要求参赛选手从给定的一组有同名作者的论文中，识别出哪些同名作者的论文属于同一个人；赛道二的任务则要求参赛选手将一组新增的论文准确分配到系统已有的作者中，包含解决论文分配的 NIL 问题。

比赛数据集：
本次比赛所使用的 OAG-WhoIsWho_v2 数据集使用了更好的标注框架，数据更为准确。数据集可在竞赛界面下载，全部数据集会在竞赛结束后陆续发布。

奖项设置

本次比赛总奖金共 15 万元：

赛道一奖金设置：
一等奖￥40,000 1名
二等奖￥25,000 1名
三等奖￥10,000 1名

赛道二奖金设置：
一等奖￥40,000 1名
二等奖￥25,000 1名
三等奖￥10,000 1名

参赛方式

点击阅读原文或扫描下图中的二维码
进入大赛官网，选择同名消歧挑战赛注册报名 -下载数据，即可参赛。

2020 链想家计算科技大赛

2020 年，突如其来的新冠疫情让全世界都措手不及，无数家庭都卷入了巨大的灾难中。疫情的蔓延使得政府的灾难预警、统筹管理、物资调拨等机制陷入了巨大的挑战。这时，计算机技术开始帮助我们稳住阵脚。人工智能模型对疫情的预测让我们可以提前做出决策，人工智能和大数据等相关技术还深度介入药物开发、信息收集、病情可视化等领域。另一方面，区块链技术作为一种去中心化的数据可信任技术，天然契合应急管理分散性、多方参与和可溯源的要求。目前，已有将区块链技术应用于疫情监测、捐赠物资溯源与调配，以及复工复产的尝试。

为培养高质量的高新技术人才队伍，实现人工智能与区块链技术对不同行业的赋能改造，链想家联合中国领先的数据竞赛平台和人工智能社区Biendata正式开启2020链想家计算机科技大赛，面向全球广泛征集来自个人以及高校、企业、科研单位等团队的科技创新创意科技作品。

链想家致力于将本次大赛打造为中国参赛人数最多的前沿科技比赛之一，并以大赛为抓手，进一步宣传贯彻国家创新驱动战略，深化人工智能和区块链技术在各行各业的应用改革，推动社会各界对高新技术人才培养的重视，切实提高大众的创新精神、创业意识、创新创业能力。助推传统产业转型发展,促进各行各业形成新业态、新经济、新模式。

点击“阅读原文”报名参赛！

登录查看更多

相关内容

数据集

关注 88

数据集，又称为资料集、数据集合或资料集合，是一种由数据所组成的集合。
Data set（或dataset）是一个数据的集合，通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量，如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数，该数据集的数据可能包括一个或多个成员。

如何写论文？这份《科研论文撰写策略》看下

专知会员服务

147+阅读 · 2020年6月15日

ACL2020接受论文列表公布，571篇长文208篇短文

专知会员服务

67+阅读 · 2020年5月19日

【ACL2020-Google】逆向工程配置的神经文本生成模型

专知会员服务

17+阅读 · 2020年4月20日

面向司法案件的案情知识图谱自动构建

专知会员服务

126+阅读 · 2020年4月17日