We present Namesakes, a dataset of ambiguously named entities obtained from English-language Wikipedia and news articles. It consists of 58862 mentions of 4148 unique entities and their namesakes: 1000 mentions from news, 28843 from Wikipedia articles about the entity, and 29019 Wikipedia backlink mentions. Namesakes should be helpful in establishing challenging benchmarks for the task of named entity linking (NEL).


翻译:我们展示了从英语维基百科获得的、名称不明的实体和新闻文章的数据集 " 名魔 ",其中58862人提到4148个独特实体及其名称:1 000人从新闻中提及,28843人从维基百科文章中提及该实体,29019人从维基百科回链接中提及。 名魔应有助于为名称实体连接任务(NEL)制定具有挑战性的基准。

0
下载
关闭预览

相关内容

专知会员服务
27+阅读 · 2021年3月5日
【新书】Python数据科学食谱(Python Data Science Cookbook)
专知会员服务
117+阅读 · 2020年1月1日
【康奈尔大学】度量数据粒度,Measuring Dataset Granularity
专知会员服务
13+阅读 · 2019年12月27日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
159+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
已删除
将门创投
3+阅读 · 2019年4月19日
Arxiv
5+阅读 · 2019年11月22日
Multi-Grained Named Entity Recognition
Arxiv
6+阅读 · 2019年6月20日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
已删除
将门创投
3+阅读 · 2019年4月19日
Top
微信扫码咨询专知VIP会员