An entity mention in text such as "Washington" may correspond to many different named entities such as the city "Washington D.C." or the newspaper "Washington Post." The goal of named entity disambiguation is to identify the mentioned named entity correctly among all possible candidates. If the type (e.g. location or person) of a mentioned entity can be correctly predicted from the context, it may increase the chance of selecting the right candidate by assigning low probability to the unlikely ones. This paper proposes cluster-based mention typing for named entity disambiguation. The aim of mention typing is to predict the type of a given mention based on its context. Generally, manually curated type taxonomies such as Wikipedia categories are used. We introduce cluster-based mention typing, where named entities are clustered based on their contextual similarities and the cluster ids are assigned as types. The hyperlinked mentions and their context in Wikipedia are used in order to obtain these cluster-based types. Then, mention typing models are trained on these mentions, which have been labeled with their cluster-based types through distant supervision. At the named entity disambiguation phase, first the cluster-based types of a given mention are predicted and then, these types are used as features in a ranking model to select the best entity among the candidates. We represent entities at multiple contextual levels and obtain different clusterings (and thus typing models) based on each level. As each clustering breaks the entity space differently, mention typing based on each clustering discriminates the mention differently. When predictions from all typing models are used together, our system achieves better or comparable results based on randomization tests with respect to the state-of-the-art levels on four defacto test sets.


翻译:“ 华盛顿” 等文本中提及实体可能与许多不同名称实体相对应, 如城市“ 华盛顿特区” 或报纸“ 华盛顿邮报 ” 。 命名实体的模糊化目标是在所有可能的候选人中正确识别被指名实体。 如果从上下文中可以正确预测被指实体的类型(例如地点或人), 则可能增加选择正确候选人的机会, 将概率较低者分配给不太可能被指实体。 本文建议对被指实体的脱节性进行基于集群的标签打字。 提及打字的目的是根据上下文预测某个提及的类型。 一般来说, 使用人工拼写类型分类分类分类法( 如使用维基百科分类等) 的目的是要在所有可能的候选实体中正确辨别。 使用基于背景分类法分类法的每类( 我们使用的每类分类法分类法), 使用基于不同类型分类法的每类分类法测试, 以不同的分类法( 我们使用的每类分类法, 都根据不同的分类法, 使用不同的分类法, 使用不同的分类法, 以不同的分类法, 以不同的分类法, 以不同的分类法 。

0
下载
关闭预览

相关内容

专知会员服务
29+阅读 · 2021年6月15日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
29+阅读 · 2019年10月18日
开源书:PyTorch深度学习起步
专知会员服务
50+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
IJCAI2020信息抽取相关论文合集
AINLP
6+阅读 · 2020年6月16日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
论文浅尝 | Global Relation Embedding for Relation Extraction
开放知识图谱
12+阅读 · 2019年3月3日
徐阿衡 | 知识抽取-实体及关系抽取(一)
开放知识图谱
41+阅读 · 2018年9月18日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
论文浅尝 | Hike: A Hybrid Human-Machine Method for Entity Alignment
机器学习研究会
6+阅读 · 2018年1月6日
论文浅尝 | Learning with Noise: Supervised Relation Extraction
开放知识图谱
3+阅读 · 2018年1月4日
论文浅尝 | Distant Supervision for Relation Extraction
开放知识图谱
4+阅读 · 2017年12月25日
Arxiv
5+阅读 · 2021年6月3日
A Survey on Deep Learning for Named Entity Recognition
Arxiv
73+阅读 · 2018年12月22日
Arxiv
4+阅读 · 2018年11月7日
Arxiv
5+阅读 · 2018年1月30日
VIP会员
相关资讯
IJCAI2020信息抽取相关论文合集
AINLP
6+阅读 · 2020年6月16日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
论文浅尝 | Global Relation Embedding for Relation Extraction
开放知识图谱
12+阅读 · 2019年3月3日
徐阿衡 | 知识抽取-实体及关系抽取(一)
开放知识图谱
41+阅读 · 2018年9月18日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
论文浅尝 | Hike: A Hybrid Human-Machine Method for Entity Alignment
机器学习研究会
6+阅读 · 2018年1月6日
论文浅尝 | Learning with Noise: Supervised Relation Extraction
开放知识图谱
3+阅读 · 2018年1月4日
论文浅尝 | Distant Supervision for Relation Extraction
开放知识图谱
4+阅读 · 2017年12月25日
Top
微信扫码咨询专知VIP会员