Cross-document coreference resolution (CDCR) datasets, such as ECB+, contain manually annotated event-centric mentions of events and entities that form coreference chains with identity relations. ECB+ is a state-of-the-art CDCR dataset that focuses on the resolution of events and their descriptive attributes, i.e., actors, location, and date-time. NewsWCL50 is a dataset that annotates coreference chains of both events and entities with a strong variance of word choice and more loosely-related coreference anaphora, e.g., bridging or near-identity relations. In this paper, we qualitatively and quantitatively compare annotation schemes of ECB+ and NewsWCL50 with multiple criteria. We propose a phrasing diversity metric (PD) that compares lexical diversity within coreference chains on a more detailed level than previously proposed metric, e.g., a number of unique lemmas. We discuss the different tasks that both CDCR datasets create, i.e., lexical disambiguation and lexical diversity challenges, and propose a direction for further CDCR evaluation.


翻译:文件交叉参考分辨率(CDCR)数据库,如欧洲央行+, 包含以事件为中心的人工说明性提及事件和实体,形成与身份关系相连接的连锁关系。欧洲央行+是一个最先进的CDCR数据集,侧重于事件的解决及其描述属性,即行为者、地点和日期时间。NewsWCL50是一个数据集,其中注明事件和实体的连锁链接,其单词选择差异很大,而且互连性更松散。在本文件中,我们从质量和数量上比较欧洲央行+和NewsWCL50的批注计划与多重标准。我们建议采用多样性指标(PD),将共同参照链中的词汇多样性比先前提议的指标更详细,例如,一些独特的红皮。我们讨论了CDCR数据集带来的不同任务,即词汇上的断裂和字典多样性的挑战,并提出进一步评价的方向。

0
下载
关闭预览

相关内容

【干货书】开放数据结构,Open Data Structures,337页pdf
专知会员服务
17+阅读 · 2021年9月17日
专知会员服务
66+阅读 · 2021年7月4日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
语义分割 | context relation
极市平台
8+阅读 · 2019年2月9日
自然语言处理常见数据集、论文最全整理分享
深度学习与NLP
11+阅读 · 2019年1月26日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Dataset Search | 数据集搜索专用引擎
机器学习算法与Python学习
9+阅读 · 2018年9月7日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
Arxiv
0+阅读 · 2021年12月7日
Arxiv
0+阅读 · 2021年12月2日
VIP会员
相关VIP内容
【干货书】开放数据结构,Open Data Structures,337页pdf
专知会员服务
17+阅读 · 2021年9月17日
专知会员服务
66+阅读 · 2021年7月4日
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
语义分割 | context relation
极市平台
8+阅读 · 2019年2月9日
自然语言处理常见数据集、论文最全整理分享
深度学习与NLP
11+阅读 · 2019年1月26日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Dataset Search | 数据集搜索专用引擎
机器学习算法与Python学习
9+阅读 · 2018年9月7日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
Top
微信扫码咨询专知VIP会员