从新闻语料库中自动检测事件是挖掘快速进化的结构化知识的关键。由于现实世界的事件具有不同的粒度,从顶级主题到关键事件,再到与具体行动相对应的事件提及,通常有两种研究方向:(1)主题检测从新闻语料库中识别出主要主题(如“2019年香港抗议”vs.;“2020年美国总统选举”),语义非常明确;(2)动作抽取(action extraction)从一个文档提及级别的动作(例如,“警察打了抗议者的左臂”)中提取,这些动作粒度太细,无法理解事件。在本文中,我们提出了一个新的任务,即中间层次的关键事件检测,旨在从一个新闻语料库中检测出发生在特定时间/地点、关注同一主题的关键事件(如“8月12-14日香港机场抗议”)。由于关键事件的主题和时间的紧密性,以及由于新闻文章的快速发展而导致标记数据的稀缺,这一任务可以将事件理解和结构连接起来,并且具有内在的挑战性。为了应对这些挑战,我们开发了一个无监督的关键事件检测框架EvMine,该框架(1)使用一种新的ttf-itf评分提取时间频繁的峰值短语,(2)通过从我们设计的峰值短语图中检测社区,将峰值短语合并到事件指示性特征集,该图捕捉文档共现、语义相似性和时间紧密性信号,(3)通过从事件指示性特征集自动生成伪标签训练分类器,并使用检索到的文档细化检测到的关键事件,迭代检索与每个关键事件相关的文档。大量的实验和案例研究表明,EvMine在两个真实世界的新闻语料库上优于所有的基线方法和它的改进。

https://arxiv.org/pdf/2206.04153.pdf

成为VIP会员查看完整内容
33

相关内容

UIUC韩家炜:从海量非结构化文本中挖掘结构化知识
专知会员服务
97+阅读 · 2021年12月30日
专知会员服务
38+阅读 · 2021年9月15日
专知会员服务
25+阅读 · 2021年7月17日
【AAAI2021】以事件为中心的自然语言理解,256页ppt
专知会员服务
74+阅读 · 2021年2月8日
【ACL2020-复旦大学NLP】异构图神经网络的文档摘要提取
专知会员服务
35+阅读 · 2020年5月1日
WWW2022 | 推荐系统中的特征自动提取
图与推荐
1+阅读 · 2022年2月24日
面向Transformer模型的高效预训练方法
哈工大SCIR
1+阅读 · 2021年6月5日
论文浅尝 | 采用多层注意力机制的事件检测
开放知识图谱
23+阅读 · 2019年8月24日
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
38+阅读 · 2019年8月18日
论文浅尝 | 使用循环神经网络的联合事件抽取
开放知识图谱
25+阅读 · 2019年4月28日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2010年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
Arxiv
13+阅读 · 2022年1月20日
Arxiv
21+阅读 · 2020年10月11日
Arxiv
92+阅读 · 2020年2月28日
Arxiv
12+阅读 · 2019年2月28日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2010年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员