Automated event detection from news corpora is a crucial task towards mining fast-evolving structured knowledge. As real-world events have different granularities, from the top-level themes to key events and then to event mentions corresponding to concrete actions, there are generally two lines of research: (1) theme detection identifies from a news corpus major themes (e.g., "2019 Hong Kong Protests" vs. "2020 U.S. Presidential Election") that have very distinct semantics; and (2) action extraction extracts from one document mention-level actions (e.g., "the police hit the left arm of the protester") that are too fine-grained for comprehending the event. In this paper, we propose a new task, key event detection at the intermediate level, aiming to detect from a news corpus key events (e.g., "HK Airport Protest on Aug. 12-14"), each happening at a particular time/location and focusing on the same topic. This task can bridge event understanding and structuring and is inherently challenging because of the thematic and temporal closeness of key events and the scarcity of labeled data due to the fast-evolving nature of news articles. To address these challenges, we develop an unsupervised key event detection framework, EvMine, that (1) extracts temporally frequent peak phrases using a novel ttf-itf score, (2) merges peak phrases into event-indicative feature sets by detecting communities from our designed peak phrase graph that captures document co-occurrences, semantic similarities, and temporal closeness signals, and (3) iteratively retrieves documents related to each key event by training a classifier with automatically generated pseudo labels from the event-indicative feature sets and refining the detected key events using the retrieved documents. Extensive experiments and case studies show EvMine outperforms all the baseline methods and its ablations on two real-world news corpora.
翻译:从新闻库中自动检测事件是挖掘快速变化结构知识的关键任务。 真实世界事件有不同的颗粒, 从顶层主题到关键事件, 然后到事件提到具体的行动, 通常有两条研究线:(1) 从新闻库中识别主题( 例如“ 2019 香港抗议” 与“ 2020 U.S. 总统选举 ” ), 都有非常独特的语义学; (2) 从一个文件端点级行动( 例如, “ 警察击中抗议者左臂 ” ) 中提取的动作提取。 现实世界事件有不同的颗粒粒, 从顶点到关键点, 从顶点, 我们提出一个新的任务, 在中间一级, 关键事件检测, 目的是从新闻堆关键事件( 例如, “ 2019 香港抗议” 与“ 20 U. S. S. Preportal ” ) 中识别主题主题, 每一个都在特定的时间/ 地点发生, 并关注同一主题。 这项任务可以弥补事件端点的理解和构造, 并且由于关键事件的主题和时间 接近点 、 的近端点 、 时间 、 时间 时间级 数据 数据 运行 数据 运行运行 数据 运行 运行 、 运行 运行 运行 数据 、 运行 运行 运行 运行 运行 运行 数据 、 、 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行点 运行点 运行点 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行 运行