开源开放 | 清华知识工程实验室推出OmniEvent事件抽取开源工具包

2022 年 9 月 12 日 开放知识图谱

转载公众号 | THUKE

现实世界中每天都发生着海量的事件，如何自动化地处理无结构文本并从中抽取出结构化事件知识一直是自然语言处理领域的重要挑战性任务。清华大学知识工程实验室推出OmniEvent工具包，提供了多种中英文事件抽取算法的实现以及在常用数据集上的评测，旨在为事件抽取领域提供方便快捷的实现代码和统一公平的评测，推动事件抽取领域发展。

OmniEvent开源事件抽取工具包

近年来，越来越多的事件抽取算法出现，涉及分类、序列标注、阅读理解、序列到序列生成等多种常用范式。一方面，各种事件抽取算法实现各异，为算法的使用和复现造成了困难，领域缺乏统一易用的代码实现基础。另一方面，不同范式下的算法评测方式存在差异，不同工作对于常用数据集的处理方式也不完全一致，造成难以一致、公平地对比不同事件抽取算法。清华大学知识工程实验室发布了功能全面、实现统一、易于上手的事件抽取开源工具包OmniEvent，旨在让初学者能够快速入门事件抽取、调用常用的模型实现需求，让研究者和开发者能够快速构建、开发、评测自己的模型。OmniEvent具有以下特色：

功能全面，支持事件抽取、事件检测和事件论元抽取任务的中英文常用数据集，覆盖了分类、序列标注、阅读理解、序列到序列四种主流算法范式。
易用性，支持一键调用主流模型、一键处理数据。
统一性，为不同的算法和数据集提供统一的、公平的评测。
模块化，以模块化的方式实现了主流事件抽取算法。用户可以搭配不同的模块开发自己的模型。
大模型赋能。OmniEvent基于BMTrain实现了大模型的快速训练和推理。

关于更详细的用法说明，请扫描下方二维码或参考项目链接：https://github.com/THU-KEG/OmniEvent

上手教程：一键调用已有模型

OmniEvent提供了经过预训练的、支持中英双语的模型供用户一键调用。

进阶开发：基于OmniEvent开发自己的事件抽取模型

OmniEvent模块化的设计可以帮助用户在多个事件数据集上便捷地开发和评测自己的模型。

第一步：数据预处理

OmniEvent提供了统一易用的数据处理，用户可以将不同的数据集一键处理成统一的格式。

第二步：个性化配置

OmniEvent使用yaml配置文件来统一管理数据集、模型架构和训练参数的设定。用户可以根据自己的需求，个性化地修改和增加自己的配置。

第三步：初始化模型

OmniEvent提供便捷的接口，用户可以根据自己的配置进行模型初始化。

第四步：初始化数据集和评测指标

OmniEvent提供了不同范式下的数据预处理和评测指标供用户选择。

第五步：定义Trainer并训练

OmniEvent适配了Huggingface's Transformers的Trainer，用户可以便捷地开发各种训练策略。

第六步：统一评测

不同算法范式的评测方式存在一些微小差异，因此它们往往并不直接可比。OmniEvent将不同算法的预测结果转换对齐到统一的候选集合，进而提供一致的、公平的评测。对于MAVEN和LEVEN这种需要提交榜单进行评测的数据集，OmniEvent也提供了一键生成提交文件的功能。

竞赛支持

OmniEvent支持多项事件抽取竞赛，并且将持续纳入更多的竞赛支持。目前支持的赛事包括：

MAVEN事件检测挑战赛

中国法律智能技术评测CAIL 2022 事件检测赛道

百度千言事件抽取竞赛

用户可以使用OmniEvent快速地搭建和训练自己的模型，一键生成提交格式文件，在竞争激烈、奖金丰厚的竞赛中快人一步。

开发团队

OmniEvent开源事件抽取工具包由清华大学知识工程实验室李涓子老师领衔指导，与清华大学自然语言处理实验室刘知远老师团队、清华大学智能法治研究院申卫星老师团队合作完成。

开发团队主要成员：彭皓*、姚峰*、王晓智*、王子木、曾开胜（*表示共同贡献）

OpenKG

OpenKG（中文开放知识图谱）旨在推动以中文为核心的知识图谱数据的开放、互联及众包，并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文，进入 OpenKG 网站。

登录查看更多

相关内容

事件抽取

关注 56

事件抽取指的是从非结构化文本中抽取事件信息，并将其以结构化形式呈现出来的任务。例如从“毛泽东1893 年出生于湖南湘潭”这句话中抽取事件{类型：出生，人物：毛泽东，时间：1893 年，出生地：湖南湘潭}。事件抽取任务通常包含事件类型识别和事件元素填充两个子任务。

【CIKM2022教程】信息抽取：任务、数据和开源工具的实践教程，125页ppt

专知会员服务

35+阅读 · 2022年11月25日

【NAACL2022】信息提取前沿

专知会员服务

59+阅读 · 2022年7月11日

【实用书】深度学习遥感图像处理：开源软件使用，165页pdf

专知会员服务

113+阅读 · 2022年6月18日

重磅！市面上少有的介绍AI系统的书籍《机器学习系统：设计与实现》，正式开源

专知会员服务

95+阅读 · 2022年3月19日

基于预训练语言模型的文本生成研究综述

专知会员服务

82+阅读 · 2021年10月15日

面向自然语言处理的对抗攻防与鲁棒性分析综述

专知会员服务

32+阅读 · 2021年9月5日

【2020新书】如何写出简洁Python代码，321页pdf

专知会员服务

93+阅读 · 2020年12月26日

面向 AI 的数据管理技术综述

专知会员服务

47+阅读 · 2020年8月20日

大规模时间序列分析框架的研究与实现，计算机学报

专知会员服务

59+阅读 · 2020年7月13日

【新书】自然语言处理表示学习技术，349页pdf，清华大学

专知会员服务

174+阅读 · 2020年7月11日

开源开放 | OpenKG发布cnSchema重构版本

开放知识图谱

0+阅读 · 2022年7月29日

EasyNLP中文文图生成模型带你秒变艺术家

阿里技术

1+阅读 · 2022年7月28日

开源开放 | DeepKE发布新版本：支持低资源、长篇章、多任务的图谱抽取开源框架（浙江大学）

开放知识图谱

1+阅读 · 2022年3月3日

推荐系统领域13个开源工具总结

机器学习与推荐算法

1+阅读 · 2021年12月7日

达摩院开源中文社区首个表格预训练模型，取得多个基准SOTA

机器之心

1+阅读 · 2021年12月3日

OpenKG开源系列 | 轻量级知识图谱抽取开源工具OpenUE

开放知识图谱

8+阅读 · 2021年11月1日

一键部署分布式训练，微软“群策 MARO”上新集群管理助手

微软研究院AI头条

0+阅读 · 2021年5月14日

社区分享 | Spark 玩转 TensorFlow 2.0

TensorFlow

15+阅读 · 2020年3月18日

【专知评测】机器学习平台 MLflow 上手视频

专知

11+阅读 · 2018年6月9日

深度文本匹配开源工具（MatchZoo）

机器学习研究会

10+阅读 · 2017年12月5日

基于微博社区的知识图谱构建与分析

国家自然科学基金

27+阅读 · 2014年12月31日

面向科技监测的实体识别与关系抽取研究

国家自然科学基金

3+阅读 · 2013年12月31日

基于生物信息学和自然语言处理的水稻抗病基因挖掘

国家自然科学基金

0+阅读 · 2012年12月31日

中文领域本体学习及半自动构建方法研究

国家自然科学基金

3+阅读 · 2012年12月31日

精细化科研管理信息系统研究

国家自然科学基金

1+阅读 · 2012年12月31日

支持高层决策和按需服务的软件维护技术研究

国家自然科学基金

4+阅读 · 2012年12月31日

基于部件的联机手写藏文音节识别方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

混合策略的机器翻译方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

纳西-汉语双语语料库构建与翻译方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

中文医学文本中关联信息提取方法研究

国家自然科学基金

2+阅读 · 2009年12月31日

BrainGB: A Benchmark for Brain Network Analysis with Graph Neural Networks

Arxiv

0+阅读 · 2022年11月29日

Cache Me If You Can: Accuracy-Aware Inference Engine for Differentially Private Data Exploration

Arxiv

0+阅读 · 2022年11月28日

Discovering Dynamic Patterns from Spatiotemporal Data with Time-Varying Low-Rank Autoregression

Arxiv

0+阅读 · 2022年11月28日

LoNe Sampler: Graph node embeddings by coordinated local neighborhood sampling

Arxiv

0+阅读 · 2022年11月28日

Universal convex covering problems under translation and discrete rotations

Arxiv

0+阅读 · 2022年11月27日

Federated Graph-based Sampling with Arbitrary Client Availability

Arxiv

0+阅读 · 2022年11月25日

Online Regularized Learning Algorithm for Functional Data

Arxiv

0+阅读 · 2022年11月24日

Cross-Modal Object Tracking: Modality-Aware Representations and A Unified Benchmark

Arxiv

14+阅读 · 2021年11月11日

Improving Knowledge-aware Dialogue Generation via Knowledge Base Question Answering

Arxiv

16+阅读 · 2019年12月16日

Constructing Narrative Event Evolutionary Graph for Script Event Prediction

Arxiv

11+阅读 · 2018年5月16日

VIP会员