开源开放 | 清华知识工程实验室推出OmniEvent事件抽取开源工具包

2022 年 9 月 12 日 开放知识图谱

转载公众号 | THUKE



现实世界中每天都发生着海量的事件,如何自动化地处理无结构文本并从中抽取出结构化事件知识一直是自然语言处理领域的重要挑战性任务。清华大学知识工程实验室推出OmniEvent工具包,提供了多种中英文事件抽取算法的实现以及在常用数据集上的评测,旨在为事件抽取领域提供方便快捷的实现代码和统一公平的评测,推动事件抽取领域发展。

OmniEvent开源事件抽取工具包


近年来,越来越多的事件抽取算法出现,涉及分类、序列标注、阅读理解、序列到序列生成等多种常用范式。一方面,各种事件抽取算法实现各异,为算法的使用和复现造成了困难,领域缺乏统一易用的代码实现基础。另一方面,不同范式下的算法评测方式存在差异,不同工作对于常用数据集的处理方式也不完全一致,造成难以一致、公平地对比不同事件抽取算法。清华大学知识工程实验室发布了功能全面、实现统一、易于上手的事件抽取开源工具包OmniEvent,旨在让初学者能够快速入门事件抽取、调用常用的模型实现需求,让研究者和开发者能够快速构建、开发、评测自己的模型。OmniEvent具有以下特色:

  1. 功能全面,支持事件抽取、事件检测和事件论元抽取任务的中英文常用数据集,覆盖了分类、序列标注、阅读理解、序列到序列四种主流算法范式。

  2. 易用性,支持一键调用主流模型、一键处理数据。

  3. 统一性,为不同的算法和数据集提供统一的、公平的评测。

  4. 模块化,以模块化的方式实现了主流事件抽取算法。用户可以搭配不同的模块开发自己的模型。

  5. 大模型赋能。OmniEvent基于BMTrain实现了大模型的快速训练和推理。


关于更详细的用法说明,请扫描下方二维码或参考项目链接:https://github.com/THU-KEG/OmniEvent


上手教程:一键调用已有模型


OmniEvent提供了经过预训练的、支持中英双语的模型供用户一键调用。



进阶开发:基于OmniEvent开发自己的事件抽取模型

OmniEvent模块化的设计可以帮助用户在多个事件数据集上便捷地开发和评测自己的模型。


第一步:数据预处理






OmniEvent提供了统一易用的数据处理,用户可以将不同的数据集一键处理成统一的格式。




第二步:个性化配置


OmniEvent使用yaml配置文件来统一管理数据集、模型架构和训练参数的设定。用户可以根据自己的需求,个性化地修改和增加自己的配置。



   第三步:初始化模型
OmniEvent提供便捷的接口,用户可以根据自己的配置进行模型初始化。

   第四步:初始化数据集和评测指标

OmniEvent提供了不同范式下的数据预处理和评测指标供用户选择。

   第五步:定义Trainer并训练

OmniEvent适配了Huggingface's Transformers的Trainer,用户可以便捷地开发各种训练策略。

     第六步:统一评测

不同算法范式的评测方式存在一些微小差异,因此它们往往并不直接可比。OmniEvent将不同算法的预测结果转换对齐到统一的候选集合,进而提供一致的、公平的评测。对于MAVEN和LEVEN这种需要提交榜单进行评测的数据集,OmniEvent也提供了一键生成提交文件的功能。


竞赛支持


OmniEvent支持多项事件抽取竞赛,并且将持续纳入更多的竞赛支持。目前支持的赛事包括:

        MAVEN事件检测挑战赛

中国法律智能技术评测CAIL 2022 事件检测赛道

百度千言事件抽取竞赛

用户可以使用OmniEvent快速地搭建和训练自己的模型,一键生成提交格式文件,在竞争激烈、奖金丰厚的竞赛中快人一步。





开发团队


OmniEvent开源事件抽取工具包由清华大学知识工程实验室李涓子老师领衔指导,与清华大学自然语言处理实验室刘知远老师团队、清华大学智能法治研究院申卫星老师团队合作完成。

开发团队主要成员:彭皓*、姚峰*、王晓智*、王子木、曾开胜(*表示共同贡献)





 

OpenKG


OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

登录查看更多
1

相关内容

事件抽取指的是从非结构化文本中抽取事件信息,并将其以结构化形式呈现出来的任务。例如从“毛泽东1893 年出生于湖南湘潭”这句话中抽取事件{类型:出生,人物:毛泽东,时间:1893 年,出生地:湖南湘潭}。 事件抽取任务通常包含事件类型识别和事件元素填充两个子任务。
【NAACL2022】信息提取前沿
专知会员服务
58+阅读 · 2022年7月11日
专知会员服务
80+阅读 · 2021年10月15日
专知会员服务
31+阅读 · 2021年9月5日
专知会员服务
91+阅读 · 2020年12月26日
专知会员服务
44+阅读 · 2020年8月20日
大规模时间序列分析框架的研究与实现,计算机学报
专知会员服务
58+阅读 · 2020年7月13日
【新书】自然语言处理表示学习技术,349页pdf,清华大学
专知会员服务
173+阅读 · 2020年7月11日
开源开放 | OpenKG发布cnSchema重构版本
开放知识图谱
0+阅读 · 2022年7月29日
EasyNLP中文文图生成模型带你秒变艺术家
阿里技术
1+阅读 · 2022年7月28日
推荐系统领域13个开源工具总结
机器学习与推荐算法
1+阅读 · 2021年12月7日
OpenKG开源系列 | 轻量级知识图谱抽取开源工具OpenUE
开放知识图谱
8+阅读 · 2021年11月1日
一键部署分布式训练,微软“群策 MARO”上新集群管理助手
微软研究院AI头条
0+阅读 · 2021年5月14日
社区分享 | Spark 玩转 TensorFlow 2.0
TensorFlow
15+阅读 · 2020年3月18日
深度文本匹配开源工具(MatchZoo)
机器学习研究会
10+阅读 · 2017年12月5日
国家自然科学基金
26+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
VIP会员
相关VIP内容
【NAACL2022】信息提取前沿
专知会员服务
58+阅读 · 2022年7月11日
专知会员服务
80+阅读 · 2021年10月15日
专知会员服务
31+阅读 · 2021年9月5日
专知会员服务
91+阅读 · 2020年12月26日
专知会员服务
44+阅读 · 2020年8月20日
大规模时间序列分析框架的研究与实现,计算机学报
专知会员服务
58+阅读 · 2020年7月13日
【新书】自然语言处理表示学习技术,349页pdf,清华大学
专知会员服务
173+阅读 · 2020年7月11日
相关资讯
开源开放 | OpenKG发布cnSchema重构版本
开放知识图谱
0+阅读 · 2022年7月29日
EasyNLP中文文图生成模型带你秒变艺术家
阿里技术
1+阅读 · 2022年7月28日
推荐系统领域13个开源工具总结
机器学习与推荐算法
1+阅读 · 2021年12月7日
OpenKG开源系列 | 轻量级知识图谱抽取开源工具OpenUE
开放知识图谱
8+阅读 · 2021年11月1日
一键部署分布式训练,微软“群策 MARO”上新集群管理助手
微软研究院AI头条
0+阅读 · 2021年5月14日
社区分享 | Spark 玩转 TensorFlow 2.0
TensorFlow
15+阅读 · 2020年3月18日
深度文本匹配开源工具(MatchZoo)
机器学习研究会
10+阅读 · 2017年12月5日
相关基金
国家自然科学基金
26+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员