聚焦信息抽取前沿难题，CCKS-千言通用信息抽取竞赛报名启动

2022 年 5 月 2 日 开放知识图谱

转载公众号 | 百度NLP

信息抽取旨在将非结构化文本中的信息进行结构化，是自然语言处理的基础技术和重要研究领域，一直受到学术界和工业界广泛关注。传统的信息抽取任务与评测通常针对特定的文本领域和单一的抽取任务，难以评估相关技术与方法在通用场景和任务下的抽取性能。

为此，中国科学院软件研究所、百度公司与千言开源数据集项目(www.luge.ai)联合发起业界首个通用的信息抽取评测——“CCKS-千言通用信息抽取竞赛”。本赛事是千言多形态信息抽取的全新升级，不局限于传统的单任务信息抽取的评测范式，而是将多种不同的信息抽取任务用统一的通用框架进行描述，着重考察相关技术方法面对新的、未知的信息抽取任务与范式时的适应与迁移能力，从而满足当下信息抽取领域快速迭代、快速迁移的实际需求，更贴近实际业务应用。

竞赛于4月11日开启报名，并将在8月25日于2022年全国知识图谱与语义计算大会（CCKS-2022）召开评测研讨会并进行颁奖。百度将为参赛选手提供全面的技术资源、平台支持和丰厚奖池。

报名及竞赛详情链接：

https://aistudio.baidu.com/aistudio/competition/detail/161/0/introduction

任务形式

信息抽取任务旨在根据特定的抽取需求从非结构化文本中自动抽取结构化信息。其中，特定的抽取需求是指抽取任务中的抽取框架，主要由抽取类别（人物名称、企业上市事件）及目标结构（实体、关系、事件等）组成。

本评测的数据及抽取框架主要来自于百度通用信息抽取的应用案例。本次评测构建了多领域多场景下的多种抽取框架，包含医疗、法律、金融等领域和实体抽取、关系抽取、事件抽取等多种抽取任务，以期评测现有技术对通用领域下的信息抽取能力以及对新任务、场景的迁移能力。

任务示例如下：

示例输入1 事件抽取

输入文本（Text）：

2月8日上午北京冬奥会自由式滑雪女子大跳台决赛中中国选手谷爱凌以188.25分获得金牌！

抽取需求（Schema）：

事件定义：

参赛选手在体育竞赛中夺得第一名。

<冠军> 于 <夺冠时间> 在 <夺冠赛事>获得冠军。

示例输出1

信息结构（Structure）:

示例输入2 对话情感抽取

输入文本（Text）：

A: 我昨晚又看了肖申克的救赎，简直百看不厌

B: 是的，它是几代人的经典。

A: 不过，这部剧的主演，我觉得蒂姆罗宾斯的演技不算那么出众。

抽取需求（Schema）：

情感定义：

目标对象: 情感关系的对象

情感表达: 表达正/负向情感的短语或者词

示例输出2

信息结构（Structure）:

数据描述

最终测试分为已知抽取框架（Seen Schema）和未知抽取框架（Unseen Schema）两部分：

Seen Schema：举办方收集了大量开源数据集供参赛者构建模型，该赛道主要评测现有技术基于标记数据构建模型的能力，数据集列表及下载链接请见赛事报名页；
Unseen Schema：主要来自百度信息抽取的实际案例，举办方仅提供少量的验证数据，用于参赛者进行抽取需求确认和模型验证，该赛道主要评测现有技术面向新的抽取需求的迁移能力。

赛程安排

1. 报名时间：4月11日—7月25日

2. 验证数据及baseline发布：4月25日

3. 新抽取框架发布：6月20日

4. 测试数据发布：7月25日

5. 测试结果提交截止：7月31日

6. 评测论文提交：8月12日

7. CCKS会议(评测报告及颁奖)：8月25日—28日

评测奖励

千言-通用信息抽取比赛的最终获奖团队将获得：