NLPCC2020 开放任务评测发布,涵盖预训练、情感分析、信息抽取

2020 年 3 月 15 日 AI科技评论


自然语言处理与中文计算会议(NLPCC)是由中国计算机学会(CCF)主办的CCF中文信息技术专业委员会年度学术会议。NLPCC专注于自然语言处理及中文计算领域的学术和应用创新,致力于推动该领域学术界和工业界研究、创新与应用的发展,成为覆盖全国、具有国际影响力的学术与创新交流平台。NLPCC自2012年于北京开始举办,至今已在重庆、深圳、敦煌等城市成功举办8届。 NLPCC-2020将于2020年10月14-18日在河南郑州举办。

NLPCC2020将沿袭NLPCC大会传统,举办若干自然语言处理任务的开放评测,共同推动相关任务的研究和发展。今年的评测任务既涵盖了经典的自然语言处理任务,也包括了时下颇受关注的前沿任务,具体包括:中文轻量级预训练语言模型能力评测、多方面多类别情感分析评测和自动信息抽取评测等三个评测任务。

会议诚挚地邀请来自学术界和工业界的各位同仁参与本次评测。参与者可以自行组队报名参与NLPCC2020的评测任务。每个参与评测的团队可以参加一个或多个任务,所有团队的每个成员都可以参加NLPCC会议并分享所使用技术和结果。我们欢迎参与评测的团队将所使用的技术和结果以论文的形式向NLPCC大会提交。其中,被接受的论文将出现在Springer LNCS发布的大会论文集中。另外,获得每个任务前三名的团队将获得由NLPCC组委会和CCF中国信息技术专业委员会共同颁发的证书。

一、  任务概览


NLPCC2020共举办三个任务的开放评测,包括:中文轻量级预训练语言模型能力评测、多方面多类别情感分析评测和自动信息抽取评测等三个评测任务。下面将逐一对每个任务进行概要介绍,详细的任务说明参见评测指导手册。

任务一:中文轻量级预训练语言模型能力评测 (Light pre-training Chinese Language model for NLP task)


这个任务的目标是训练一个和正常大小的语言模型效果相似的轻量级的语言模型。每个提交上来的模型都会在多个不同的下游NLP任务上评估性能。我们将会综合考虑模型参数数量,模型准确率以及模型推理时间,这些将一起作为模型的评估标准。

为了满足很多参赛者对中文语料缺乏的情况,我们提供了一个大型中文语料库作为这个任务的补充资源。这些语料将会在之后公布给大家。

任务组织者:CLUE评测组
联系方式: cluebenchmark@163.com


任务二:多方面多类别情感分析 (Multi-Aspect-based Multi-Sentiment Analysis)


在现有的方面级别情感分析(ABSA)数据集中,大多数句子只包含一个方面或者多个具有相同情感极性的方面,这样就使得方面级别情感分析任务可能退化成句子级别情感分析。在NLPCC 2020中,我们提出了一个“多方面多情感”数据集(MAMS),其中每个句子包含两个及以上的方面,并且表达了不同的情感极性。本评测包含两个子任务:(1)aspect-term 情感分析(ATSA),其目标是判别句子中给定的aspect-term所表达的情感极性;(2)aspect-category情感分析(ACSA),其目标是判别预先定义好的aspect-category所包含的情感极性。

任务组织者:中国科学院深圳先进技术研究院 & 哈尔滨工业大学(深圳)
联系方式:杨敏 ( min.yang@siat.ac.cn )
徐睿峰 ( xuruifeng@hit.edu.cn )
 

任务三:自动信息抽取 (Auto Information Extraction)


实体抽取是语言智能的核心基础任务之一,非常多的下游任务都有信息结构化的需求. 实体抽取领域的绝大多数研究都是基于数据充足的假设下研究算法来准确的提取出目标类别实体. 然而,实体信息的概念是有层级的,而且难以穷举,这就导致没有提供通用标注数据的可能。只有少量共需的实体类别可以通过通用的数据来建立模型,其余的实体类型只能使用者按需标注。

本次评测任务意在考虑噪音标注以及不全标注信息的情况下来构造信息抽取系统。当给定实体类别,实体的一个列表,还有大量未标注语料时,我们如何设计改进算法来构建一个信息抽取系统。这个假设是非常符合工业界实际需求的,抽取的目标繁杂,而只有相关的部分实体列表和待抽取的语料,如何投入很少的人力来构建系统是一个非常以挑战且有意义的研究方向。

任务组织者:追一科技
联系方式:杨雪峰 ( ryan@wezhuiyi.com )


二、  注册报名方式


任务一 中文轻量级预训练语言模型能力评测:

1)访问网址 www.CLUEbenchmark.com ,点击网页右上角的【注册】

2)在导航栏中选择【NLPCC测评】,然后选择【比赛注册】

任务二 多方面多类别情感分析

下载任务二的注册表,填写后以邮件的形式发送至 lei.chen@siat.ac.cn 。请在邮件标题注明报名参与NLPCC2020任务二。

任务三 自动信息抽取

下载任务三的注册表,填写后以邮件的形式发送至 ryan@wezhuiyi.com 。请在邮件标题注明报名参与NLPCC2020任务三。


三、  重要时间节点


2020/03/10:发布开放评测任务;
2020/03/10:开放注册报名;
2020/03/25:发布评测指导手册和训练数据;
2020/05/01:注册报名截止日期;
2020/05/15:公布测试数据;
2020/05/20:参赛团队提交测试结果截止日期;
2020/05/30:公布评测结果,征集系统报告和会议论文;
2020/06/30:会议论文提交截止日期(仅限开放评测论文);
2020/07/30:告知会议论文评审结果(接收/拒绝);
2020/08/10:会议论文camera-ready版本提交截止日期;


四、  开放评测组委会名单


曹云波,腾讯
李俊毅,CLUE评测组
李明磊,华为云
李寿山,苏州大学
徐亮, CLUE评测组
徐睿峰,哈尔滨工业大学(深圳)
杨敏,中国科学院深圳先进技术研究院
杨雪峰, 追一科技
 
 
了解评测详情和关注动态,请访问   http://tcci.ccf.org.cn/conference/2020/cfpt.php

或点击下方阅读原文👇
登录查看更多
24

相关内容

CCF自然语言处理与中文计算国际会议(NLPCC)是中国计算机联合会中文信息技术委员会(CCF-TCCI)的年会。NLPCC是一个在自然语言处理(NLP)和中文计算(CC)领域领先的国际会议。它是学术界、工业界和政府的研究人员和实践者分享他们的想法、研究成果和经验,并促进他们在该领域的研究和技术创新的主要论坛。官网链接:http://tcci.ccf.org.cn/conference/2019/
最新《多任务学习》综述,39页pdf
专知会员服务
263+阅读 · 2020年7月10日
【清华大学】低资源语言:回顾综述和未来的挑战,14页pdf
【北航】面向自然语言处理的预训练技术研究综述
专知会员服务
112+阅读 · 2020年4月23日
专知会员服务
103+阅读 · 2020年3月12日
评测 | 2020 年全国知识图谱与语义计算大会评测任务征集
ChineseGLUE:为中文NLP模型定制的自然语言理解基准
哈工大讯飞联合实验室发布中文XLNet预训练模型
哈工大SCIR
13+阅读 · 2019年8月20日
Arxiv
4+阅读 · 2019年9月5日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
12+阅读 · 2019年2月28日
Deep Learning for Generic Object Detection: A Survey
Arxiv
13+阅读 · 2018年9月6日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
3+阅读 · 2018年3月5日
VIP会员
相关VIP内容
最新《多任务学习》综述,39页pdf
专知会员服务
263+阅读 · 2020年7月10日
【清华大学】低资源语言:回顾综述和未来的挑战,14页pdf
【北航】面向自然语言处理的预训练技术研究综述
专知会员服务
112+阅读 · 2020年4月23日
专知会员服务
103+阅读 · 2020年3月12日
Top
微信扫码咨询专知VIP会员