CCL2022 航旅纵横杯-面向领域问答的知识抽取评测

2022 年 6 月 30 日 夕小瑶的卖萌屋

赛事最新动态:6月5日开放报名、开放训练数据,报名进行中,奖励丰厚!

任务介绍

任务组织方:北京航空航天大学 & 中航信移动科技有限公司

任务地址:

  • Github地址:
    https://github.com/BDBC-KG-NLP/CCL2022-DQAB
  • 比赛报名地址:
    https://aistudio.baidu.com/aistudio/competition/detail/313

针对民航出行领域中信息动态更新频繁、用户出行问答需求旺盛及大量文本数据使用价值较低等问题,探索基于阅读理解技术实现从民航相关网页的文本数据中精准抽取出的问题和答案对。

一方面有助于更好地组织管理民航领域常用知识,为用户提供更好的问询服务;另一方面也为基于阅读理解的问答对生成方法在其他领域的实践应用提供相关思路,探索垂直领域内的问答对构建范式。

子任务及评价标准

子任务一:篇章级答案检索

评价标准:
模型输出结果的TopN(N=1,3,5)包含正确篇章的准确率。

TopN的答案中包含正确篇章即可算该问句篇章答案检索正确。

子任务二:段落级答案抽取

评价标准:
模型输出结果的TopN(N=1,3,5)包含正确段落的准确率TopN的答案中包含正确段落即可算该问句对应段落抽取正确。

子任务三:细粒度文本答案抽取

评价标准:
单个完整答案分数:精确率=预测答案与正确答案公共长度/预测段落长度 召回率= 预测答案与正确答案公共长度/标注段落长度 F1=2精确率召回率/(精确率+召回率)。

多答案分数:对于部分问句,会有多个完整的答案,每个完整答案由多个答案片段组成。这种情况下每个完整答案单独计算精确率、召回率以及F1,然后取所有答案的F1值作为单个问句的答案分数。总的得分等于所有问句的F1的平均值。

评测数据

本次数据主要来源于航旅纵横内部问答社区的样本,原始数据包含问题以及可回答该问题的文本,其中的评测答案均为人工标注结果。

为保障数据标注质量,标注过程中由算法研发人员与产品设计人员针对业务特性与算法需求设计数据标注方法,然后对参与数据标注的算法工程师、产品设计人员和相关硕博开展培训,后由该标注团队进行标注测试。

在此过程中,任务组织者对标注结果进行打分,及时调整标注标准并对标注人员重新培训之后开展标注标注校准,同时任务组织者抽烟每位标注人员的100条标注结果进行质量检查,对标注中问题进行及时校正,对于标注质量较低数据进行重新标注。

下面介绍数据具体内容:

此次数据中包含(问题,相关段落,段落中答案)训练数据信息。

本次数据共计5042条数据,其中80%数据(4033条数据)作为比赛数据发布(3529train+504valid),20%(1009条数据)作为比赛测试数据(不发布)。

奖项设置

本次比赛每个任务独立进行排名,并根据排名颁发奖项。此外设置三个子任务奖励:

1.子任务一:篇章级答案检索

  • 第一名:5000元
  • 第二名:3000元
  • 第三名:2000元

2.子任务二:段落级答案抽取

  • 第一名:10000元
  • 第二名:5000元
  • 第三名:3000元

3.子任务三:细粒度段落级答案抽取

  • 第一名:20000元
  • 第二名:7000元
  • 第三名:5000元

同时将由中国中文信息学会为本次评测获奖队伍提供荣誉证书。

赛程安排

比赛交流QQ群:

后台回复关键词【入群

加入卖萌屋NLP、CV、搜广推与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

登录查看更多
1

相关内容

基于强化学习的知识图谱综述
专知会员服务
195+阅读 · 2022年8月20日
微信搜一搜中的智能问答技术
专知会员服务
36+阅读 · 2022年6月18日
专知会员服务
80+阅读 · 2021年10月15日
面向数据可视化的自然语言接口: 综述论文
专知会员服务
19+阅读 · 2021年9月12日
专知会员服务
89+阅读 · 2021年6月13日
专知会员服务
55+阅读 · 2021年4月20日
专知会员服务
31+阅读 · 2021年3月17日
【哈工大】基于抽取的高考作文生成
专知会员服务
36+阅读 · 2020年3月10日
论文浅尝 | emrKBQA: 一个面向临床医疗问答的KBQA数据集
开放知识图谱
1+阅读 · 2021年7月11日
论文浅尝 | XQA:一个跨语言开放域问答数据集
开放知识图谱
25+阅读 · 2019年9月11日
SMP2018中文人机对话技术评测
哈工大SCIR
12+阅读 · 2019年3月6日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
11+阅读 · 2019年6月19日
Arxiv
14+阅读 · 2018年5月15日
VIP会员
相关VIP内容
基于强化学习的知识图谱综述
专知会员服务
195+阅读 · 2022年8月20日
微信搜一搜中的智能问答技术
专知会员服务
36+阅读 · 2022年6月18日
专知会员服务
80+阅读 · 2021年10月15日
面向数据可视化的自然语言接口: 综述论文
专知会员服务
19+阅读 · 2021年9月12日
专知会员服务
89+阅读 · 2021年6月13日
专知会员服务
55+阅读 · 2021年4月20日
专知会员服务
31+阅读 · 2021年3月17日
【哈工大】基于抽取的高考作文生成
专知会员服务
36+阅读 · 2020年3月10日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员