赛事最新动态:6月5日开放报名、开放训练数据,报名进行中,奖励丰厚!
任务组织方:北京航空航天大学 & 中航信移动科技有限公司
任务地址:
针对民航出行领域中信息动态更新频繁、用户出行问答需求旺盛及大量文本数据使用价值较低等问题,探索基于阅读理解技术实现从民航相关网页的文本数据中精准抽取出的问题和答案对。
一方面有助于更好地组织管理民航领域常用知识,为用户提供更好的问询服务;另一方面也为基于阅读理解的问答对生成方法在其他领域的实践应用提供相关思路,探索垂直领域内的问答对构建范式。
评价标准:
模型输出结果的TopN(N=1,3,5)包含正确篇章的准确率。
TopN的答案中包含正确篇章即可算该问句篇章答案检索正确。
评价标准:
模型输出结果的TopN(N=1,3,5)包含正确段落的准确率TopN的答案中包含正确段落即可算该问句对应段落抽取正确。
评价标准:
单个完整答案分数:精确率=预测答案与正确答案公共长度/预测段落长度 召回率= 预测答案与正确答案公共长度/标注段落长度 F1=2精确率召回率/(精确率+召回率)。
多答案分数:对于部分问句,会有多个完整的答案,每个完整答案由多个答案片段组成。这种情况下每个完整答案单独计算精确率、召回率以及F1,然后取所有答案的F1值作为单个问句的答案分数。总的得分等于所有问句的F1的平均值。
本次数据主要来源于航旅纵横内部问答社区的样本,原始数据包含问题以及可回答该问题的文本,其中的评测答案均为人工标注结果。
为保障数据标注质量,标注过程中由算法研发人员与产品设计人员针对业务特性与算法需求设计数据标注方法,然后对参与数据标注的算法工程师、产品设计人员和相关硕博开展培训,后由该标注团队进行标注测试。
在此过程中,任务组织者对标注结果进行打分,及时调整标注标准并对标注人员重新培训之后开展标注标注校准,同时任务组织者抽烟每位标注人员的100条标注结果进行质量检查,对标注中问题进行及时校正,对于标注质量较低数据进行重新标注。
下面介绍数据具体内容:
此次数据中包含(问题,相关段落,段落中答案)训练数据信息。
本次数据共计5042条数据,其中80%数据(4033条数据)作为比赛数据发布(3529train+504valid),20%(1009条数据)作为比赛测试数据(不发布)。
本次比赛每个任务独立进行排名,并根据排名颁发奖项。此外设置三个子任务奖励:
同时将由中国中文信息学会为本次评测获奖队伍提供荣誉证书。
比赛交流QQ群:
后台回复关键词【入群】
加入卖萌屋NLP、CV、搜广推与求职讨论群
后台回复关键词【顶会】
获取ACL、CIKM等各大顶会论文集!