【报名开启】CCKS 2022教科书示意图问答任务

2022 年 5 月 23 日 开放知识图谱

赛题背景

示意图是一种高度抽象的知识表达载体，常由矩形、圆形等几何形状和箭头、折线等逻辑符号组成，广泛被应用于教科书、百科、知识博客等教育场景。在上述场景中，学习者常通过视觉问答的形式来判断对知识点的掌握情况，即：给定学习者一张示意图，根据视觉信息来回答与该知识点相关的自然语言问题，我们将其定义为教科书示意图问答任务，任务样例如图1所示（实际评测中会提供标注信息）。该任务可能涉及视觉对象的检测与对齐、知识术语的理解以及知识表示的动态变化等复杂推理过程，良好的完成该任务是未来跨媒体智能、智慧教育等应用的重要基础，也有助于提升计算机对人类认知行为和学习习惯的理解。

图1 教科书示意图问答样例

该任务主要有两个挑战：一是示意图资源稀缺，标注代价高昂，具有天然的小样本场景，在不具备大型语料库的场景下完成该任务是一个难题；二是示意图表达抽象、特征稀疏，简单的几何形状蕴含有丰富、专业的语义信息，如何较好地提取并理解其视觉特征是一个难题。本次测评任务的示意图来源于计算机科学领域，希望选手能针对上述两个难点，深入理解示意图中的关键信息，构建模型实现准确的示意图问答表现。

比赛任务

比赛要求选手根据提供的训练集示意图及问答数据训练算法模型并对验证集中的示意图对应问题答案进行预测。比赛使用的问答数据来自计算机科学领域示意图问答数据集，采用正确率（Accuracy）评测模型性能。

组织机构

陕西省天地网技术重点实验室：实验室成立于2004年10月，依托计算机、自动化、机械电子等学科，重点开展面向天地网基础理论、关键技术及其应用系统的研究，包括远程教育、舆情分析、可信软件、自然语言处理、医疗与生物医学大数据等方向的研究。

联想（北京）有限公司是联想集团全资子公司，作为全球领先的智能设备及企业IT解决方案提供商以及国家高新技术企业，拥有授权专利 12883 项，其中国内发明专利7462项，国际专利1771项；拥有智慧教育解决产品市场占有率70%等优势。

比赛数据

Ø 数据来源：

本次测评任务的示意图问答数据来自Computer Science Diagrams (CSDia) ，是一个包含有丰富标注信息的计算机科学领域数据集。CSDQA是计算机科学领域的第一个示意图问答数据集，共包含1,294张示意图和超过3,400个问答对。其中，所有的示意图均来自于教育场景中的真实数据，包含两本英文教科书，五本中文教科书，若干博客和知识百科等来源，并经过自动化收集、领域专家选取与标注，可保证数据的准确性和多样性。问答数据集中的问题，包含判断题和四选一问题，数量比例大致为1:1；所有问题依据难度还可划分为简答（一步推理）问题和复杂（两步推理）问题，数量比例大致为4:1。

Ø 标注内容：

数据集中，每个问题对应一张示意图，为了便于选手处理数据，我们将问题及标注信息统一整理为Q.json文件，文件中问题格式样例如下：

|---question: How many contents are in the array?

|---type: MC

|---difficulty: easy

|---diagram_path: ./data/CSDia_train_val_test/train/D\10.png

|---cords:

||---0

| |---211

| |---233

| |---108

| |---44

|---answer

||---d: 13

||---c: 10

||---b: 5

||---a: 9

|---correct_answer: a

|---split: train

其中，‘question’为问题文本；‘type’为问题类型，包含TF（判断题）和MC（四选一问题）；‘difficulty’为问题难度，包含简单和复杂；‘diagram_path’为该问题对应的示意图相对路径；‘cords’中包含有若干对象的标注框坐标；‘answer’为该问题的候选答案；‘correct_answer’为该问题的正确答案，需要注意，仅在训练集中包含问题的正确答案标注；‘split’为该问题所属的划分集合。

Ø 训练集&验证集：

在训练数据发布阶段，我们会发布约2000条标注好的数据作为训练集。同时发布约600条不含标注答案的问题作为验证集，选手可以将自己生成的验证集答案提交，比赛系统会对答案进行评测，给出得分并进行排行。

在测试数据发布阶段，我们会发布验证集的标注结果（包括答案），同时发布约600条左右不含标注结果的问题，作为测试。选手将自己生成的测试集答案提交，比赛系统会对答案进行评测，给出得分并进行排行。

评测方法

提交文件：

本次比赛需要选手提交一个csv格式的文件，包括两列（‘id’和‘label ’），其中id列必须和测试集相吻合，顺序不限；label列为A到D的大写字母之一。

答案文件格式:

id,label

0,A

1,B

2,C

3,D

....

评价指标：

本任务的评价指标使用正确率(Accuracy)，最终排名以其值为基准。假设数据数量为n, 预测正确的数量为c,，相关计算公式如下：

$A c c=\frac{c}{n} * 100$

单位是%, 所以满分得分为100。

提交方式：

本次任务将采取刷榜的方式，分为两个阶段进行：

第一阶段：验证集发布后，参赛队伍提交对验证集（validation dataset）的预测文件后由系统自动评测打分。

第二阶段：测试集发布后，参赛队伍提交对测试集（test dataset）的预测文件后由系统自动评测打分。

获奖验证：

• 复赛结束后，比赛组织者将邀请所有在复赛阶段排名前列的选手提交完整的模型代码，代码中必须包含requirements.txt文件，注明所需要的Python依赖包，以及Python的版本。

• 同时需要包含一个readme.md文件，提供运行代码所需的命令和参数。比赛组委会会在独立环境里安装并验证所提交的代码进行审核。

以上文件需在任务提交截止日期前发送至邮箱wang97@stu.xjtu.edu.cn。邮件的标题为：“CCKS-DQA-参赛队名称”，例如“CCKS-DQA-张三队”。

代码及其文档需打包成一个文件（tar，zip，gzip，rar等均可），用code.xxx命名，要求提交所有的程序代码及相关的配置说明，程序应当可以运行且所得结果与提交结果相符。如果方法使用了额外资源，要求说明并提供资源文件或地址。

* 关于使用比赛规程的最终解释权归属大赛组委会。

奖励

总奖金1.5万元

一等奖（1名）：5000

二等奖（2名）：2500

三等奖（2名）：1000

创新技术奖（1名）：3000

时间安排

l 评测任务发布：4月11日

l 报名截止时间：7月25日（23:59 UTC）

l 初赛截止时间：7月25日（23:59 UTC）

初赛（验证集预测）提交与组队报名截止。

l 复赛截止时间：7月31日（23:59 UTC）

测试集阶段，所有参赛团队都可以下载测试集，并提交测试集的预测结果。测试集上的结果将决定本次比赛的排名。

报名地址

CCKS评测任务简介：http://sigkg.cn/ccks2022/?page_id=22

报名入口：https://www.biendata.xyz/competition/ccks2022dqa

点击阅读原文，进入报名页面

登录查看更多

相关内容

问答

关注 0

微信搜一搜中的智能问答技术

专知会员服务

39+阅读 · 2022年6月18日

常识知识的获取与推理，171页ppt

专知会员服务

63+阅读 · 2021年11月9日

最新《知识图谱:构建到应用》2020大综述论文，261页pdf

专知会员服务

292+阅读 · 2020年10月6日

2020年中国《知识图谱》行业研究报告，45页ppt

专知会员服务

240+阅读 · 2020年4月18日

【CCL 2019】ATT-第19期：预训练模型--自然语言处理的新范式（车万翔）

专知会员服务

41+阅读 · 2019年11月12日

【哈工大车万翔教授】自然语言处理NLPer的核心竞争力是什么？，19页ppt

专知会员服务

34+阅读 · 2019年11月5日

阅读理解中的推理和符号机制[吕正东]CCKS ATT 16-2019

专知会员服务

17+阅读 · 2019年10月25日

问答与对话-技术与系统之任务型对话系统【车万翔张伟男】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第13期

专知会员服务

63+阅读 · 2019年10月23日

问答与对话-理论与基础之开放语义解析【韩先培、陈波】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第13期

专知会员服务

42+阅读 · 2019年10月23日

医疗知识图谱构建与应用

专知会员服务

389+阅读 · 2019年9月25日

【报名开启】CCKS2022技术评测任务七“化学元素知识图谱构建及应用”

开放知识图谱

0+阅读 · 2022年5月3日

【报名开启】CCKS2022技术评测任务五“开放知识图谱问答”

开放知识图谱

1+阅读 · 2022年4月29日

CCKS 2022 面向数字商务的知识图谱比赛重磅上线，奖金等你来拿！

PaperWeekly

0+阅读 · 2022年4月21日

2022语言与智能技术竞赛再升级推出NLP四大前沿任务

夕小瑶的卖萌屋

0+阅读 · 2022年4月20日

评测任务征集 | 全国知识图谱与语义计算大会（CCKS 2022）

开放知识图谱

8+阅读 · 2022年3月16日

开源开放 | 计算机科学示意图问答数据集CSDQA（CCKS2021）

开放知识图谱

0+阅读 · 2021年9月30日

CCKS 2020竞赛三冠团队技术分享第二波：事件主体抽取赛题方案

AI科技评论

28+阅读 · 2020年11月20日

评测报名 | 全国知识图谱与语义计算大会(CCKS 2020)技术评测任务发布

开放知识图谱

144+阅读 · 2020年3月20日

报名 | 全国知识图谱与语义计算大会（CCKS 2019）评测任务发布

开放知识图谱

34+阅读 · 2019年3月19日

课程 |《知识图谱》第一期

开放知识图谱

22+阅读 · 2017年10月15日

面向甲骨学知识图谱的实体发现及语义关系挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向异构信息网络中实体归类的模糊聚类

国家自然科学基金

1+阅读 · 2015年12月31日

基于知识图谱的服务机器人任务自动生成方法的研究与实现

国家自然科学基金

3+阅读 · 2013年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

文本语言表达到概念关系的映射方法研究与资源建设

国家自然科学基金

1+阅读 · 2012年12月31日

情感信息抽取的资源建设及关键技术研究

国家自然科学基金

2+阅读 · 2012年12月31日

编码密码中的数学基础暑期班

国家自然科学基金

1+阅读 · 2012年6月30日

面向农业领域的维汉双语术语抽取的关键技术研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于在线百科和问答社区的中文文本蕴涵知识获取

国家自然科学基金

0+阅读 · 2011年12月31日

问答式信息检索中信息抽取技术研究

国家自然科学基金

3+阅读 · 2008年12月31日

Multi-Modal Knowledge Graph Construction and Application: A Survey

Arxiv

79+阅读 · 2022年2月11日

A Survey of Natural Language Generation

Arxiv

15+阅读 · 2021年12月22日

From Show to Tell: A Survey on Image Captioning

Arxiv

15+阅读 · 2021年7月14日

A Survey on Complex Knowledge Base Question Answering: Methods, Challenges and Solutions

Arxiv

21+阅读 · 2021年5月25日

Contrastive Triple Extraction with Generative Transformer

Arxiv

13+阅读 · 2021年2月4日

Reasoning in Dialog: Improving Response Generation by Context Reading Comprehension

Arxiv

12+阅读 · 2020年12月14日

Few-shot Natural Language Generation for Task-Oriented Dialog

Arxiv

30+阅读 · 2020年2月27日

Knowledge Representation Learning: A Quantitative Review

Arxiv

28+阅读 · 2018年12月28日

Image Captioning

Arxiv

11+阅读 · 2018年5月13日

Order-Free RNN with Visual Attention for Multi-Label Classification

Arxiv

16+阅读 · 2017年12月20日

VIP会员