示意图是一种高度抽象的知识表达载体,常由矩形、圆形等几何形状和箭头、折线等逻辑符号组成,广泛被应用于教科书、百科、知识博客等教育场景。在上述场景中,学习者常通过视觉问答的形式来判断对知识点的掌握情况,即:给定学习者一张示意图,根据视觉信息来回答与该知识点相关的自然语言问题,我们将其定义为教科书示意图问答任务,任务样例如图1所示(实际评测中会提供标注信息)。该任务可能涉及视觉对象的检测与对齐、知识术语的理解以及知识表示的动态变化等复杂推理过程,良好的完成该任务是未来跨媒体智能、智慧教育等应用的重要基础,也有助于提升计算机对人类认知行为和学习习惯的理解。
图1 教科书示意图问答样例
该任务主要有两个挑战:一是示意图资源稀缺,标注代价高昂,具有天然的小样本场景,在不具备大型语料库的场景下完成该任务是一个难题;二是示意图表达抽象、特征稀疏,简单的几何形状蕴含有丰富、专业的语义信息,如何较好地提取并理解其视觉特征是一个难题。本次测评任务的示意图来源于计算机科学领域,希望选手能针对上述两个难点,深入理解示意图中的关键信息,构建模型实现准确的示意图问答表现。
比赛要求选手根据提供的训练集示意图及问答数据训练算法模型并对验证集中的示意图对应问题答案进行预测。比赛使用的问答数据来自计算机科学领域示意图问答数据集,采用正确率(Accuracy)评测模型性能。
陕西省天地网技术重点实验室:实验室成立于2004年10月,依托计算机、自动化、机械电子等学科,重点开展面向天地网基础理论、关键技术及其应用系统的研究,包括远程教育、舆情分析、可信软件、自然语言处理、医疗与生物医学大数据等方向的研究。
联想(北京)有限公司是联想集团全资子公司,作为全球领先的智能设备及企业IT解决方案提供商以及国家高新技术企业,拥有授权专利 12883 项,其中国内发明专利7462项,国际专利1771项;拥有智慧教育解决产品市场占有率70%等优势。
Ø 数据来源:
本次测评任务的示意图问答数据来自Computer Science Diagrams (CSDia) ,是一个包含有丰富标注信息的计算机科学领域数据集。CSDQA是计算机科学领域的第一个示意图问答数据集,共包含1,294张示意图和超过3,400个问答对。其中,所有的示意图均来自于教育场景中的真实数据,包含两本英文教科书,五本中文教科书,若干博客和知识百科等来源,并经过自动化收集、领域专家选取与标注,可保证数据的准确性和多样性。问答数据集中的问题,包含判断题和四选一问题,数量比例大致为1:1;所有问题依据难度还可划分为简答(一步推理)问题和复杂(两步推理)问题,数量比例大致为4:1。
Ø 标注内容:
数据集中,每个问题对应一张示意图,为了便于选手处理数据,我们将问题及标注信息统一整理为Q.json文件,文件中问题格式样例如下:
1
|---question: How many contents are in the array?
|---type: MC
|---difficulty: easy
|---diagram_path: ./data/CSDia_train_val_test/train/D\10.png
|---cords:
||---0
| |---211
| |---233
| |---108
| |---44
|---answer
||---d: 13
||---c: 10
||---b: 5
||---a: 9
|---correct_answer: a
|---split: train
其中,‘question’为问题文本;‘type’为问题类型,包含TF(判断题)和MC(四选一问题);‘difficulty’为问题难度,包含简单和复杂;‘diagram_path’为该问题对应的示意图相对路径;‘cords’中包含有若干对象的标注框坐标;‘answer’为该问题的候选答案;‘correct_answer’为该问题的正确答案,需要注意,仅在训练集中包含问题的正确答案标注;‘split’为该问题所属的划分集合。
Ø 训练集&验证集:
在训练数据发布阶段,我们会发布约2000条标注好的数据作为训练集。同时发布约600条不含标注答案的问题作为验证集,选手可以将自己生成的验证集答案提交,比赛系统会对答案进行评测,给出得分并进行排行。
在测试数据发布阶段,我们会发布验证集的标注结果(包括答案),同时发布约600条左右不含标注结果的问题,作为测试。选手将自己生成的测试集答案提交,比赛系统会对答案进行评测,给出得分并进行排行。
提交文件:
本次比赛需要选手提交一个csv格式的文件,包括两列(‘id’和‘label ’),其中id列必须和测试集相吻合,顺序不限;label列为A到D的大写字母之一。
答案文件格式:
id,label
0,A
1,B
2,C
3,D
....
评价指标:
本任务的评价指标使用正确率(Accuracy),最终排名以其值为基准。假设数据数量为n, 预测正确的数量为c,,相关计算公式如下:
单位是%, 所以满分得分为100。
提交方式:
本次任务将采取刷榜的方式,分为两个阶段进行:
第一阶段:验证集发布后,参赛队伍提交对验证集(validation dataset)的预测文件后由系统自动评测打分。
第二阶段:测试集发布后,参赛队伍提交对测试集(test dataset)的预测文件后由系统自动评测打分。
获奖验证:
• 复赛结束后,比赛组织者将邀请所有在复赛阶段排名前列的选手提交完整的模型代码,代码中必须包含requirements.txt文件,注明所需要的Python依赖包,以及Python的版本。
• 同时需要包含一个readme.md文件,提供运行代码所需的命令和参数。比赛组委会会在独立环境里安装并验证所提交的代码进行审核。
以上文件需在任务提交截止日期前发送至邮箱wang97@stu.xjtu.edu.cn。邮件的标题为:“CCKS-DQA-参赛队名称”,例如“CCKS-DQA-张三队”。
代码及其文档需打包成一个文件(tar,zip,gzip,rar等均可),用code.xxx命名,要求提交所有的程序代码及相关的配置说明,程序应当可以运行且所得结果与提交结果相符。如果方法使用了额外资源,要求说明并提供资源文件或地址。
总奖金1.5万元
一等奖(1名):5000
二等奖(2名):2500
三等奖(2名):1000
创新技术奖(1名):3000
l 评测任务发布:4月11日
l 报名截止时间:7月25日(23:59 UTC)
l 初赛截止时间:7月25日(23:59 UTC)
初赛(验证集预测)提交与组队报名截止。
l 复赛截止时间:7月31日(23:59 UTC)
测试集阶段,所有参赛团队都可以下载测试集,并提交测试集的预测结果。测试集上的结果将决定本次比赛的排名。
CCKS评测任务简介:http://sigkg.cn/ccks2022/?page_id=22
报名入口:https://www.biendata.xyz/competition/ccks2022dqa
点击阅读原文,进入报名页面