开源开放 | 中医文献问题生成数据集TCM-QG

会员服务 ·

开源开放 | 中医文献问题生成数据集TCM-QG

2022 年 10 月 19 日 开放知识图谱

OpenKG地址：http://openkg.cn/dataset/tcm-qg

阿里云天池：https://tianchi.aliyun.com/dataset/dataDetail?dataId=86895

开放许可协议：CC BY-SA 4.0 （署名相似共享）

贡献者：阿里云（陈漠沙）

1、背景

疫情催化下，人工智能正在持续助力中医药传承创新加速发展，其中中医用药知识体系沉淀挖掘是一个基础工作。随着自然语言处理技术的不断发展，问题自动生成(Question Generation)作为一个重要的研究课题已经在很多实际应用场景中有落地，通过机器主动提问可以用来高效构建或者补充知识库，扩大数据集规模。问题生成技术已经应用到诸多实际应用场景中，如在医药领域，可以应用到自动问诊、辅助诊疗等场景。本数据集将问题生成和中医药领域文本结合起来，并依托于第六届中国健康信息处理会议(CHIP2020)举办了“中医药文本问题生成”学术评测任务。

2、数据集

2.1 数据来源

TCM-QC（Traditional Chinese Medicine - Question Generation Dataset）数据源来自中医药领域文本，包括【黄帝内经翻译版】、【名医百科中医篇】、【中成药用药卷】、【慢性病养生保健科普知识】四个主要来源，共标注了来源于5,000篇中医药文档的13,000对（问题、文档、答案）数据，每篇文档由人工标注产生1～4对(问题, 答案)对，训练集、验证集和测试集的数量分别为3,500，750和750。

2.2 标注规范

问题类型包括实体类和描述类两大类（是非类问题包含在描述类中），其中问题均由人工标注产生，答案是段落中的文本中的连续片段。标注示例如下：

2.3 数据集统计信息

数据集统计信息如下：

	文档数量	文本片段数量	问题答案数量对	平均问题答案对/文本片段
训练集	3,500	5,881	18,478	3.14
验证集	750	1,399	4,373	3.12
测试集	750	1,644	5,096	3.09

表1: TCM-QC统计信息

问题/答案平均长度统计信息如下：

	平均问题长度	平均答案长度
训练集	14.24	47.66
验证集	14.24	48.57
测试集	14.29	47.67

表2: TCM-QC统计信息

2.4 数据集难点

相比其它问题生成数据集，TCM-QG有以下三个难点：

（1）长文本表示问题。据统计，篇章的平均长度是358个字符，答案的平均长度是47个字符，相对较短的是问题的平均长度，是14个长度。文本长度过长，语义表征复杂，一段上下文对应多个问答数据，每个需要生成的问题只与所给数据里部分内容高度相关，如何定位到正确的与答案有关的上下文、捕捉上下文与答案的关系，是TCM-QC任务的主要难点。

（2）专业领域问题。中医文本区别于常见问答数据，存在许多专业领域词汇，如“气冲上逆”、“外感邪气”等，模型需要获取专业领域信息、正确理解答案含义从而提出问题。

（3）问题多样性问题。数据集中存在一个答案对应多个问题、同一种问题有不同问法的情况，如何融合不同输出结果以更接近正确答案成了提升评价指标的关键。

3、结语

中医是中华民族的瑰宝，本数据集将问题生成和中医药领域文本结合起来，设置了中医药文本的“问题生成”挑战任务，一方面可以将人工智能技术应用到中医领域发挥作用，另一方面也吸引更多的人工智能人才投入到中医药领域，让中医这个古老的领域重新焕发出更大的活力。

4、致谢

感谢阿里达摩院李晨亮博士对本任务设置的专业指导，感谢医学标注专家郎珍珍和标注人员辛勤细致的付出！

OpenKG

OpenKG（中文开放知识图谱）旨在推动以中文为核心的知识图谱数据的开放、互联及众包，并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文，进入 OpenKG 网站。

登录查看更多

相关内容

数据集

关注 88

数据集，又称为资料集、数据集合或资料集合，是一种由数据所组成的集合。
Data set（或dataset）是一个数据的集合，通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量，如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数，该数据集的数据可能包括一个或多个成员。

【CIKM2022教程】信息抽取：任务、数据和开源工具的实践教程，125页ppt

专知会员服务

35+阅读 · 2022年11月25日

文档智能: 数据集、模型和应用

专知会员服务

63+阅读 · 2022年7月31日

视频文本预训练简述

专知会员服务

22+阅读 · 2022年7月24日

深度学习与应用框架

专知会员服务

125+阅读 · 2021年6月19日