开源开放 | 中医文献问题生成数据集TCM-QG

2022 年 10 月 19 日 开放知识图谱

OpenKG地址:http://openkg.cn/dataset/tcm-qg

阿里云天池:https://tianchi.aliyun.com/dataset/dataDetail?dataId=86895

开放许可协议:CC BY-SA 4.0 (署名相似共享)

贡献者:阿里云(陈漠沙)


1、背景

疫情催化下,人工智能正在持续助力中医药传承创新加速发展,其中中医用药知识体系沉淀挖掘是一个基础工作。随着自然语言处理技术的不断发展,问题自动生成(Question Generation)作为一个重要的研究课题已经在很多实际应用场景中有落地,通过机器主动提问可以用来高效构建或者补充知识库,扩大数据集规模。问题生成技术已经应用到诸多实际应用场景中,如在医药领域,可以应用到自动问诊、辅助诊疗等场景。本数据集将问题生成和中医药领域文本结合起来,并依托于第六届中国健康信息处理会议(CHIP2020)举办了中医药文本问题生成学术评测任务。

2、数据集

2.1 数据来源

TCM-QC(Traditional Chinese Medicine - Question Generation Dataset)数据源来自中医药领域文本,包括【黄帝内经翻译版】、【名医百科中医篇】、【中成药用药卷】、【慢性病养生保健科普知识】四个主要来源,共标注了来源于5,000篇中医药文档的13,000对(问题、文档、答案)数据,每篇文档由人工标注产生1~4对(问题, 答案)对,训练集、验证集和测试集的数量分别为3,500,750和750。

2.2 标注规范

问题类型包括实体类和描述类两大类(是非类问题包含在描述类中),其中问题均由人工标注产生,答案是段落中的文本中的连续片段。标注示例如下:

2.3 数据集统计信息

数据集统计信息如下:


文档数量

文本片段数量

问题答案数量对

平均问题答案对/文本片段

训练集

3,500

5,881

18,478

3.14

验证集

750

1,399

4,373

3.12

测试集

750

1,644

5,096

3.09

表1: TCM-QC统计信息

问题/答案平均长度统计信息如下:


平均问题长度

平均答案长度

训练集

14.24

47.66

验证集

14.24

48.57

测试集

14.29

47.67

表2: TCM-QC统计信息

2.4 数据集难点

相比其它问题生成数据集,TCM-QG有以下三个难点:

(1)长文本表示问题。据统计,篇章的平均长度是358个字符,答案的平均长度是47个字符,相对较短的是问题的平均长度,是14个长度。文本长度过长,语义表征复杂,一段上下文对应多个问答数据,每个需要生成的问题只与所给数据里部分内容高度相关,如何定位到正确的与答案有关的上下文、捕捉上下文与答案的关系,是TCM-QC任务的主要难点。

(2)专业领域问题。中医文本区别于常见问答数据,存在许多专业领域词汇,如“气冲上逆”、“外感邪气”等,模型需要获取专业领域信息、正确理解答案含义从而提出问题。

(3)问题多样性问题。数据集中存在一个答案对应多个问题、同一种问题有不同问法的情况,如何融合不同输出结果以更接近正确答案成了提升评价指标的关键。

3、结语

中医是中华民族的瑰宝,本数据集将问题生成和中医药领域文本结合起来,设置了中医药文本的“问题生成”挑战任务,一方面可以将人工智能技术应用到中医领域发挥作用,另一方面也吸引更多的人工智能人才投入到中医药领域,让中医这个古老的领域重新焕发出更大的活力。

4、致谢

感谢阿里达摩院李晨亮博士对本任务设置的专业指导,感谢医学标注专家郎珍珍和标注人员辛勤细致的付出!




 

OpenKG


OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

登录查看更多
7

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
文档智能: 数据集、模型和应用
专知会员服务
61+阅读 · 2022年7月31日
视频文本预训练简述
专知会员服务
20+阅读 · 2022年7月24日
专知会员服务
122+阅读 · 2021年6月19日
专知会员服务
34+阅读 · 2021年6月8日
多模态预训练模型简述
专知会员服务
109+阅读 · 2021年4月27日
基于多来源文本的中文医学知识图谱的构建
专知会员服务
52+阅读 · 2020年8月21日
开源开放 | 中药说明书实体识别数据集TCM-NER
开放知识图谱
0+阅读 · 2022年10月12日
开源开放 | 面向家庭常见疾病的知识图谱(东南大学)
开放知识图谱
1+阅读 · 2022年7月15日
开源开放 | 计算机科学示意图问答数据集CSDQA(CCKS2021)
开源开放 | 高质量体育赛事摘要数据集SGSum(CCKS2021)
开放知识图谱
0+阅读 · 2021年9月10日
开源开放 | 多模态实体链接数据集MELBench(CCKS2021)
开放知识图谱
2+阅读 · 2021年8月13日
开源开放 | 糖尿病知识图谱DiaKG(CCKS2021)
开放知识图谱
3+阅读 · 2021年8月8日
论文浅尝 | 问题生成(QG)与答案生成(QA)的结合
开放知识图谱
16+阅读 · 2018年7月15日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年12月19日
Arxiv
13+阅读 · 2022年1月20日
Arxiv
14+阅读 · 2021年8月5日
Arxiv
10+阅读 · 2017年12月29日
VIP会员
相关VIP内容
文档智能: 数据集、模型和应用
专知会员服务
61+阅读 · 2022年7月31日
视频文本预训练简述
专知会员服务
20+阅读 · 2022年7月24日
专知会员服务
122+阅读 · 2021年6月19日
专知会员服务
34+阅读 · 2021年6月8日
多模态预训练模型简述
专知会员服务
109+阅读 · 2021年4月27日
基于多来源文本的中文医学知识图谱的构建
专知会员服务
52+阅读 · 2020年8月21日
相关资讯
开源开放 | 中药说明书实体识别数据集TCM-NER
开放知识图谱
0+阅读 · 2022年10月12日
开源开放 | 面向家庭常见疾病的知识图谱(东南大学)
开放知识图谱
1+阅读 · 2022年7月15日
开源开放 | 计算机科学示意图问答数据集CSDQA(CCKS2021)
开源开放 | 高质量体育赛事摘要数据集SGSum(CCKS2021)
开放知识图谱
0+阅读 · 2021年9月10日
开源开放 | 多模态实体链接数据集MELBench(CCKS2021)
开放知识图谱
2+阅读 · 2021年8月13日
开源开放 | 糖尿病知识图谱DiaKG(CCKS2021)
开放知识图谱
3+阅读 · 2021年8月8日
论文浅尝 | 问题生成(QG)与答案生成(QA)的结合
开放知识图谱
16+阅读 · 2018年7月15日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员