OpenKG地址:http://openkg.cn/dataset/tcm-qg
阿里云天池:https://tianchi.aliyun.com/dataset/dataDetail?dataId=86895
开放许可协议:CC BY-SA 4.0 (署名相似共享)
贡献者:阿里云(陈漠沙)
1、背景
2、数据集
TCM-QC(Traditional Chinese Medicine - Question Generation Dataset)数据源来自中医药领域文本,包括【黄帝内经翻译版】、【名医百科中医篇】、【中成药用药卷】、【慢性病养生保健科普知识】四个主要来源,共标注了来源于5,000篇中医药文档的13,000对(问题、文档、答案)数据,每篇文档由人工标注产生1~4对(问题, 答案)对,训练集、验证集和测试集的数量分别为3,500,750和750。
问题类型包括实体类和描述类两大类(是非类问题包含在描述类中),其中问题均由人工标注产生,答案是段落中的文本中的连续片段。标注示例如下:
2.3 数据集统计信息
数据集统计信息如下:
文档数量 |
文本片段数量 |
问题答案数量对 |
平均问题答案对/文本片段 |
|
训练集 |
3,500 |
5,881 |
18,478 |
3.14 |
验证集 |
750 |
1,399 |
4,373 |
3.12 |
测试集 |
750 |
1,644 |
5,096 |
3.09 |
表1: TCM-QC统计信息
问题/答案平均长度统计信息如下:
平均问题长度 |
平均答案长度 |
|
训练集 |
14.24 |
47.66 |
验证集 |
14.24 |
48.57 |
测试集 |
14.29 |
47.67 |
表2: TCM-QC统计信息
2.4 数据集难点
相比其它问题生成数据集,TCM-QG有以下三个难点:
(1)长文本表示问题。据统计,篇章的平均长度是358个字符,答案的平均长度是47个字符,相对较短的是问题的平均长度,是14个长度。文本长度过长,语义表征复杂,一段上下文对应多个问答数据,每个需要生成的问题只与所给数据里部分内容高度相关,如何定位到正确的与答案有关的上下文、捕捉上下文与答案的关系,是TCM-QC任务的主要难点。
(2)专业领域问题。中医文本区别于常见问答数据,存在许多专业领域词汇,如“气冲上逆”、“外感邪气”等,模型需要获取专业领域信息、正确理解答案含义从而提出问题。
(3)问题多样性问题。数据集中存在一个答案对应多个问题、同一种问题有不同问法的情况,如何融合不同输出结果以更接近正确答案成了提升评价指标的关键。
3、结语
中医是中华民族的瑰宝,本数据集将问题生成和中医药领域文本结合起来,设置了中医药文本的“问题生成”挑战任务,一方面可以将人工智能技术应用到中医领域发挥作用,另一方面也吸引更多的人工智能人才投入到中医药领域,让中医这个古老的领域重新焕发出更大的活力。
4、致谢
感谢阿里达摩院李晨亮博士对本任务设置的专业指导,感谢医学标注专家郎珍珍和标注人员辛勤细致的付出!
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
点击阅读原文,进入 OpenKG 网站。