OpenKG地址:http://openkg.cn/dataset/tcm-ner
阿里云天池:https://tianchi.aliyun.com/dataset/dataDetail?dataId=86819
开放许可协议:CC BY-SA 4.0 (署名相似共享)
贡献者:阿里云(陈漠沙)
1、背景
2、数据集
TCM-NER(Traditional Chinese Medicine - Named Entity Recgonization Dataset)数据源来自中药药品说明书,TCM-NER包含1,997篇文档,训练集、验证集和测试集分别为1,000, 500和497个,共标注实体59,803个。
2.2 标注规范
本数据集由中医专家定义了13类实体:
·药物成分(DRUG_INGREDIENT): 中药组成成分,指中药复方中所含有的所有与该复方临床应用目的密切相关的药理活性成分。例子:当归、人参、枸杞
·疾病(DISEASE): 疾病名称,指人体在一定原因的损害性作用下,因自稳调节紊乱而发生的异常生命活动过程,是特定的异常病理情形,而且会影响生物体的部分或是所有器官。通常解释为“身体病况”(medical condition),而且伴随着特定的症状及医学征象。例子:高血压、心绞痛、糖尿病
·症状(SYMPTOM): 指疾病过程中机体内的一系列机能、代谢和形态结构异常变化所引起的病人主观上的异常感觉或某些客观病态改变。例子:头晕、心悸、小腹胀痛
·证候(SYNDROME): 中医学专用术语,概括为一系列有相互关联的症状总称,即通过望、闻、问、切四诊所获知的疾病过程中表现在整体层次上的机体反应状态及其运动、变化,简称证或者候,是指不同症状和体征的综合表现,单一的症状和体征无法表现一个完整的证候。 例子:血瘀、气滞、气血不足、气血两虚
·疾病分组(DISEASE_GROUP): 疾病涉及有人体组织部位的疾病名称的统称概念,非某项具体医学疾病。例子:肾病、肝病、肺病
·食物(FOOD):指能够满足机体正常生理和生化能量需求,并能延续正常寿命的物质。对人体而言,能够满足人的正常生活活动需求并利于寿命延长的物质称之为食物。例子:苹果、茶、木耳、萝卜
·食物分组(FOOD_GROUP): 中医中饮食养生中,将食物分为寒热温凉四性,同时中医药禁忌中对于具有某类共同属性食物的统称,记为食物分组。例子:油腻食物、辛辣食物、凉性食物
·人群(PERSON_GROUP): 中医药的适用及禁忌范围内相关特定人群。例子:孕妇、经期妇女、儿童、青春期少女
·药品分组(DRUG_GROUP): 具有某一类共同属性的药品类统称概念,非某项具体药品名。例子:止咳药、退烧药
·药物剂型(DRUG_DOSAGE): 药物在供给临床使用前,均必须制成适合于医疗和预防应用的形式,成为药物剂型。例子:浓缩丸、水蜜丸、糖衣片
·药物性味(DRUG_TASTE): 药品的性质和气味。例子:味甘、酸涩、气凉
·中药功效(DRUG_EFFICACY): 药品的主治功能和效果的统称,例子:滋阴补肾、去瘀生新、活血化瘀
2.3 标注数据示例
本数据集采用常规的offset下标标记法:
2.4 数据集统计信息
数据集统计信息如下:
文档数量 |
标注实体数 |
平均实体数/文档 |
|
训练集 |
1,000 |
18,478 |
30.68 |
验证集 |
500 |
4,373 |
29.76 |
测试集 |
497 |
5,096 |
28.66 |
图1: 实体类别分布
TCM-NER是业界首个中医领域的实体识别数据集,希望本数据集的开放能够促进抽取中药信息抽取,知识图谱自动构建等领域的技术发展。
感谢医学标注专家郎珍珍和标注人员辛勤细致的付出!
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
点击阅读原文,进入 OpenKG 网站。