开源开放 | 中药说明书实体识别数据集TCM-NER

2022 年 10 月 12 日 开放知识图谱

OpenKG地址:http://openkg.cn/dataset/tcm-ner

阿里云天池:https://tianchi.aliyun.com/dataset/dataDetail?dataId=86819

开放许可协议:CC BY-SA 4.0 (署名相似共享)

贡献者:阿里云(陈漠沙)


1、背景

疫情催化下,人工智能正在持续助力中医药传承创新加速发展,其中中医用药知识体系沉淀挖掘是一个基础工作。通过挖掘中药说明书构建中药合理用药的知识图谱,将为中医规范诊疗奠定较好基础。本数据集就是在这样的背景下提出的,通过抽取中药药品说明书中的关键信息,达到自动构建中医药药品知识库的目标。

2、数据集

2.1 数据来源

TCM-NER(Traditional Chinese Medicine - Named Entity Recgonization Dataset)数据源来自中药药品说明书,TCM-NER包含1,997篇文档,训练集、验证集和测试集分别为1,000, 500和497个,共标注实体59,803个。

2.2 标注规范

本数据集由中医专家定义了13类实体:

·药品(DRUG):中药名称,指在中医理论指导下,用于预防、治疗、诊断疾病并具有康复与保健作用的物质。中药主要来源于天然药及其加工品,包括植物药、动物药、矿物药及部分化学、生物制品类药物。例子: 六味地黄丸、逍遥散

·药物成分(DRUG_INGREDIENT): 中药组成成分,指中药复方中所含有的所有与该复方临床应用目的密切相关的药理活性成分。例子:当归、人参、枸杞

·疾病(DISEASE): 疾病名称,指人体在一定原因的损害性作用下,因自稳调节紊乱而发生的异常生命活动过程,是特定的异常病理情形,而且会影响生物体的部分或是所有器官。通常解释为身体病况(medical condition),而且伴随着特定的症状及医学征象。例子:高血压、心绞痛、糖尿病

·症状(SYMPTOM): 指疾病过程中机体内的一系列机能、代谢和形态结构异常变化所引起的病人主观上的异常感觉或某些客观病态改变。例子:头晕、心悸、小腹胀痛

·证候(SYNDROME): 中医学专用术语,概括为一系列有相互关联的症状总称,即通过望、闻、问、切四诊所获知的疾病过程中表现在整体层次上的机体反应状态及其运动、变化,简称证或者候,是指不同症状和体征的综合表现,单一的症状和体征无法表现一个完整的证候。 例子:血瘀、气滞、气血不足、气血两虚

·疾病分组(DISEASE_GROUP): 疾病涉及有人体组织部位的疾病名称的统称概念,非某项具体医学疾病。例子:肾病、肝病、肺病

·食物(FOOD):指能够满足机体正常生理和生化能量需求,并能延续正常寿命的物质。对人体而言,能够满足人的正常生活活动需求并利于寿命延长的物质称之为食物。例子:苹果、茶、木耳、萝卜

·食物分组(FOOD_GROUP): 中医中饮食养生中,将食物分为寒热温凉四性,同时中医药禁忌中对于具有某类共同属性食物的统称,记为食物分组。例子:油腻食物、辛辣食物、凉性食物

·人群(PERSON_GROUP): 中医药的适用及禁忌范围内相关特定人群。例子:孕妇、经期妇女、儿童、青春期少女

·药品分组(DRUG_GROUP): 具有某一类共同属性的药品类统称概念,非某项具体药品名。例子:止咳药、退烧药

·药物剂型(DRUG_DOSAGE): 药物在供给临床使用前,均必须制成适合于医疗和预防应用的形式,成为药物剂型。例子:浓缩丸、水蜜丸、糖衣片

·药物性味(DRUG_TASTE): 药品的性质和气味。例子:味甘、酸涩、气凉

·中药功效(DRUG_EFFICACY): 药品的主治功能和效果的统称,例子:滋阴补肾、去瘀生新、活血化瘀

2.3 标注数据示例

本数据集采用常规的offset下标标记法:

2.4 数据集统计信息

数据集统计信息如下:


文档数量

标注实体数

平均实体数/文档

训练集

1,000

18,478

30.68

验证集

500

4,373

29.76

测试集

497

5,096

28.66

表1: TCM-QC统计信息
实体类别分布如下:

图1: 实体类别分布

2.5 数据集特点
TCM-NER有如下特点:
(1)类别分布不均匀:数据来源于真实世界,如图1所示,实体类型遵行长尾分布。标签分布不均匀是NER任务的一大挑战。
(2)专业性强:中医文本存在许多专业领域词汇,部分类别之间较难区分,如本任务重定义了“症状”和“症候”两类概念,进一步加大了任务的难度。
3、结语

TCM-NER是业界首个中医领域的实体识别数据集,希望本数据集的开放能够促进抽取中药信息抽取,知识图谱自动构建等领域的技术发展。

4、致谢

感谢医学标注专家郎珍珍和标注人员辛勤细致的付出!


 


 

OpenKG


OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

登录查看更多
0

相关内容

命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
构建基于生物医学文献的抑郁症知识图谱
专知会员服务
11+阅读 · 2022年11月14日
使用深度学习进行生物网络分析
专知会员服务
18+阅读 · 2022年6月30日
顾及时空特征的地理知识图谱构建方法
专知会员服务
53+阅读 · 2022年2月15日
专知会员服务
37+阅读 · 2021年5月14日
近期必读的六篇 EMNLP 2020【知识图谱】相关论文和代码
专知会员服务
41+阅读 · 2020年11月10日
专知会员服务
193+阅读 · 2020年10月14日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
开源开放 | 中医文献问题生成数据集TCM-QG
开放知识图谱
7+阅读 · 2022年10月19日
开源开放 | OpenKG发布cnSchema重构版本
开放知识图谱
0+阅读 · 2022年7月29日
开源开放 | 面向家庭常见疾病的知识图谱(东南大学)
开放知识图谱
1+阅读 · 2022年7月15日
开源开放 | 计算机科学示意图问答数据集CSDQA(CCKS2021)
开源开放 | 多模态实体链接数据集MELBench(CCKS2021)
开放知识图谱
2+阅读 · 2021年8月13日
开源开放 | 糖尿病知识图谱DiaKG(CCKS2021)
开放知识图谱
3+阅读 · 2021年8月8日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Hierarchical Graph Capsule Network
Arxiv
20+阅读 · 2020年12月16日
A Survey on Deep Learning for Named Entity Recognition
Arxiv
26+阅读 · 2020年3月13日
Arxiv
11+阅读 · 2018年7月31日
VIP会员
相关VIP内容
构建基于生物医学文献的抑郁症知识图谱
专知会员服务
11+阅读 · 2022年11月14日
使用深度学习进行生物网络分析
专知会员服务
18+阅读 · 2022年6月30日
顾及时空特征的地理知识图谱构建方法
专知会员服务
53+阅读 · 2022年2月15日
专知会员服务
37+阅读 · 2021年5月14日
近期必读的六篇 EMNLP 2020【知识图谱】相关论文和代码
专知会员服务
41+阅读 · 2020年11月10日
专知会员服务
193+阅读 · 2020年10月14日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
相关资讯
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员