医疗NLP相关数据集整理

2020 年 9 月 20 日 深度学习自然语言处理

点击上方,选择星标置顶,每天给你送干货

阅读大概需要5分钟

跟随小博主,每天进步一丢丢

整理:python遇见NLP

在Github上搜索整理了一波关于医疗NLP的数据集:


1


  • 中文评测数据集

    • 1. Yidu-S4K:医渡云结构化4K数据集

    • 2.瑞金医院糖尿病数据集

    • 3.Yidu-N7K:医渡云标准化7K数据集

    • 4.中文医学问答数据集

    • 5.平安医疗科技疾病问答迁移学习比赛

    • 6.天池新冠肺炎问句匹配比赛

    • 7.中文医患问答对话数据

    • 8.中文医学问答数据

    • 9.CHIP2020各项评测已开放

    • 10.医学数据挖掘与算法评测大赛

  • 中文医学知识图谱

    • CMeKG

  • 英文数据集

    • PubMedQA: A Dataset for Biomedical Research Question Answering

  • 中文医疗领域语料

    • 医学教材 培训考试

    • 哈工大《大词林》开放75万核心实体词及相关概念、关系列表(包含中药/医院/生物 类别)

  • 医学embedding

    • 开源英文医学embedding


    链接:https://github.com/lrs1353281004/Chinese_medical_NLP


    2


    医疗行业专业词汇语料

    说明 数量 文件
    口腔科病历词汇 11,170 stomatology.txt
    国际疾病分类ICD全库 54,304 ICD.csv
    疾病诊断编码库ICD-10 12109 ICD-code-10.csv
    医院固定资产词汇 471 properties.txt
    药品名称词汇 37,308 medicine.txt
    电子病历常见词汇 1985 emr.txt

    链接:https://github.com/xtea/chinese_medical_words



    3


    中文医学NLP公开资源整理:术语集/语料库/词向量/预训练模型/知识图谱/命名实体识别/QA/信息抽取/etc

    术语集/语料库

    • medical-news 中文医学新闻爬虫

    • medical-books 中文LaTex开源医学书籍

    • THUOCL 清华大学thunlp组医学词汇

    • ICD-10-CN ICD-10中文对应

    • OMAHA七巧板医学术语集样例数据

    • 中文糖尿病标注数据集 包含实体标注和关系标注

    词向量/预训练模型

    • ChineseEHRBert 中文电子病历预训练Bert;用Bert测试命名实体识别,问答模型,关系提取任务

    分词

    • PKUSEG PKUSEG分词工具,模型支持选择医学

    知识图谱 / 关系提取

    • cMeKG Chinese Medical Knowledge Graph

    • 瑞金医院人工智能辅助构建知识图谱大赛 糖尿病相关的学术论文以及糖尿病临床指南的实体标注和抽取实体关系任务

    • OMAHA知识图谱(药品适应症) 开放医疗与健康联盟(Open Medical and Healthcare Alliance,OMAHA)构建的药品与药品适应证的知识图谱数据

    • 医疗知识图谱数据 医疗知识图谱数据(ownthink)

    • 病人事件图谱数据集 病人事件图谱是一种新的基于RDF的医疗观察性数据表示模型,可以清晰地表示临床检查、诊断、治疗等多种事件类型以及事件的时序关系。使用三家上海三甲医院的电子病历数据,构建了包括3个专科、173395个医疗事件、501335个事件时序关系以及与5313个知识库概念链接的医疗数据集。

    • 中文症状库 这是一个包含症状实体和症状相关三元组的数据集。中文症状库的数据来自8个主流的健康咨询网站、3个中文百科网站和电子病历。它还包含了中文症状与UMLS中概念的链接结果。

    • 中医医案知识图谱 从医案中抽取临床知识构建知识图谱,帮助用户了解中医特色疗法,以及疾病(如“慢性胃炎”)的临床表现、相关疗法、相关养生保健方法等

    • herbnet 面向中药研究,根据中药领域模型的特点,构建了一个包括中医疾病,方剂,中药, 中药化学成分,药理作用,中药实验,化学实验方法在内的中药本体。进而,基于本体实现了一系列数据库的集成,从而构建了一个中药知识图谱。

    • CHIP2020 中文医学文本实体关系抽取

    命名实体识别

    • CCKS2017 面向中文电子病历的医疗实体识别及属性抽取数据集

    • CCKS2018 面向中文电子病历的医疗实体识别及属性抽取数据集

    • CCKS2019 数据下载 面向中文电子病历的医疗实体识别及属性抽取数据集

    • CHIP2020 中文医学文本命名实体识别

    • CHIP2020 中药说明书实体识别

    QA

    • CCIR2019 CCIR 2019 基于电子病历的数据查询类问答

    • cMedQA 中文医学QA数据集

    • cMedQA2 中文医学QA数据集

    • CMID 中文医学QA意图理解数据集

    • KGQA 基于医药知识图谱的智能问答系统

    • chatbot-base-on-Knowledge-Graph 使用深度学习方法解析问题 知识图谱存储 查询知识点 基于医疗垂直领域的对话系统

    • 中文医疗对话数据集 Chinese medical dialogue data 中文医疗对话数据集

    • webMedQA webMedQA

    • MedDialog The MedDialog dataset contains conversations (in Chinese) between doctors and patients. It has 1.1 million dialogues and 4 million utterances.

    • CHIP2020 中医文献问题生成

    术语标准化

    • CHIP2019 临床术语标准化任务:医渡云标准化7K数据集

    • CHIP2020 临床术语标准化任务

    相似句对判断

    • “公益AI之星”挑战赛-新冠疫情相似句对判定大赛 比赛整理近万条真实语境下疫情相关的肺炎、支原体肺炎、支气管炎、上呼吸道感染、肺结核、哮喘、胸膜炎、肺气肿、感冒、咳血等患者提问句对,要求选手通过自然语言处理技术识别相似的患者问题。

    其他

    • CHIP2018 针对中文的真实患者健康咨询语料,进行问句意图匹配

    • CHIP2019 平安医疗科技疾病问答迁移学习比赛


    链接:https://github.com/GanjinZero/awesome_Chinese_medical_NLP


    4


    Data_数据中有6个文件夹分别是:

    <Andriatria_男科> 94596个问答对 <IM_内科> 220606个问答对 <OAGD_妇产科> 183751个问答对 <Oncology_肿瘤科> 75553个问答对 <Pediatric_儿科> 101602个问答对 <Surgical_外科> 115991个问答对 总计 792099个问答对

    每个文件夹下有一个csv文件,其中的数据格式为:

    department title ask answer
    心血管科 高血压患者能吃党参吗? 我有高血压这两天女婿来的时候给我拿了些党参泡水喝,您好高血压可以吃党参吗? 高血压病人可以口服党参的。党参有降血脂,降血压的作用,可以彻底消除血液中的垃圾,从而对冠心病以及心血管疾病的患者都有一定的稳定预防工作作用,因此平时口服党参能远离三高的危害。另外党参除了益气养血,降低中枢神经作用,调整消化系统功能,健脾补肺的功能。感谢您的进行咨询,期望我的解释对你有所帮助。
    消化科 哪家医院能治胃反流 烧心,打隔,咳嗽低烧,以有4年多 建议你用奥美拉唑同时,加用吗丁啉或莫沙必利或援生力维,另外还可以加用达喜片

    链接:https://github.com/Toyhom/Chinese-medical-dialogue-data


    5


    This dataset is used for Chinese medical QA intent understanding task.

    Dataset format:

    All the data is stored in a JSON file. There are 5 fields in the file. An example as follows:

    {
    "originalText": "间质性肺炎的症状?",
    "entities": [{"label_type": "疾病和诊断", "start_pos": 0, "end_pos": 5}],
    "seg_result": ["间质性肺炎", "的", "症状", "?"],
    "label_4class": ["病症"],
    "label_36class": ["临床表现"]
    }

    链接:https://github.com/liutongyang/CMID


    6


    This is the dataset for Chinese community medical question answering. The dataset is in version 1.0 and is available for non-commercial research. We will update and expand the database from time to time. In order to protect the privacy, the data is anonymized and no personal information is included.


    链接:https://github.com/zhangsheng93/cMedQA



    7


    COVID19 Language Resources: Datasets

    链接:https://github.com/lwgkzl/Covid19-NLP



    8


    Datasets

    • BioCreative V chemical-disease relation (CDR) corpus (in short, BC5CDR corpus) (13, 14, 16, 34): It consists of 1,500 PubMed articles with 4,409 annotated chemicals, 5,818 diseases, and 3,116 chemical-disease interactions. The relation task data is publicly available through BioCreative V at https://biocreative.bioinformatics.udel.edu/resources/corpora/biocreative-v-cdr-corpus/.

    • Traditional Chinese medicine (TCM) literature corpus (in short, TCM corpus) (32): The abstracts of all 106,150 papers published in the 114 most popular Chinese TCM journals between 2011 to 2016 are collected. 3024 herbs, 4957 formulae, 1126 syndromes, and 1650 diseases are found. 5 types of relations are annotated. The entire dataset is available online at http://arnetminer.org/TCMRelExtr.

    • The 2012 informatics for integrating biology and the bedside (i2b2) project temporal relations challenge corpus (in short, i2b2 temporal corpus) (29, 30): It contains 310 de-identified discharge summaries of more than 178,000 tokens, with annotations of clinically significant events, temporal expressions and temporal relations in clinical narratives. On average, each discharge summary in the corpus contains 86.6 events, 12.4 temporal expressions, and 176 raw temporal relations. In this corpus, 8 kinds of temporal relations between events and temporal expressions are defined: BEFORE, AFTER, SIMULTANEOUS, OVERLAP, BEGUN_BY, ENDED_BY, DURING, BEFORE_OVERLAP. The entire annotations are available at http://i2b2.org/NLP/DataSets.

    链接:https://github.com/chentao1999/MedicalRelationExtraction


      
      
        
    下载一:中文版!学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套!
    后台回复【五件套


    下载二:南大模式识别PPT
    后台回复南大模式识别



    说个正事哈



    由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:

    (1)点击页面最上方深度学习自然语言处理”,进入公众号主页。

    (2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。

    感谢支持,比心



    投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

    方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等

    记得备注呦


    推荐两个专辑给大家:
    专辑 | 李宏毅人类语言处理2020笔记
    专辑 | NLP论文解读
    专辑 | 情感分析

    整理不易,还望给个在看!

    登录查看更多
    4

    相关内容

    数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
    Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
    基于多来源文本的中文医学知识图谱的构建
    专知会员服务
    52+阅读 · 2020年8月21日
    深度学习自然语言处理概述,216页ppt,Jindřich Helcl
    专知会员服务
    212+阅读 · 2020年4月26日
    【论文推荐】文本分析应用的NLP特征推荐
    专知会员服务
    33+阅读 · 2019年12月8日
    【EMNLP2019教程】端到端学习对话人工智能,附237页PPT下载
    专知会员服务
    69+阅读 · 2019年11月25日
    六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文
    专知会员服务
    71+阅读 · 2019年11月3日
    医疗知识图谱构建与应用
    专知会员服务
    384+阅读 · 2019年9月25日
    最全中文自然语言处理数据集、平台和工具整理
    深度学习与NLP
    34+阅读 · 2019年6月22日
    中文自然语言处理数据集:ChineseNLPCorpus
    AINLP
    33+阅读 · 2019年6月21日
    别找了,送你 20 个文本数据集
    机器学习算法与Python学习
    67+阅读 · 2019年5月17日
    中文自然语言处理相关资料集合指南
    专知
    18+阅读 · 2019年3月10日
    中文NLP福利!大规模中文自然语言处理语料
    新智元
    37+阅读 · 2019年2月13日
    自然语言处理常见数据集、论文最全整理分享
    深度学习与NLP
    11+阅读 · 2019年1月26日
    干货下载 | 中文自然语言处理 语料/数据集
    七月在线实验室
    30+阅读 · 2018年12月27日
    800万中文词,腾讯AI Lab开源大规模NLP数据集
    黑龙江大学自然语言处理实验室
    10+阅读 · 2018年10月26日
    自然语言处理(NLP)数据集整理
    论智
    20+阅读 · 2018年4月8日
    资源 | 各领域公开数据集下载
    黑龙江大学自然语言处理实验室
    5+阅读 · 2017年12月31日
    Arxiv
    0+阅读 · 2020年11月30日
    Arxiv
    0+阅读 · 2020年11月27日
    Arxiv
    22+阅读 · 2018年8月30日
    Arxiv
    9+阅读 · 2016年10月27日
    VIP会员
    相关VIP内容
    基于多来源文本的中文医学知识图谱的构建
    专知会员服务
    52+阅读 · 2020年8月21日
    深度学习自然语言处理概述,216页ppt,Jindřich Helcl
    专知会员服务
    212+阅读 · 2020年4月26日
    【论文推荐】文本分析应用的NLP特征推荐
    专知会员服务
    33+阅读 · 2019年12月8日
    【EMNLP2019教程】端到端学习对话人工智能,附237页PPT下载
    专知会员服务
    69+阅读 · 2019年11月25日
    六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文
    专知会员服务
    71+阅读 · 2019年11月3日
    医疗知识图谱构建与应用
    专知会员服务
    384+阅读 · 2019年9月25日
    相关资讯
    最全中文自然语言处理数据集、平台和工具整理
    深度学习与NLP
    34+阅读 · 2019年6月22日
    中文自然语言处理数据集:ChineseNLPCorpus
    AINLP
    33+阅读 · 2019年6月21日
    别找了,送你 20 个文本数据集
    机器学习算法与Python学习
    67+阅读 · 2019年5月17日
    中文自然语言处理相关资料集合指南
    专知
    18+阅读 · 2019年3月10日
    中文NLP福利!大规模中文自然语言处理语料
    新智元
    37+阅读 · 2019年2月13日
    自然语言处理常见数据集、论文最全整理分享
    深度学习与NLP
    11+阅读 · 2019年1月26日
    干货下载 | 中文自然语言处理 语料/数据集
    七月在线实验室
    30+阅读 · 2018年12月27日
    800万中文词,腾讯AI Lab开源大规模NLP数据集
    黑龙江大学自然语言处理实验室
    10+阅读 · 2018年10月26日
    自然语言处理(NLP)数据集整理
    论智
    20+阅读 · 2018年4月8日
    资源 | 各领域公开数据集下载
    黑龙江大学自然语言处理实验室
    5+阅读 · 2017年12月31日
    Top
    微信扫码咨询专知VIP会员