Following the global COVID-19 pandemic, the number of scientific papers studying the virus has grown massively, leading to increased interest in automated literate review. We present a clinical text mining system that improves on previous efforts in three ways. First, it can recognize over 100 different entity types including social determinants of health, anatomy, risk factors, and adverse events in addition to other commonly used clinical and biomedical entities. Second, the text processing pipeline includes assertion status detection, to distinguish between clinical facts that are present, absent, conditional, or about someone other than the patient. Third, the deep learning models used are more accurate than previously available, leveraging an integrated pipeline of state-of-the-art pretrained named entity recognition models, and improving on the previous best performing benchmarks for assertion status detection. We illustrate extracting trends and insights, e.g. most frequent disorders and symptoms, and most common vital signs and EKG findings, from the COVID-19 Open Research Dataset (CORD-19). The system is built using the Spark NLP library which natively supports scaling to use distributed clusters, leveraging GPUs, configurable and reusable NLP pipelines, healthcare specific embeddings, and the ability to train models to support new entity types or human languages with no code changes.


翻译:继全球COVID-19大流行之后,研究该病毒的科学论文数量大幅增长,导致人们对自动化识字审查的兴趣增加。我们提出了一个临床文本挖掘系统,它以三种方式改进了以往的工作。首先,它可以识别100多种不同的实体类型,包括健康的社会决定因素、解剖、风险因素和不利事件,以及其他常用的临床和生物医学实体。第二,文本处理管道包括确认状况检测,以区分现有、缺席、有条件或病人以外的人的临床事实。第三,所使用的深层次学习模型比以往更准确,利用了先进、经过预先训练的实体识别模型的综合管道,改进了先前最佳的确认状况基准。我们从COVID-19公开研究数据集(CORD-19)中提取了趋势和洞察力,例如最常见的病症和症状,以及最常见的生命迹象和EKG发现。该系统是利用Spark NLP图书馆建立的,该图书馆支持扩大分布的集群,利用GPPP、可配置和可再利用的NLP型计算机支持,没有具体的健康模式和实体的升级能力,从而将NLP型计算机转化为特定的版本。

0
下载
关闭预览

相关内容

专知会员服务
124+阅读 · 2020年9月8日
专知会员服务
40+阅读 · 2020年9月6日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
【文章|BERT三步使用NLP迁移学习】NLP Transfer Learning In 3 Steps
开源书:PyTorch深度学习起步
专知会员服务
51+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
195+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
金融领域自然语言处理研究资源大列表
专知
13+阅读 · 2020年2月27日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
Pedestrian Simulation: A Review
Arxiv
1+阅读 · 2021年2月5日
VIP会员
相关VIP内容
专知会员服务
124+阅读 · 2020年9月8日
专知会员服务
40+阅读 · 2020年9月6日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
【文章|BERT三步使用NLP迁移学习】NLP Transfer Learning In 3 Steps
开源书:PyTorch深度学习起步
专知会员服务
51+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
195+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
相关资讯
金融领域自然语言处理研究资源大列表
专知
13+阅读 · 2020年2月27日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
Top
微信扫码咨询专知VIP会员