Objective: Retrieval-based Clinical Decision Support (ReCDS) can aid clinical workflow by providing relevant literature and similar patients for a given patient. However, the development of ReCDS systems has been severely obstructed by the lack of diverse patient collections and publicly available large-scale patient-level annotation datasets. In this paper, we aim to define and benchmark two ReCDS tasks: Patient-to-Article Retrieval (ReCDS-PAR) and Patient-to-Patient Retrieval (ReCDS-PPR) using a novel dataset called PMC-Patients. Methods: We extract patient summaries from PubMed Central articles using simple heuristics and utilize the PubMed citation graph to define patient-article relevance and patient-patient similarity. We also implement and evaluate several ReCDS systems on the PMC-Patients benchmarks, including sparse retrievers, dense retrievers, and nearest neighbor retrievers. We conduct several case studies to show the clinical utility of PMC-Patients. Results: PMC-Patients contains 167k patient summaries with 3.1M patient-article relevance annotations and 293k patient-patient similarity annotations, which is the largest-scale resource for ReCDS and also one of the largest patient collections. Human evaluation and analysis show that PMC-Patients is a diverse dataset with high-quality annotations. The evaluation of various ReCDS systems shows that the PMC-Patients benchmark is challenging and calls for further research. Conclusion: We present PMC-Patients, a large-scale, diverse, and publicly available patient summary dataset with the largest-scale patient-level relation annotations. Based on PMC-Patients, we formally define two benchmark tasks for ReCDS systems and evaluate various existing retrieval methods. PMC-Patients can largely facilitate methodology research on ReCDS systems and shows real-world clinical utility.


翻译:目标: 基于检索的临床决策支持系统(ReCDS)可以通过提供相关文献和类似患者来帮助临床工作流程。然而,ReCDS系统的开发受到了缺乏多样的患者集合和公开可用的大规模患者级别注释数据集的严重阻碍。在本文中,我们旨在使用一种称为PMC-Patients的新数据集来定义和基准测试两个ReCDS任务:患者-文章检索(ReCDS-PAR)和患者-患者检索(ReCDS-PPR)。 方法:我们使用简单的启发式方法从PubMed Central文章中提取患者摘要,并利用PubMed引文图来定义患者-文章关联和患者-患者相似性。我们还在PMC-Patients基准测试上实施和评估了几个ReCDS系统,包括稀疏检索器、密集检索器和最近邻检索器。我们进行了几个案例研究,展示了PMC-Patients的临床效用。 结果:PMC-Patients包含167,000个患者摘要,具有3.1M个患者-文章关联注释和293,000个患者-患者相似性注释,是ReCDS的最大规模资源之一,也是最大的患者数据集。人工评估和分析表明,PMC-Patients是具有高质量注释的多样化数据集。对各种ReCDS系统的评估表明,PMC-Patients基准测试具有挑战性,并需要进一步研究。 结论:我们提供了PMC-Patients,一个大规模,多样化且公开的患者摘要数据集,具有最大规模的患者级别关系注释。基于PMC-Patients,我们正式定义了两个ReCDS系统的基准测试任务,并评估了各种现有的检索方法。PMC-Patients可以在ReCDS系统的方法研究中大大促进,同时显示现实世界的临床效用。

0
下载
关闭预览

相关内容

《普适与移动计算期刊》(PMC)是一本高影响力、同行评议的技术期刊,它发表了高质量的科学文章,涵盖了普适与移动计算和系统的所有方面。官网链接:https://www.sciencedirect.com/journal/pervasive-and-mobile-computing/about/aims-and-scope
快来注册参加微软亚洲研究院数据驱动的优化方法研讨会!
微软研究院AI头条
1+阅读 · 2022年11月18日
精彩活动丨AI for Graph Computation学术研讨会
图与推荐
1+阅读 · 2022年7月16日
深度学习图像检索(CBIR): 十年之大综述
专知
65+阅读 · 2020年12月5日
17篇必看[知识图谱Knowledge Graphs] 论文@AAAI2020
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
论文动态 | 基于知识图谱的问答系统关键技术研究 #02
开放知识图谱
10+阅读 · 2017年8月6日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
1+阅读 · 2023年6月2日
VIP会员
相关VIP内容
相关资讯
快来注册参加微软亚洲研究院数据驱动的优化方法研讨会!
微软研究院AI头条
1+阅读 · 2022年11月18日
精彩活动丨AI for Graph Computation学术研讨会
图与推荐
1+阅读 · 2022年7月16日
深度学习图像检索(CBIR): 十年之大综述
专知
65+阅读 · 2020年12月5日
17篇必看[知识图谱Knowledge Graphs] 论文@AAAI2020
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
论文动态 | 基于知识图谱的问答系统关键技术研究 #02
开放知识图谱
10+阅读 · 2017年8月6日
相关基金
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员