Large language models (LLMs) have made significant progress in various domains, including healthcare. However, the specialized nature of clinical language understanding tasks presents unique challenges and limitations that warrant further investigation. In this study, we conduct a comprehensive evaluation of state-of-the-art LLMs, namely GPT-3.5, GPT-4, and Bard, within the realm of clinical language understanding tasks. These tasks span a diverse range, including named entity recognition, relation extraction, natural language inference, semantic textual similarity, document classification, and question-answering. We also introduce a novel prompting strategy, self-questioning prompting (SQP), tailored to enhance LLMs' performance by eliciting informative questions and answers pertinent to the clinical scenarios at hand. Our evaluation underscores the significance of task-specific learning strategies and prompting techniques for improving LLMs' effectiveness in healthcare-related tasks. Additionally, our in-depth error analysis on the challenging relation extraction task offers valuable insights into error distribution and potential avenues for improvement using SQP. Our study sheds light on the practical implications of employing LLMs in the specialized domain of healthcare, serving as a foundation for future research and the development of potential applications in healthcare settings.


翻译:大型语言模型(LLMs)在医疗保健等各个领域取得了显著进展。然而,临床语言理解任务的专业性质提出了独特的挑战和限制,需要进一步研究。在这项研究中,我们对当今最先进的LLMs,即GPT-3.5、GPT-4和Bard,在临床语言理解任务的范围内进行了全面评估。这些任务涵盖了各种各样的任务,包括命名实体识别、关系抽取、自然语言推理、语义文本相似度、文档分类和问题回答。我们还引入了一种新的提示策略,自问自答提示(SQP),旨在通过引导与所涉及的临床情境相关的信息性问题和答案,提高LLMs的性能。我们的评估强调了针对特定任务的学习策略和提示技术对于提高LLMs在医疗相关任务中的有效性的重要性。此外,我们针对具有挑战性的关系抽取任务进行了深入的误差分析,提供了有价值的误差分布见解,并探讨了使用SQP改进的潜在途径。我们的研究揭示了在医疗保健领域使用LLMs的实际意义,为未来的研究和在医疗保健环境中开发潜在应用奠定了基础。

0
下载
关闭预览

相关内容

知识增强预训练语言模型:全面综述
专知会员服务
90+阅读 · 2021年10月19日
预训练语言模型fine-tuning近期进展概述
专知会员服务
40+阅读 · 2021年4月9日
最新《弱监督预训练语言模型微调》报告,52页ppt
专知会员服务
38+阅读 · 2020年12月26日
使用Python进行医疗临床文本处理,37页ppt
专知会员服务
39+阅读 · 2020年8月5日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月30日
A Survey of Large Language Models
Arxiv
424+阅读 · 2023年3月31日
VIP会员
相关VIP内容
知识增强预训练语言模型:全面综述
专知会员服务
90+阅读 · 2021年10月19日
预训练语言模型fine-tuning近期进展概述
专知会员服务
40+阅读 · 2021年4月9日
最新《弱监督预训练语言模型微调》报告,52页ppt
专知会员服务
38+阅读 · 2020年12月26日
使用Python进行医疗临床文本处理,37页ppt
专知会员服务
39+阅读 · 2020年8月5日
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员