In this paper, we release a largest ever medical Question Answering (QA) dataset with 26 million QA pairs. We benchmark many existing approaches in our dataset in terms of both retrieval and generation. Experimental results show that the existing models perform far lower than expected and the released dataset is still challenging in the pre-trained language model era. Moreover, we also experimentally show the benefit of the proposed dataset in many aspects: (i) trained models for other QA datasets in a zero-shot fashion; and (ii) as external knowledge for retrieval-augmented generation (RAG); and (iii) improving existing pre-trained language models by using the QA pairs as a pre-training corpus in continued training manner. We believe that this dataset will not only contribute to medical research but also facilitate both the patients and clinical doctors. See \url{https://github.com/FreedomIntelligence/Huatuo-26M}.


翻译:在本文中,我们发布了一个有着2,600万个问答对的医疗问答数据集,是目前最大的医疗问答数据集。我们使用已有的方法在数据集中进行了检测和生成的实验。实验结果表明,现有的模型的表现远低于预期,而且在预训练语言模型时这个数据集依然具有挑战性。此外,我们还通过实验证明了这个数据集的多种优势:(i)其他问答数据集的训练模型可以以零-shot的方式访问;(ii)对于嵌入检索的生成(RAG)也可以作为外部知识使用;(iii)通过将QA对作为预训练语料库进行持续训练,改善了现有的预训练语言模型。我们相信这个数据集不仅可以为医疗研究做出贡献,而且还可以方便患者和临床医生。参考 \url{https://github.com/FreedomIntelligence/Huatuo-26M}。

1
下载
关闭预览

相关内容

LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
98+阅读 · 2023年6月17日
百篇论文纵览大型语言模型最新研究进展
专知会员服务
69+阅读 · 2023年3月31日
专知会员服务
54+阅读 · 2021年2月2日
专知会员服务
123+阅读 · 2020年9月8日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
中文自然语言处理相关资料集合指南
专知
18+阅读 · 2019年3月10日
时序数据异常检测工具/数据集大列表
极市平台
65+阅读 · 2019年2月23日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年6月16日
Arxiv
0+阅读 · 2023年6月14日
Arxiv
11+阅读 · 2019年6月19日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员