预训练语言模型已经成为大多数自然语言处理任务的事实范式。这也有利于生物医学领域:来自信息学、医学和计算机科学界的研究人员提出了各种在生物医学数据集上训练的预训练模型,如生物医学文本、电子健康记录、蛋白质和DNA序列,用于各种生物医学任务。然而,生物医学预训练的跨学科特点阻碍了它们在社区中的传播,一些现有的工作是相互孤立的,没有全面的比较和讨论。需要系统地回顾生物医学预训练模型的最新进展和它们的应用,而且规范术语和基准。本文总结了预训练语言模型在生物医学领域的最新进展以及它们在生物医学下游任务中的应用。特别是,本文讨论了动机,并提出了现有生物医学预训练的分类法。本文详尽地讨论了它们在生物医学下游任务中的应用。最后,本文说明了各种局限性和未来的趋势,希望这能为研究界的未来研究提供灵感。
https://www.zhuanzhi.ai/paper/aebdec7605f6af9fdfa1f313d9946a65